Komparasi Kecepatan Apache Impala Dengan Apache Hive Dalam Merespon Kueri pada Hadoop Ecosystem

Authors

  • Muhamad Arief Rifqy Muhamad Universitas Sriwijaya

Keywords:

Hadoop Ecosystem1, Apache Hive 2, Apache Impala 3

Abstract

Pada era yang modern ini, data bukanlah sesuatu yang sulit untuk diolah dan dianalisis dibandingkan dengan era berpuluh puluh tahun yang lalu. Kini kita telah mengenal teknologi komputasi yang biasa kita kenal dengan komputer. Tak hanya itu, kini telah ada berbagai fitur dan tambahan yang memudahkan user untuk menganalisis data. Salah satunya ialah dengan bantuan Apache Impala dan Apache Hive. Keduanya merupakan bagian dari hadoop. Hadoop merupakan Framework open-source yang efektif untuk menyimpan dataset dalam jumlah besar serta memproses data mulai dari ukuran gigabyte hingga petabyte secara efisien. Data akan diolah secara terdistribusi dalam waktu yang bersamaan, sehingga kecepatan proses bisa lebih singkat. Salah satu modul utama dalam hadoop ialah Hive. Sedangkan Impala merupakan query engine yang berjalan di atas Hadoop. Impala memberikan kemampuan untuk melakukan query SQL secara interaktif terhadap data yang disimpan di HDFS atau HBase, dengan menggunakan metadata, SQL syntax, ODBC driver dan user interface (Hue Beeswax) yang sama dengan Apache Hive. Apache Impala dan Apache Hive sama sama digunakan untuk menganalisis data. Namun, yang menjadi sasaran dalam penelitian ini ialah perbedaan antara kedua fitur tersebut. Penelitian ini ditujukan untuk mencari perbedaan antara Apache Impala dan Apache Hive. Langkah penelitian yang dilakukan adalah membuat tabel dan insert ke database, memasukkan statement konten beserta isi ke dalam tabel dan menganalisis hasil kecepatan dari kedua perbandingan tersebut. Hasil dari penelitian tersebut menghasilkan bahwa dalam merespon query, Apache Impala lebih cepat daripada Apache Hive. Pada dasarnya keduanya memiliki kelebihan dan kekurangan  masing masing, Impala berbeda dari hive; lebih tepatnya, ini sedikit lebih baik daripada hive. Impala mendukung pemrosesan paralel, tidak seperti Hive. Untuk proses besar dan besar, sistem terkadang membagi tugas menjadi beberapa segmen, dan setelah itu, menugaskannya ke prosesor yang berbeda.

Published

2023-08-01