Perbandingan Performa Apache Impala dengan Apache Spark dalam Mengeksekusi Kueri

Authors

  • Pratama Rangkuti Universitas Sriwijaya
  • Muhammad Zihni Athallah Universitas Sriwijaya
  • Tasya Harwani Barus
  • Nadila Afisa Rani
  • Muhammad Ikhsan Setiawan

DOI:

https://doi.org/10.1233/jnca.v2i2.74

Keywords:

Apache Impala, Apache Spark, Waktu Eksekusi, Kueri, Pemrosesan Data

Abstract

Perkembangan teknologi komputasi modern membawa transformasi besar dalam pengelolaan dan analisis data. Saat ini, kita memiliki akses ke teknologi komputasi yang kuat, yang memudahkan pengolahan dan analisis data. Apache Impala dan Apache Spark adalah dua platform yang memainkan peran penting dalam ekosistem analisis data saat ini. Keduanya adalah bagian integral dari Hadoop, sebuah framework open-source yang efisien dalam penyimpanan dan pemrosesan data besar.Apache Impala adalah query engine yang memungkinkan eksekusi query SQL secara interaktif terhadap data yang tersimpan di HDFS atau HBase. Di sisi lain, Apache Spark adalah platform yang mengintegrasikan pemrosesan data streaming dan batch dalam satu kerangka kerja yang fleksibel. Kedua platform ini memiliki keunggulan dan perbedaan yang perlu dipahami dengan baik.Penelitian ini bertujuan untuk membandingkan performa eksekusi kueri antara Apache Impala dan Apache Spark. Eksperimen dilakukan dengan merancang kueri yang serupa dan menjalankannya pada kedua platform dengan dataset yang ada. Waktu eksekusi kueri dicatat dan dianalisis untuk memahami kinerja relatif dari masing-masing platform dalam menanggapi permintaan kueri.Hasil dari penelitian ini memberikan wawasan berharga tentang kecepatan dan efisiensi eksekusi kueri antara Apache Impala dan Apache Spark. Pemahaman ini dapat membantu organisasi dan praktisi data dalam memilih platform yang sesuai dengan kebutuhan dan konteks analisis data mereka.

 

Downloads

Published

2023-12-05