Penerapan Sorted Wordcount Dengan Mapreduce Hadoop
Keywords:
MapReduce, Wordcount, Hadoop, HDFS, ParalelAbstract
Hadoop memfasilitasi pemrosesan kumpulan data besar secara terdistribusi dan menyediakan fondasi di mana layanan dan aplikasi lain dapat dibangun. MapReduce dan HDFS adalah dua komponen utama Hadoop. Hadoop MapReduce memproses sejumlah besar data terstruktur dan tidak terstruktur yang disimpan dalam HDFS. MapReduce adalah kerangka kerja Hadoop dan model pemrograman untuk memproses data besar menggunakan paralelisme dan distribusi otomatis di ekosistem Hadoop. Salah satu program yang menggunakan konsep MapReduce yang disediakan oleh Hadoop adalah Wordcount. Wordcount merupakan program yang bertujuan untuk menghitung kata pada file plaintext. Proses MapReduce Wordcount ini dibagi menjadi 2 tahap, yaitu proses mapping dan reducing. Wordcount adalah contoh tipikal di mana pengembangan dengan konsep MapReduce dimulai dari Hadoop itu sendiri. Proses reducing pada Wordcount dimasukkan untuk menghitung jumlah kemunculan setiap kata dalam file input yang disediakan. Pada implementasi kali ini, hasil output yang diurutkan tidak hanya berdasarkan kata-kata tetapi juga berdasarkan frekuensi kemunculan kunci.