Apache Oozie Workflow Scheduler pada Hadoop
Apache Oozie Workflow Scheduler pada Hadoop
Abstract
Big Data adalah kumpulan data dengan volume baik yang terstruktur maupun tidak terstruktur dalam ukuran yang sangat besar, kompleks dan terus bertambah setiap waktu sehingga sulit untuk diproses menggunakan database tradisional maupun perangkat lunak. Data ini dihasilkan melalui aktivitas internet yang rutin dilakukan oleh manusia, baik untuk tujuan pribadi maupun bisnis. Oleh karena itu, penting untuk kita agar mampu mengelola big data dengan baik. Karena nyatanya peran big data bagi kehidupan cukup besar.
Sebelumnya pengolahan Big Data seringkali bermasalah saat data yang diolah bersifat heterogen, seperti structured data, semi-structured data, dan unstructured data. Karena Big Data sangat penting bagi perusahaan, dibutuhkan pula pengolahan yang lebih efektif dan efisien. Salah satu implementasi dari Big Data yang cukup terkenal adalah Apache Hadoop. Framework Hadoop hadir dan memungkinkan pengolahan data lebih banyak, menyimpan data heterogen dan mempercepat proses pengolahannya. Hadoop merupakan sebuah tools framework yang dibuat oleh Google dan Apache Software Foundation yang dikhususkan untuk mempermudah pekerjaan yang terkait dengan Big Data Analytics. Hadoop bisa mengatasi segala permasalahan pengolahan Big Data yang masih dilakukan secara konvensional.
Hadoop adalah framework open source yang sangat efektif untuk menyimpan dataset dalam jumlah yang sangat besar. Selain menyimpan, framework ini tentunya juga bisa memproses data mulai dari ukuran gigabyte hingga petabyte secara efisien. Inti atau core dari Hadoop ini adalah sebagai software utama yang menjadi dasar dari ekosistem. Inti hadoop ini terdiri dari beberapa bagian yaitu Hadoop Distributed File System (HDFS) dan Map Reduce. HDFS adalah tempat data-data dan file disimpan. Map Reducedisini adalah program untuk melakukan datamining dan pengolahan data lainnya dari file atau data yang disimpan di HDFS. Namun seiring dengan semakin berkembangnya teknologi, Hadoop bisa ditambah tools selain HDFS dan MapReduce. Ada banyak macam tools selain HDFS dan MapReduce yang berperan sebagai core element di Hadoop Ecosystem itu sendiri, seperti Apache Oozie misalnya. Apache Oozie adalah sistem penjadwal untuk menjalankan dan mengelola pekerjaan Hadoop di lingkungan terdistribusi. Disini kami akan membahas mengenai bagaimana sebenarnya alur kerja Apache Oozie pada Hadoop