"Hadoop adalah ?"
"Sejarah Hadoop ?"
"Mengapa Hadoop Big Data diperlukan?"
Di atas adalah beberapa pertanyaan mendasar yang muncul ketika saya memulai mempelajari hadoop. Melalui artikel ini saya mencoba menyajikan untuk rekans sekalian tentang pengertian hadoop, dan semoga dapat memudahkan pemahaman awal tentang hadoop.
Tanpa banyak basa-basi lagi berikut pembahasan sederhananya, semoga rekans bisa nyaman membaca sampai akhir.
Hadoop adalah
Hadoop adalah framework atau platform open source berbasis Java di bawah lisensi Apache untuk support aplikasi yang jalan pada Big Data. Hadoop menggunakan teknologi Google MapReduce dan Google File System (GFS) sebagai fondasinya.
Jika definisi hadoop dituangkan dalam poin-poin, maka berikut bullet poin-nya :
1. Hadoop merupakan framework/Platform open source berbasis Java
2. Hadoop di bawah lisensi Apache
3. Hadoop untuk support aplikasi yang jalan pada Big Data
4. Hadoop dikembangkan oleh Doug Cutting
5. Hadoop gunakan teknologi Google MapReduce dan Google File System (GFS)
Framework Hadoop tersusun dari 4 komponen utama, pembahasan detil terkait hal ini dapat dibaca pada artikel tentang "Arsitektur Hadoop Big Data"
1. Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.
2. Hadoop Distributed File System (HDFS) adalah sebuah distributed file-system.
3. Hadoop YARN adalah sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan scheduling.
4. Hadoop MapReduce adalah sebuah model programming untuk pengelolaan data skala besar.
Sejarah Hadoop ?
Pada awalnya Hadoop dikembangkan oleh Doug Cutting dan Mike Cafarella pada tahun 2005 yang saat itu bekerja di Yahoo. Nama Hadoop berdasarkan mainan 'Gajah' anak dari Doug Cutting.
Seperti yang sudah saya singgung di atas, Hadoop terinspirasi dari makalah tentang Google MapReduce dan Google File System (GFS) yang ditulis oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat pada tahun 2003.
Mengapa Hadoop Big Data diperlukan?
Jika rekans memperhatikan pada definisi hadoop di atas, dapat dikatakan hadoop adalah sebagai solusi untuk menjawab tantangan Big Data, detil pengertian big data bisa di baca di artikel Big Data adalah.
Berikut ini 3 tantangan utama sehingga hadoop big data menjadi diperlukan :
1. Volume, keperluan menyimpan dan mengelola data dalam jumlah yang sangat besar, dan data tersebut selalu tambah besar setiap saat
2. Velocity, begitu cepat data yang muncul dan keperluan untuk bisa mengakses data besar tersebut dengan cepat
3. Variety, semakin bervariasinya data saat ini sehingga dengan teknologi relational database (RDBMS) saat ini sudah tidak bisa ditangani lagi.
Hadoop optimal digunakan untuk menangani data dalam jumlah besar baik data Structured, Semi-structured, maupun Unstructured. Hadoop mereplikasi data di beberapa komputer (Klustering), sehingga jika salah satu komputer mati/problem maka data dapat diproses dari salah satu komputer lainnya yang masih hidup.
Proses Hadoop adalah berupa operasi batch menangani sejumlah data yang sangat besar, sehingga waktu respon tidak serta-merta. Mengenai pemrosesan, jika dihubungkan dengan solusi Relational Database System (RDBMS) hadoop memiliki limitasi sebagai berikut :
1. Tidak cocok untuk OLTP (Online Transaction Processing), di mana data dapat diakses secara randon ke Relational Database
2. Tidak cocok untuk OLAP (Online Analytic Processing)
3. Tidak cocok untuk DSS (Decission Support System)
4. Proses update tidak bisa untuk dilakukan (seperti pada hadoop 2.2), namun untuk Append bisa dilakukan
Berdasarkan beberapa limitasi tersebut, untuk saat ini dapat disimpulkan hadoop cocok untuk menangani Big Data, menjadi pelengkap OLTP, OLAP,dan DSS, jadi hadoop tidak untuk menggantikan RDBMS. Saya ulangi untuk saat ini, namun bisa jadi suatu saat hadoop bisa lepas dari limitasi tersebut.
Kesimpulan :
Hadoop adalah sebuah framework sebagai solusi untuk tantangan Big Data.
Thank you gan sangat bermanfaat sekali pembahasannya. tapi masih kurang paham soal hadoop. apa ini fokus di infrastruktur nya saja atau lebih ke ERP seperti SAP dan Oodo
ReplyDeleteMampir juga ke tempat ane ya gan. Membahas jaringan komputer dan virtualization.
Andre Networking