Untuk rekans yang belum membaca tentang Hadoop dan Big Data mungkin saya sarankan untuk dapat membaca di artikel tentang Big Data dan tentang hadoop
Pengertian hadoop HDFS
Untuk memudahkan saya coba merumuskan definisi HDFS ke dalam poin-poin sebagai berikut :
- HDFS adalah singkatan dari Hadoop distributed file system
- Sistem file terdistribusi yang di desain untuk sistem file bersifat fault-tolerant yang bisa berjalan pada banyak server spesifikasi rendah atau murah (low-cost hardware)
- Merupakan sub-proyek dari Proyek apache hadoop
- Didesain untuk mendukung aplikasi dengan set data yang besar, bahkan untuk file yang berukuran terabyte sekalipun.
fault-tolerant menggambarkan sistem komputasi di mana jika ada node yang mati atau rusak maka ada node lainnya yang mengambil alih pemrosesan sehingga tanpa mengganggu layanan sama sekali. Node di sini bisa berarti Server, Komponen, Komputer
Jadi, apa manfaat HDFS dalam istilah Big Data?
Untuk menjawab pertanyaan tersebut, kita bisa memulai dengan menjawab dua pertanyaan yang behubungan dengan tujuan HDFS didesain/dibuat.Bagaimana desain HDFS sehingga memiliki kemampuan pengolahan data set besar?
Hal ini karena ketika file diproses melalui HDFS, file tersebut dipecah kedalam bagian-bagian lebih kecil dan kemudian bagian kecil dari file tersebut di-distribusikan ke beberapa node dalam sistem kluster, sehingga memungkinkan pemrosesan secara pararelBagaimana desain HDFS sehingga memiliki sifat fault-tolerant?
Dengan file dipecah-pecah dan terdistribusi copy-annya ke beberapa node maka bagian file yang ada pada Node mati/rusak bisa ditemukan di node lainnya sehingga pengolahan yang membutuhkan bagian file tersebut tetap bisa berjalan.Kesimpulan :
Hadoop HDFS adalah sistem file terdistribusi yang bersifat fault-tolerant dan mendukung untuk mengolah data set yang besar (Big Data)
0 Response to "Hadoop HDFS adalah"
Post a Comment