"Big Data Adalah?"
"Tools gratisan apa saja yang digunakan untuk solusi Big Data?"
"Manfaat utama Big Data untuk apa?"
Di atas adalah pertanyaan-pertanyaan yang muncul dalam fikiran saya ketika mulai belajar Big Data. Berikut ini yang mungkin bisa menjawab beberapa pertanyaan tersebut, walaupun tidak ada jaminan inilah yang paling tepat (akan saya update sejalan pemahaman saya). Tapi saya rasa ini cukup untuk sebagai awal pemahamam dalam proses belajar tentang Big Data.
Apa yang dimaksud dengan Big Data?
Big Data adalah istilah yang digunakan untuk menggambarkan data dengan karakteristik volume/size yang sangat besar baik Structured, Semi-Structured maupun Unstructured. Istilah ini muncul pertama kali pada sekitar tahun 2000-an, ketika definisi Big Data dijelaskan dalam 3V oleh seorang analist bernama Doug Laney :
1. Volume, data yang disimpan oleh suatu organisasi dalam jumlah yang besar
2. Velocity, ada kebutuhan untuk dapat mengakses data besar tersebut dengan cepat
3. Variety, data berasal dari berbagi macam variasi format data.
Berikut ini 3 jenis Format data :
1. Structured, relational database (RDBMS)
2. Semi-Structured, XML, JSON
3. Unstructured, document, jurnal, metadata, gambar, video, file teks, audio, ebooks, email message, social media, dll.
Big Data Open Source Tools
Dengan perkembangan internet yang sangat pesat saat ini terutama untuk data Unstructure, mau tidak mau kita dihadapkan pada pertumbuhan data yang sangat cepat. Tantangan yang dihadapi oleh Organisasi, lembaga bisnis adalah bagaimana menyimpan dan memanfaatkan data yang besar tersebut agar menjadi sesuatu yang bisa bermanfaat untuk kemajuan organisasi, lembaga bisnis atau perusahaan.
Oleh karena itu , Solusi Big Data (terutama untuk yang gratisan..hehe) atau saya istilahkan sebagai Big Data Open Source Tools menjadi idola untuk ke depannya.
Berikut ini beberapa Open-Source tools yang biasa digunakan dalam solusi Big Data :
1. Hadoop adalah Sistem untuk memproses volume data yang sangat besar
2. Apache HBase, Untuk akses real-time data Hadoop, contoh database Hadoop
3. MapReduce, Anggap saja sebagai bahasa tingkat mesin (assembler) untuk komputasi terdistribusi (cluster) secara pararel. Digunakan untuk perhitungan di Hadoop, dengan kemampuan komputasi/memproses data dalam jumlah besar
4. Pig, bahasa tingkat tinggi yang dikembangkan oleh Yahoo, yang menghasilkan kode MapReduce untuk menganalisis data sets yang besar
5. Hive, bahasa tingkat tinggi yang dikembangkan oleh Facebook dengan sintaks seperti SQL, Hive menyediakan tools data warehousing untuk melakukan extract, transform and load (ETL) data, dan dan melakukan query terhadap file yang tersimpan di Hadoop files (HDFS)
6. AVRO, New format data serialisasi (protokol buffer dll)
7. Zookeeper, Sistem terdistribusi koordinasi, sebagai pusat konfigurasi dan penamaan registry untuk sistem terdistribusi dalam skala besar
8. Ambari, berfungsi untuk mengelola dan memonitor cluster Hadoop melalui web
9. Spark, sebuah framework yang melakukan komputasi secara klastering
10. Sqoop, Untuk mentransfer data terstruktur Hadoop
11. Oozie, Sistem Penjadwalan yang dikembangkan oleh Yahoo, untuk mengelola Jobs di Hadoop
12. HCatalog, Sebagai komponen kunci dari Apache Hive , HCatalog merupakan metadata dan sistem manajemen table untuk platform Hadoop yang lebih luas. Hal ini memungkinkan penyimpanan data dalam format apapun baik terstruktur maupun tidak tersetruktur.
13. dll
Big Data Analisis
Big Data bukan hanya sekedar kemampuan menampung data dalam jumlah yang besar, yang lebih penting adalah apa yang bisa kita lakukan terhadap data dalam volume besar tersebut, bagaimana kita menggunakan data dengan volume besar tersebut. Salah satu pemanfaatan-nya adalah untuk kebutuhan data analisis.
Big Data analisis atau Analisis Big Data dapat dilakukan dalam rangka membantu proses pengambilan keputusan (Decision Support) dan penentuan strategi (Strategic Business) dari sebuah organisasi, lembaga bisnis, atau perusahaan.
Berikut ini contoh implementasi big data selain untuk data analisis :
- Analisis sentimen
- Analisis prediktif
- Analisis social media
- Analisis segmentasi pelanggan
- Analisis pemasaran/kampanye (campaign analysis)
- Analisis kinerja produk atau layanan
- Analisis untuk Deteksi penipuan (Fraud Detection)
- Analisis dalam rangka pengelolaan pelanggan (Customer Relationship Management)
- Manajemen Risiko Keuangan (Finacial Risk Management )
- Machine learning
- dan masih banyak lagi yang akan saya update sejalan proses pembelajaran.
Kesimpulan :
Big Data adalah suatu istilah yang lahir untuk menjawab 3 tantangan berikut ini :
1. Kebutuhan penyimpanan data dalam volume yang besar
2. Kebutuhan akses cepat terhadap volume data besar
3. kebutuhan agar dapat menyimpan dan mengolah data yang bervariasi.
Data dalam jumlah besar tersebut akan sia-sia saja jika tidak dimanfaatkan seperti untuk big data Analisis, dan untuk dapat mengimplementasikan solusi Big data tentu kita butuh juga mengerti software yang bisa digunakan, terutama yang gratisan atau bisa dikatakan Big Data open source tools.
0 Response to "Big Data Adalah"
Post a Comment