Apa itu big data? Data yang besar? Seberapa besar? Apakah itu penting?
Itu kiranya sederetan kecil pertanyaan mengenai istilah yang mulai populer sejak tahun 2012. Penulis sendiri pertama kali mendengar tentang istilah “BIG DATA” saat sedang asik-asiknya menyusun skripsi di tingkat univeritas. Saat itu penulis mengikuti sebuah seminar nasional yang diselenggarakan oleh mahasiswa di Program Studi Statistika UGM dengan tema “Data Mining…..”. Saat itu pola pikir yang terbayang adalah apa itu datang mining sampai saat seminar kemudian beberapa pembiacara mulai menyinggung tentang data mining dan hubungannya dengan big data.
Selain itu, aktivis-aktivis statistika yang merupakan alumni juga banyak membahas mengenai ini karena mereka mulai menemukan istilah ini di dunia kerja yang kebanyakan berhubungan dengan dunia perbankan dan telekomunikasi saat itu, bahkan dari mereka tak segan membentuk forum-forum kecil dan mengajak kami untuk menghadiri presentasi menganai apa itu BIG DATA.
Menurut gartner
“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.”
Sejauh ini, inilah definisi BIG DATA yang paling menghampiri dari apa yang seharusnya setidaknya menurut saya. BIG DATA, data yang besar, sebesar apa sampai data itu kemudian digolongkan sebagai data yang besar? Adakah tolak ukur baku yang mengatur itu ? atau mungkin interval kelas sebagaimana statistisi biasa menggolongkan suatu tingkatan dan sebagainya. Big Data bukan hanya berbicara tentang bagaimana besar ukuran atau jumlah suatu data yang dapat di generate pada suatu proses, tetapi juga berbicara bagaimana efisiensi baik biaya, sumber daya dan tenaga dalam proses pengumpulannya, pengolahannya sampai ke sistem interpretasi hasilnya.
Google bisa dikatakan sebagai pelopor penggunaan BIG DATA, pada tahun 2006 mereka sempat memperkenalkan Google Bigtable. Bigtable merupakan sistem database berskala besar dan cepat yang digunakan Google untuk mengolah berbagai jenis data dari berbagai layanan, termasuk data dari layanan mesin pencari berbasis internet milik mereka. Setelah Google, Facebook pun menerapkan sistem database sejenis untuk menangani melonjaknya pengguna layanan mereka. Dengan teknologi Big Data, Facebook tak pernah kesulitan untuk menangani peredaran data yang melonjak drastis dalam enam tahun terakhir yang berasal dari 1 miliar pengguna jejaring sosial mereka. (tekno.liputan6)
Dari pengertian itu, setidaknya ada 3 hal yang kemudian popular dikenal sebagai 3V yang menjadi ciri dari sebuah BIG DATA.
Volume
Volume yang besar dari sebuah data tentu saja menjadi masalah, khususnya dalam hal penyimpanan atau storage dari data tersebut dan bagaimana data yang jumlah atau volumenya besar ini akan dianalisis dan menghasilkan sebuah kesimpulan untuk pengambilan keputusan. Contoh, bisa kita bayangkan berapa banyak data yang harus disimpan dan dianalisis di sebuah pusat perbelanjaan, kita tidak perlu berbicara Supermarket, cukup minimart yang banyak tersebar di sekitar kita. Jumlah outlet yang ratusan, jumlah produk yang ribuan bahkan puluhan ribu, standar ukuran diskon, jumlah pengunjung dan lainnya. Tentunya data yang besar ini kemudian tidak cukup untuk dianalisis dengan menggunakan excell biasa, mengingat besarnya jumlah data yang mungkin terkumpul pada satu hari transaksi, bagaimana kalau satu bulan? setahun? Bertahun-tahun? Bisa kita bayangkan.
Mengingat tidak semua data yang terkumpull apat digunakan untuk penarikan kesimpulan dan solusi maka sistem storage yang besar sangat diperlukan sebelum kita membuang item atau variabel data yang justru mungkin kita perlukan. Disinilah teknologi BIG DATA diperlukan.
Velocity
Kecepatan pertumbuhan data yang tinggi merupakan hal lain yang saat ini menjadi masalah. Bisa dibilang, permasalahan ini berkaitan erat dengan permasalahan volume data, karena kecepatan data dibuat umumnya berbanding lurus dengan volume data. Data tidak hanya datang dalam jumlah besar, tetapi juga dalam tempo yang lebih singkat dan bahkan ada yang real-time. (datascience)
Salah satu perusahaan telekomunikasi di Australia, misalnya, butuh untuk menganalisa kualitas koneksi internet jutaan pelanggannya secara near real-time. Setiap beberapa menit sekali, jutaan record data jaringan ditaruh ke platform big data, lalu dianalisa pada saat itu juga. Hasil analisa tersebut langsung divisualisasikan ke dashboard tim jaringan, dan tim jaringan bisa langsung bertindak apabila ada satu daerah yang mendadak mengalami penurunan kualitas koneksi internet. Lagi-lagi, tentu platform data konvensional juga bisa melakukan hal tersebut. Seperti alasan pemilihan big data untuk memecahkan masalah volume data, menyimpan dan mengolah data akan lebih ekonomis di platform big data. Beban penyimpanan dan pemrosesan data di data warehouse akan lebih berguna apabila diutilisasi untuk data-data yang berhubungan langsung dengan bisnis — data transaksi, keuangan, dan pelanggan. (datascience)
Variety
Banyaknya ragam atau tipe data merupakan masalah terbesar di sini. Mengapa? Bisa anda bayangkan berapa banyak tipe dan bentuk data yang berseliweran dalam sebuah database? Belum lagi format ketika data itu di upload ke sistem data base, akan sangat beragam. Kebutuhan penyajian data yang lebih sederhana dari sekumpulan data yang kompleks inilah yang kemudian memicu lahirnya teknologi BIG DATA. Karena saat ini bukan lagi saatnya kita “memaksa” orang untuk mengupload sebuah informasi dari jenis file berbeda ke dalam format file yang kita harapkan. Contoh, ketika kita melamar pekerjaan misalnya, penyedia lamaran pasti akan meminta kita untuk mengirim file foto dengan format tertentu dan ukuran tertentu. Untuk apa? untuk memudahkan proses pengumpulan data, menghemat sistem storage dan sebagainya.
Berangkat dari ketiga hal tersebut kemudian muncul pertanyaan, bagaimanakah teknik yang sederhana yang dapat membantu dalam hal pengolahan BIG DATA sehingga dapat membantu dalam pengambilan keputusan di berbagai bidang berdasarkan data riil bukan rekayasa? mari kita mulai dengan membahas yang paling populer saat ini yaitu, Hadoop
Hadoop adalah framework open source berbasis Java di bawah lisensi Apache untuk mensupport aplikasi yang jalan pada Big Data. Hadoop berjalan pada lingkungan yang menyediakan storage dan komputasi secara terdistribusi ke kluster-kluster dari komputer/node.
Kenapa Hadoop?
Mengingat sistem storage standar yang selama ini kita gunakan (untuk kompute PC, laptop atau smartphone) yang terbatas, maka tak terbayangkan bagaimana jika kapasitas data yang akan dan sedang kita gunakan sangat besar. Sederhananya ketika kita menginstall beberapa aplikasi di ponsel, sudah bisa dipastikan kinerja ponsel kita akan melambat karena semakin banyak sistem storage yang dipakai untuk menjalankan aplikasi tersebut.
Disinilah hadoop kemudian mengambil langkah untuk mengakomodir semakin besarnya inputan data yang masuk dengan mendukung pemprosesan secara terdistribusi ke kluster-kluster dari komputer yang didukung oleh dua komponen utama.
- HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian didistribusikan ke kluster-kluster dari komputer.
- MapReduce merupakan algoritma/komputasi terdistribusi
Kemudian, bagaimanakah kita dapat mengaplikasikan penggunaan big data dalam keadaan riil?
Mari kita ambil contoh untuk Analisa Perilaku Belanja Konsumen berikut ini.
Tahukah Anda, bahwa data struk belanja yang dimiliki oleh perusahaan ritel dapat digunakan untuk meneliti perilaku konsumennya?
Sumber: