Data cepat: Langkah selanjutnya setelah data besar

Cara big data menjadi besar adalah melalui aliran data masuk yang konstan. Dalam lingkungan bervolume tinggi, data tersebut tiba dengan kecepatan yang luar biasa, namun masih perlu dianalisis dan disimpan.

John Hugg, arsitek perangkat lunak di VoltDB, mengusulkan bahwa alih-alih hanya menyimpan data itu untuk dianalisis nanti, mungkin kami telah mencapai titik di mana data dapat dianalisis saat dicerna sambil tetap mempertahankan tingkat asupan yang sangat tinggi menggunakan alat seperti Apache Kafka.

- Paul Venezia

Kurang dari selusin tahun yang lalu, hampir tidak mungkin membayangkan menganalisis data historis berukuran petabyte menggunakan perangkat keras komoditas. Saat ini, cluster Hadoop yang dibangun dari ribuan node hampir menjadi hal biasa. Teknologi open source seperti Hadoop menata ulang cara memproses petabyte demi petabyte data secara efisien menggunakan komoditas dan perangkat keras virtual, membuat kemampuan ini tersedia dengan murah bagi pengembang di mana saja. Hasilnya, bidang big data muncul.

Revolusi serupa terjadi dengan apa yang disebut data cepat. Pertama, mari kita tentukan data cepat. Data besar sering kali dibuat oleh data yang dihasilkan dengan kecepatan luar biasa, seperti data aliran klik, data ticker keuangan, agregasi log, atau data sensor. Seringkali peristiwa ini terjadi ribuan hingga puluhan ribu kali per detik. Tidak heran jika jenis data ini sering disebut sebagai "selang kebakaran".

Saat kami berbicara tentang selang kebakaran dalam data besar, kami tidak mengukur volume dalam gigabyte, terabyte, dan petabyte yang biasa digunakan oleh gudang data. Kami mengukur volume dalam hal waktu: jumlah megabyte per detik, gigabyte per jam, atau terabyte per hari. Kita berbicara tentang kecepatan serta volume, yang menjadi inti dari perbedaan antara data besar dan gudang data. Data besar tidak hanya besar; itu juga cepat.

Manfaat data besar hilang jika data segar dan bergerak cepat dari selang kebakaran dibuang ke HDFS, RDBMS analitik, atau bahkan file datar, karena kemampuan untuk bertindak atau memperingatkan saat ini, saat sesuatu sedang terjadi , hilang. Selang kebakaran mewakili data aktif, status langsung, atau data dengan tujuan berkelanjutan. Gudang data, sebaliknya, adalah cara melihat data historis untuk memahami masa lalu dan memprediksi masa depan.

Bertindak berdasarkan data saat diterima telah dianggap mahal dan tidak praktis jika bukan tidak mungkin, terutama pada perangkat keras komoditas. Sama seperti nilai dalam data besar, nilai dalam data cepat dibuka kuncinya dengan implementasi antrian pesan dan sistem streaming yang dirancang ulang seperti open source Kafka dan Storm, dan implementasi ulang basis data dengan pengenalan penawaran NoSQL dan NewSQL open source .

Menangkap nilai dalam data cepat

Untuk memproses data yang mencapai puluhan ribu hingga jutaan peristiwa per detik, Anda memerlukan dua teknologi: Pertama, sistem streaming yang mampu mengirimkan peristiwa secepat peristiwa itu masuk; dan kedua, penyimpanan data yang mampu memproses setiap item secepat barang itu tiba.

Mengirimkan data cepat

Kafka dirancang untuk menjadi antrian pesan dan untuk memecahkan masalah yang dirasakan dari teknologi yang ada. Ini semacam antrian uber dengan skalabilitas tak terbatas, penerapan terdistribusi, multitenancy, dan persistensi yang kuat. Sebuah organisasi dapat menggunakan satu cluster Kafka untuk memenuhi semua kebutuhan antrian pesannya. Namun, pada intinya, Kafka menyampaikan pesan. Itu tidak mendukung pemrosesan atau kueri dalam bentuk apa pun.