Apa itu analitik data besar? Jawaban cepat dari beragam kumpulan data

Ada data, lalu ada data besar. Lalu apa bedanya?

Data besar ditentukan

Definisi big data yang jelas mungkin sulit dijabarkan karena big data dapat mencakup banyak kasus penggunaan. Tetapi secara umum istilah ini mengacu pada kumpulan data yang sangat besar dalam volume dan sangat kompleks sehingga produk perangkat lunak pemrosesan data tradisional tidak mampu menangkap, mengelola, dan memproses data dalam jumlah waktu yang wajar.

Kumpulan data besar ini dapat mencakup data terstruktur, tidak terstruktur, dan semistruktur, yang masing-masing dapat ditambang untuk mendapatkan wawasan.

Berapa banyak data yang sebenarnya merupakan "besar" terbuka untuk diperdebatkan, tetapi biasanya bisa dalam kelipatan petabyte — dan untuk project terbesar dalam rentang exabyte.

Seringkali, data besar dicirikan oleh tiga Vs:

  • volume data yang ekstrim
  • luas berbagai jenis data
  • yang kecepatan di mana data yang perlu diproses dan dianalisis

Data yang membentuk penyimpanan data besar dapat berasal dari sumber yang mencakup situs web, media sosial, aplikasi desktop dan seluler, eksperimen ilmiah, dan — semakin — sensor dan perangkat lain di internet of things (IoT).

Konsep big data hadir dengan seperangkat komponen terkait yang memungkinkan organisasi menggunakan data untuk penggunaan praktis dan memecahkan sejumlah masalah bisnis. Ini termasuk infrastruktur TI yang diperlukan untuk mendukung teknologi data besar, analitik yang diterapkan pada data; platform data besar yang diperlukan untuk proyek, kumpulan keahlian terkait, dan kasus penggunaan aktual yang masuk akal untuk data besar.

Apa itu analisis data?

Yang benar-benar memberikan nilai dari semua organisasi big data yang dikumpulkan adalah analitik yang diterapkan pada data. Tanpa analitik, yang melibatkan pemeriksaan data untuk menemukan pola, korelasi, wawasan, dan tren, data hanyalah sekumpulan satu dan nol dengan penggunaan bisnis terbatas.

Dengan menerapkan analitik ke data besar, perusahaan dapat melihat manfaat seperti peningkatan penjualan, peningkatan layanan pelanggan, efisiensi yang lebih besar, dan peningkatan daya saing secara keseluruhan.

Analisis data melibatkan pemeriksaan kumpulan data untuk mendapatkan wawasan atau menarik kesimpulan tentang apa yang dikandungnya, seperti tren dan prediksi tentang aktivitas masa depan.

Dengan menganalisis informasi menggunakan alat analisis data besar, organisasi dapat membuat keputusan bisnis yang lebih terinformasi seperti kapan dan di mana harus menjalankan kampanye pemasaran atau memperkenalkan produk atau layanan baru.

Analytics dapat merujuk ke aplikasi intelijen bisnis dasar atau lebih canggih, analitik prediktif seperti yang digunakan oleh organisasi ilmiah. Di antara jenis analisis data yang paling canggih adalah data mining, di mana analis mengevaluasi kumpulan data besar untuk mengidentifikasi hubungan, pola, dan tren.

Analisis data dapat mencakup analisis data eksplorasi (untuk mengidentifikasi pola dan hubungan dalam data) dan analisis data konfirmatori (menerapkan teknik statistik untuk mengetahui apakah asumsi tentang kumpulan data tertentu benar.

Perbedaan lainnya adalah analisis data kuantitatif (atau analisis data numerik yang memiliki variabel kuantitatif yang dapat dibandingkan secara statistik) vs. analisis data kualitatif (yang berfokus pada data nonnumerik seperti video, gambar, dan teks).

Infrastruktur IT untuk mendukung big data

Agar konsep big data berfungsi, organisasi perlu memiliki infrastruktur untuk mengumpulkan dan menyimpan data, menyediakan akses ke data tersebut, dan mengamankan informasi saat disimpan dan dalam perjalanan. Ini membutuhkan penerapan alat analitik data besar.

Pada tingkat tinggi, ini termasuk sistem penyimpanan dan server yang dirancang untuk data besar, perangkat lunak manajemen dan integrasi data, perangkat lunak intelijen bisnis dan analitik data, dan aplikasi data besar.

Sebagian besar infrastruktur ini kemungkinan akan berada di lokasi, karena perusahaan ingin terus memanfaatkan investasi pusat data mereka. Namun, semakin banyak organisasi yang mengandalkan layanan komputasi awan untuk menangani sebagian besar kebutuhan data besar mereka.

Pengumpulan data membutuhkan sumber untuk mengumpulkan data. Banyak di antaranya — seperti aplikasi web, saluran media sosial, aplikasi seluler, dan arsip email — sudah ada. Tetapi saat IoT semakin mengakar, perusahaan mungkin perlu menerapkan sensor pada semua jenis perangkat, kendaraan, dan produk untuk mengumpulkan data, serta aplikasi baru yang menghasilkan data pengguna. (Analisis big data berorientasi IoT memiliki teknik dan alat khusus sendiri.)

Untuk menyimpan semua data yang masuk, organisasi perlu memiliki penyimpanan data yang memadai. Di antara opsi penyimpanan adalah gudang data tradisional, data lake, dan penyimpanan berbasis cloud.

Alat infrastruktur keamanan mungkin termasuk enkripsi data, otentikasi pengguna dan kontrol akses lainnya, sistem pemantauan, firewall, manajemen mobilitas perusahaan, dan produk lain untuk melindungi sistem dan data,

Teknologi data besar

Selain infrastruktur TI tersebut di atas digunakan untuk data secara umum. Ada beberapa teknologi khusus untuk data besar yang harus didukung oleh infrastruktur TI Anda.

Ekosistem Hadoop

Hadoop adalah salah satu teknologi yang paling terkait erat dengan data besar. Proyek Apache Hadoop mengembangkan perangkat lunak sumber terbuka untuk komputasi terdistribusi yang dapat diskalakan.

Pustaka perangkat lunak Hadoop adalah kerangka kerja yang memungkinkan pemrosesan terdistribusi dari kumpulan data besar di seluruh kluster komputer menggunakan model pemrograman sederhana. Ini dirancang untuk meningkatkan dari satu server menjadi ribuan, masing-masing menawarkan komputasi dan penyimpanan lokal.

Proyek ini mencakup beberapa modul:

  • Hadoop Common, utilitas umum yang mendukung modul Hadoop lainnya
  • Hadoop Distributed File System, yang menyediakan akses throughput tinggi ke data aplikasi
  • Hadoop YARN, kerangka kerja untuk penjadwalan pekerjaan dan manajemen sumber daya cluster
  • Hadoop MapReduce, sistem berbasis YARN untuk pemrosesan paralel dari kumpulan data besar.

Apache Spark

Bagian dari ekosistem Hadoop, Apache Spark adalah kerangka kerja komputasi cluster open source yang berfungsi sebagai mesin untuk memproses data besar dalam Hadoop. Spark telah menjadi salah satu kerangka kerja pemrosesan terdistribusi data besar utama, dan dapat diterapkan dalam berbagai cara. Ini menyediakan binding asli untuk Java, Scala, Python (terutama distro Anaconda Python), dan bahasa pemrograman R (R sangat cocok untuk big data), dan mendukung SQL, streaming data, pembelajaran mesin, dan pemrosesan grafik.

Danau data

Data lake adalah tempat penyimpanan yang menyimpan volume data mentah yang sangat besar dalam format aslinya hingga data tersebut dibutuhkan oleh pengguna bisnis. Membantu mendorong pertumbuhan data lake adalah inisiatif transformasi digital dan pertumbuhan IoT. Data lake dirancang untuk memudahkan pengguna mengakses data dalam jumlah besar saat diperlukan.

Database NoSQL

Basis data SQL konvensional dirancang untuk transaksi yang andal dan kueri ad hoc, namun memiliki batasan seperti skema kaku yang membuatnya kurang cocok untuk beberapa jenis aplikasi. Database NoSQL mengatasi keterbatasan tersebut, dan menyimpan serta mengelola data dengan cara yang memungkinkan kecepatan operasional tinggi dan fleksibilitas tinggi. Banyak yang dikembangkan oleh perusahaan yang mencari cara yang lebih baik untuk menyimpan konten atau memproses data untuk situs web besar. Tidak seperti database SQL, banyak database NoSQL dapat diskalakan secara horizontal di ratusan atau ribuan server.

Database dalam memori

Database dalam memori (IMDB) adalah sistem manajemen database yang lebih mengandalkan memori utama, bukan disk, untuk penyimpanan data. Database dalam memori lebih cepat daripada database yang dioptimalkan untuk disk, merupakan pertimbangan penting untuk penggunaan analitik data besar dan pembuatan gudang data dan data mart.

Keterampilan data besar

Upaya analitik data besar dan data besar memerlukan keterampilan khusus, baik yang berasal dari dalam organisasi atau melalui pakar dari luar.

Banyak dari keterampilan ini terkait dengan komponen teknologi data besar utama, seperti Hadoop, Spark, database NoSQL, database dalam memori, dan perangkat lunak analitik.

Lainnya khusus untuk disiplin ilmu seperti ilmu data, penggalian data, analisis statistik dan kuantitatif, visualisasi data, pemrograman tujuan umum, dan struktur data dan algoritma. Ada juga kebutuhan orang-orang dengan keterampilan manajemen keseluruhan untuk melihat proyek data besar hingga selesai.

Mengingat betapa umum proyek analitik data besar dan kekurangan orang dengan jenis keterampilan ini, menemukan profesional berpengalaman mungkin menjadi salah satu tantangan terbesar bagi organisasi.

Kasus penggunaan analitik data besar

Data besar dan analitik dapat diterapkan ke banyak masalah bisnis dan kasus penggunaan. Berikut beberapa contohnya:

  • Analisis pelanggan. Perusahaan dapat memeriksa data pelanggan untuk meningkatkan pengalaman pelanggan, meningkatkan tingkat konversi, dan meningkatkan retensi.
  • Analisis operasional. Meningkatkan kinerja operasional dan memanfaatkan aset perusahaan dengan lebih baik adalah tujuan banyak perusahaan. Alat analitik data besar dapat membantu bisnis menemukan cara untuk beroperasi dengan lebih efisien dan meningkatkan kinerja.
  • Pencegahan penipuan. Alat dan analisis data besar dapat membantu organisasi mengidentifikasi aktivitas dan pola yang mencurigakan yang mungkin menunjukkan perilaku curang dan membantu mengurangi risiko.
  • Optimalisasi harga. Perusahaan dapat menggunakan analitik data besar untuk mengoptimalkan harga yang mereka tetapkan untuk produk dan layanan, membantu meningkatkan pendapatan.