4 alasan proyek big data gagal — dan 4 cara untuk berhasil

Proyek data besar, yah, besar dalam ukuran dan cakupan, seringkali sangat ambisius, dan seringkali, gagal total. Pada 2016, Gartner memperkirakan 60 persen proyek big data gagal. Setahun kemudian, analis Gartner Nick Heudecker mengatakan perusahaannya "terlalu konservatif" dengan perkiraan 60 persennya dan menempatkan tingkat kegagalan mendekati 85 persen. Hari ini, dia mengatakan tidak ada yang berubah.

Gartner tidak sendirian dalam penilaian itu. Eksekutif Microsoft lama dan (hingga baru-baru ini) CEO Snowflake Computing Bob Muglia mengatakan kepada situs analitik Datanami, “Saya tidak dapat menemukan pelanggan Hadoop yang bahagia. Semacam itu sesederhana itu. … Jumlah pelanggan yang benar-benar berhasil menjinakkan Hadoop mungkin kurang dari 20 dan mungkin kurang dari sepuluh. Itu tidak masuk akal mengingat sudah berapa lama produk itu, teknologi itu ada di pasar, dan berapa banyak energi industri umum yang telah digunakan. ” Hadoop, tentu saja, adalah mesin yang meluncurkan maniak data besar.

Orang lain yang akrab dengan data besar juga mengatakan masalahnya tetap nyata, parah, dan tidak sepenuhnya pada teknologi. Faktanya, teknologi adalah penyebab kecil kegagalan dibandingkan dengan penyebab sebenarnya. Berikut adalah empat alasan utama kegagalan proyek data besar — ​​dan empat cara utama untuk berhasil.

Masalah data besar No. 1: Integrasi yang buruk

Heudecker mengatakan ada satu masalah teknologi utama di balik kegagalan big data, dan itu adalah mengintegrasikan data yang dipisahkan dari berbagai sumber untuk mendapatkan wawasan yang diinginkan perusahaan. Membangun koneksi ke siled, sistem lama tidaklah mudah. Biaya integrasi lima hingga sepuluh kali lipat biaya perangkat lunak, katanya. “Masalah terbesar adalah integrasi sederhana: Bagaimana Anda menghubungkan berbagai sumber data untuk mendapatkan hasil? Banyak yang pergi ke rute danau data dan berpikir jika saya menghubungkan semuanya dengan sesuatu yang ajaib akan terjadi. Bukan itu masalahnya, ”katanya.

Data siled adalah bagian dari masalah. Klien telah memberitahunya bahwa mereka menarik data dari sistem catatan ke lingkungan umum seperti danau data dan tidak dapat memahami apa arti nilai tersebut. “Saat Anda menarik data ke danau data, bagaimana Anda tahu apa arti angka 3 itu?” Heudecker bertanya.

Karena mereka bekerja dalam silo atau membuat danau data yang hanya berupa rawa data, mereka hanya menggores permukaan dari apa yang dapat mereka capai, kata Alan Morrison, peneliti senior di PwC. “Mereka tidak memahami semua hubungan dalam data yang perlu ditambang atau disimpulkan dan dibuat eksplisit sehingga mesin dapat menafsirkan data tersebut secara memadai. Mereka perlu membuat lapisan grafik pengetahuan sehingga mesin dapat menafsirkan semua data contoh yang dipetakan di bawahnya. Kalau tidak, Anda baru saja mendapatkan data lake yang merupakan rawa data, ”katanya.

Masalah big data No.2: Sasaran yang tidak terdefinisi

Anda akan berpikir kebanyakan orang yang melakukan proyek big data sebenarnya memiliki tujuan dalam pikiran, tetapi jumlah yang mengejutkan tidak. Mereka baru saja meluncurkan proyek dengan tujuan sebagai renungan.

“Anda harus mengatasi masalahnya dengan baik. Orang mengira mereka dapat menghubungkan data terstruktur dan tidak terstruktur serta mendapatkan wawasan yang Anda butuhkan. Anda harus mendefinisikan masalahnya jauh-jauh hari. Wawasan apa yang ingin Anda dapatkan? Ini memiliki definisi yang jelas tentang masalah dan mendefinisikannya dengan baik di awal, ”kata Ray Christopher, manajer pemasaran produk dengan Talend, sebuah perusahaan perangkat lunak integrasi data.

Joshua Greenbaum, seorang analis utama di Enterprise Application Consulting, mengatakan bagian dari apa yang telah mengganggu proyek big data dan data warehousing adalah kriteria panduan utama biasanya adalah akumulasi sejumlah besar data dan bukan pemecahan masalah bisnis yang terpisah.

“Jika Anda mengumpulkan data dalam jumlah besar, Anda akan mendapatkan dump data. Saya menyebutnya tempat pembuangan sampah sanitasi. Tempat pembuangan sampah bukanlah tempat yang baik untuk mencari solusi, ”kata Greenbaum. “Saya selalu memberi tahu klien untuk memutuskan masalah bisnis terpisah apa yang perlu diselesaikan terlebih dahulu dan melanjutkannya, lalu melihat kualitas data yang tersedia dan menyelesaikan masalah data setelah masalah bisnis teridentifikasi.”

“Mengapa sebagian besar proyek big data gagal? Sebagai permulaan, kebanyakan pemimpin proyek big data tidak memiliki visi, ”kata Morrison dari PwC. “Perusahaan bingung tentang data besar. Kebanyakan hanya berpikir tentang data numerik atau kotak hitam NLP dan mesin pengenalan dan yang melakukan penambangan teks sederhana dan jenis pengenalan pola lainnya. "

Masalah data besar No. 3: Kesenjangan keterampilan

Terlalu sering, perusahaan berpikir keterampilan in-house yang mereka bangun untuk data warehousing akan diterjemahkan ke dalam big data, padahal sebenarnya bukan itu masalahnya. Sebagai permulaan, data warehousing dan big data menangani data dengan cara yang berlawanan: Data warehousing melakukan skema penulisan, yang berarti data dibersihkan, diproses, terstruktur, dan diatur sebelum dimasukkan ke dalam data warehouse.

Dalam data besar, data diakumulasikan dan skema saat dibaca diterapkan, di mana data diproses saat dibaca. Jadi jika pemrosesan data mundur dari satu metodologi ke metodologi lainnya, Anda dapat bertaruh bahwa keterampilan dan alat juga demikian. Dan itu hanya satu contoh.

“Keterampilan akan selalu menjadi tantangan. Kalau kita bicara big data 30 tahun dari sekarang, masih ada tantangan, ”kata Heudecker. “Banyak orang menggantungkan topi mereka di Hadoop. Klien saya tertantang untuk menemukan sumber daya Hadoop. Percikan sedikit lebih baik karena tumpukan itu lebih kecil dan lebih mudah untuk dilatih. Hadoop adalah lusinan komponen perangkat lunak. ”

Masalah data besar No. 4: Kesenjangan generasi teknologi

Proyek data besar sering kali mengambil dari silo data lama dan mencoba menggabungkannya dengan sumber data baru, seperti sensor atau lalu lintas web atau media sosial. Itu bukan sepenuhnya kesalahan perusahaan, yang mengumpulkan data itu sebelum ide analitik data besar, tetapi itu tetap menjadi masalah.

“Hampir keterampilan terbesar yang hilang adalah keterampilan untuk memahami bagaimana memadukan kedua pemangku kepentingan ini untuk membuat mereka bekerja sama untuk memecahkan masalah yang kompleks,” kata konsultan Greenbaum. “Data silo bisa menjadi penghalang untuk proyek big data karena tidak ada standar apapun. Jadi ketika mereka mulai melihat perencanaan, mereka menemukan sistem ini belum diterapkan dengan cara apa pun sehingga data ini akan digunakan kembali, ”katanya.

"Dengan arsitektur yang berbeda, Anda perlu melakukan pemrosesan secara berbeda," kata Christopher dari Talend. “Keterampilan teknologi dan perbedaan arsitektur adalah alasan umum mengapa Anda tidak dapat menggunakan alat saat ini untuk gudang data lokal dan mengintegrasikannya dengan proyek data besar — ​​karena teknologi tersebut akan menjadi terlalu mahal untuk memproses data baru. Jadi, Anda membutuhkan Hadoopand Spark, dan Anda perlu mempelajari bahasa baru. ”

Solusi data besar No. 1: Rencanakan ke depan

Ini klise lama tetapi berlaku di sini: Jika Anda gagal membuat rencana, rencanakan untuk gagal. "Perusahaan yang sukses adalah orang-orang yang memiliki hasil," kata Heudecker dari Gartner. “Pilih sesuatu yang kecil dan dapat dicapai dan baru. Jangan mengambil kasus penggunaan lama karena Anda mendapatkan batasan. "

"Mereka perlu memikirkan data terlebih dahulu, dan memodelkan organisasi mereka dengan cara yang dapat dibaca mesin sehingga data tersebut dapat digunakan oleh organisasi tersebut," kata Morrison dari PwC.

Solusi data besar No. 2: Bekerja Sama

Terlalu sering, pemangku kepentingan tidak diikutsertakan dalam proyek data besar — ​​orang-orang yang akan menggunakan hasilnya. Jika semua pemangku kepentingan bekerja sama, mereka dapat mengatasi banyak hambatan, kata Heudecker. “Jika orang-orang terampil bekerja sama dan bekerja dengan sisi bisnis untuk memberikan hasil yang dapat ditindaklanjuti, itu dapat membantu,” katanya.

Heudecker mencatat bahwa perusahaan yang berhasil dalam big data berinvestasi dalam keterampilan yang diperlukan. Dia melihat ini paling banyak di perusahaan berbasis data, seperti layanan keuangan, Uber, Lyft, dan Netflix, di mana kekayaan perusahaan didasarkan pada memiliki data yang baik dan dapat ditindaklanjuti.

“Jadikanlah olahraga tim untuk membantu mengurasi dan mengumpulkan data serta membersihkannya. Melakukan itu juga dapat meningkatkan integritas data, ”kata Christopher dari Talend.

Solusi data besar No. 3: Fokus

Orang-orang tampaknya memiliki pola pikir bahwa proyek data besar harus berukuran besar dan ambisius. Seperti apa pun yang Anda pelajari untuk pertama kalinya, cara terbaik untuk sukses adalah memulai dari yang kecil lalu secara bertahap mengembangkan ambisi dan ruang lingkup.

“Mereka harus mendefinisikan secara sempit apa yang mereka lakukan,” kata Heudecker. “Mereka harus memilih domain masalah dan memilikinya, seperti deteksi penipuan, pelanggan segmentasi mikro, atau mencari tahu produk baru apa yang akan diperkenalkan di pasar Milenial.”

“Pada akhirnya, Anda harus meminta wawasan yang Anda inginkan atau proses bisnis yang akan didigitalisasi,” kata Christopher. “Anda tidak hanya membuang teknologi pada masalah bisnis; Anda harus mendefinisikannya di depan. Danau data adalah suatu kebutuhan, tetapi Anda tidak ingin mengumpulkan data jika tidak akan digunakan oleh siapa pun dalam bisnis. "

Dalam banyak kasus, itu juga berarti tidak melebih-lebihkan perusahaan Anda sendiri. “Di setiap perusahaan yang pernah saya pelajari, hanya ada beberapa ratus konsep dan hubungan utama yang dijalankan oleh seluruh bisnis. Begitu Anda memahaminya, Anda menyadari bahwa jutaan perbedaan ini hanyalah sedikit variasi dari beberapa ratus hal penting itu, ”kata Morrison dari PwC. “Nyatanya, Anda menemukan bahwa banyak dari sedikit variasi bukanlah variasi sama sekali. Mereka benar-benar hal yang sama dengan nama yang berbeda, struktur yang berbeda, atau label yang berbeda, ”tambahnya.

Solusi data besar No. 4: Singkirkan warisan

Meskipun Anda mungkin ingin menggunakan terabyte data yang dikumpulkan dan disimpan di gudang data Anda, faktanya adalah Anda mungkin lebih baik dilayani hanya dengan berfokus pada data yang baru dikumpulkan dalam sistem penyimpanan yang dirancang untuk data besar dan dirancang untuk tidak di-blokir.

“Saya pasti akan menyarankan untuk tidak harus terikat pada infrastruktur teknologi yang ada hanya karena perusahaan Anda memiliki lisensi untuk itu,” kata konsultan Greenbaum. “Seringkali, masalah baru yang kompleks mungkin membutuhkan solusi baru yang kompleks. Mengembalikan perangkat lama di sekitar perusahaan selama satu dekade bukanlah cara yang tepat. Banyak perusahaan menggunakan alat lama, dan itu menghentikan proyek. "

Morrison o = mencatat, "Perusahaan harus berhenti membuat kaki mereka terbelit pakaian dalam mereka sendiri dan hanya membuang arsitektur warisan yang menciptakan lebih banyak silo." Dia juga mengatakan bahwa mereka harus berhenti mengharapkan vendor untuk menyelesaikan masalah sistem mereka yang kompleks. “Selama beberapa dekade, banyak yang berasumsi bahwa mereka dapat membeli jalan keluar dari masalah big data. Masalah big data apa pun adalah masalah sistemik. Ketika sampai pada perubahan sistem yang kompleks, Anda harus membangun jalan keluarnya, ”katanya.