10 praktik big data terburuk

Ya, Anda dapat menggunakan data besar. Namun, Anda bisa melakukannya dengan cara yang benar atau salah. Berikut adalah 10 praktik terburuk yang harus dihindari.

1. Memilih MongoDB sebagai platform data besar Anda. Mengapa saya memilih MongoDB? Saya tidak, tetapi untuk alasan apa pun, database NoSQL yang paling disalahgunakan saat ini adalah MongoDB. Meskipun MongoDB memiliki kerangka agregasi yang rasanya seperti MapReduce dan bahkan konektor Hadoop (yang sangat tidak terdokumentasi dengan baik), sweet spot-nya adalah sebagai database operasional, bukan sistem analitis.

[Andrew C. Oliver menjawab pertanyaan di benak semua orang: Database manakah yang harus saya gunakan? | Juga pada: Waktu untuk standar NoSQL sekarang | Dapatkan intisari dari cerita utama setiap hari di buletin Harian. ]

Ketika kalimat Anda dimulai, "Kami akan menggunakan Mongo untuk menganalisis ...," berhenti di situ dan pikirkan tentang apa yang Anda lakukan. Terkadang yang Anda maksud adalah "kumpulkan untuk analisis nanti", yang mungkin tidak masalah, tergantung pada apa yang Anda lakukan. Namun, jika Anda benar-benar bermaksud menggunakan MongoDB sebagai semacam teknologi pergudangan data yang buruk, proyek Anda mungkin akan gagal di awal.

2. Menggunakan skema RDBMS sebagai file. Ya, Anda membuang setiap tabel dari RDBMS Anda ke dalam sebuah file. Anda berencana untuk menyimpannya di HDFS. Anda berencana untuk menggunakan sarang lebah di atasnya.

Pertama, Anda tahu Hive lebih lambat dari RDBMS Anda untuk sesuatu yang normal, bukan? Ini akan ke MapReduce bahkan dengan pemilihan sederhana. Lihat rute "dioptimalkan" untuk "tabel" bergabung. Selanjutnya, mari kita lihat ukuran baris - whaddaya tahu, Anda memiliki file datar yang diukur dalam kilobyte satu digit. Hadoop bekerja paling baik pada kumpulan besar data yang relatif datar. Saya yakin Anda dapat membuat ekstrak yang lebih dinormalisasi.

3. Membuat kolam data. Dalam perjalanan membuat data lake, Anda mematikan jalan layang yang berbeda dan membuat serangkaian kolam data. Hukum Conway kembali berlaku dan Anda mengizinkan setiap grup bisnis tidak hanya membuat analisis datanya sendiri, tetapi juga repositori mini mereka sendiri. Kedengarannya tidak buruk pada awalnya, tetapi dengan ekstrak dan cara yang berbeda untuk memotong dan memotong data, Anda akan mendapatkan tampilan data yang berbeda. Maksud saya bukan datar versus kubus - yang saya maksud adalah jawaban yang berbeda untuk beberapa pertanyaan yang sama. Skema-saat-dibaca tidak berarti "tidak merencanakan sama sekali", tetapi itu berarti "jangan merencanakan setiap pertanyaan yang mungkin Anda ajukan."

Meskipun demikian, Anda harus merencanakan gambaran besarnya. Jika Anda menjual widget, ada kemungkinan seseorang ingin melihat berapa banyak, kepada siapa, dan seberapa sering Anda menjual widget. Silakan dan dapatkan itu dalam format umum dan lakukan sedikit desain di muka untuk memastikan Anda tidak berakhir dengan kolam data dan genangan yang dimiliki oleh masing-masing grup bisnis.

4. Gagal mengembangkan kasus penggunaan yang masuk akal. Ide danau data sedang dijual oleh vendor untuk menggantikan kasus penggunaan nyata. (Ini juga merupakan cara untuk menghindari kendala pendanaan departemen.) Pendekatan data-lake bisa saja valid, tetapi Anda harus memikirkan kasus penggunaan aktual. Tidak sulit untuk menemukannya di sebagian besar perusahaan menengah hingga besar. Mulailah dengan meninjau ketika seseorang terakhir kali berkata, "Tidak, kami tidak bisa, karena database tidak dapat menanganinya." Kemudian lanjutkan ke "duh." Misalnya, "pengembangan bisnis" tidak seharusnya hanya menjadi promosi tituler untuk penjual top Anda; itu seharusnya berarti sesuatu.

Bagaimana dengan, misalnya, menggunakan Mahout untuk menemukan pesanan pelanggan yang merupakan pencilan umum? Di kebanyakan perusahaan, sebagian besar pesanan pelanggan mirip satu sama lain. Tetapi bagaimana dengan pesanan yang cukup sering terjadi tetapi tidak sesuai dengan yang umum? Ini mungkin terlalu kecil untuk dipedulikan oleh tenaga penjualan, tetapi ini mungkin menunjukkan lini bisnis masa depan untuk perusahaan Anda (yaitu, pengembangan bisnis yang sebenarnya). Jika Anda tidak dapat menghidupkan setidaknya beberapa kegunaan dunia nyata yang baik untuk Hadoop, mungkin Anda tidak membutuhkannya sama sekali.

5. Thinking Hive is the be-all, end-all. Anda tahu SQL. Anda menyukai SQL. Anda telah melakukan SQL. Aku mengerti, tapi mungkin kamu juga bisa tumbuh? Mungkin Anda harus menjangkau jauh ke dalam satu atau tiga dekade dan mengingat anak muda yang belajar SQL dan melihat dunia terbuka untuknya. Sekarang bayangkan dia mempelajari hal lain pada waktu yang sama.