Ulasan Qubole: Analisis data besar swalayan

Ditagih sebagai platform data cloud-native untuk analitik, AI, dan pembelajaran mesin, Qubole menawarkan solusi untuk keterlibatan pelanggan, transformasi digital, produk berbasis data, pemasaran digital, modernisasi, dan intelijen keamanan. Ini mengklaim waktu yang cepat untuk menilai, dukungan multi-cloud, produktivitas administrator 10x, rasio operator-ke-pengguna 1: 200, dan biaya cloud yang lebih rendah.

Apa yang sebenarnya dilakukan Qubole, berdasarkan pengalaman singkat saya dengan platform, adalah mengintegrasikan sejumlah alat sumber terbuka, dan beberapa alat berpemilik, untuk menciptakan pengalaman data besar swalayan berbasis cloud untuk analis data, insinyur data , dan ilmuwan data.

Qubole membawa Anda dari ETL melalui analisis data eksplorasi dan pembuatan model hingga menerapkan model pada skala produksi. Sepanjang jalan, ini mengotomatiskan sejumlah operasi cloud, seperti penyediaan dan penskalaan sumber daya, yang sebaliknya dapat memerlukan waktu administrator dalam jumlah yang signifikan. Apakah otomatisasi itu benar-benar akan memungkinkan peningkatan 10x dalam produktivitas administrator atau rasio operator-ke-pengguna 1: 200 untuk perusahaan atau kasus penggunaan tertentu tidak jelas.

Qubole cenderung menggedor konsep "data aktif". Pada dasarnya, sebagian besar data lake — yang pada dasarnya adalah penyimpanan file yang diisi dengan data dari banyak sumber, semuanya di satu tempat tetapi tidak dalam satu database — memiliki persentase data yang rendah yang secara aktif digunakan untuk analisis. Qubole memperkirakan bahwa sebagian besar data lake 10% aktif dan 90% tidak aktif, dan memprediksi bahwa itu dapat membalikkan rasio tersebut.

Pesaing Qubole termasuk Databricks, AWS, dan Cloudera. Ada sejumlah produk lain yang hanya bersaing dengan beberapa fungsi Qubole.

Databricks membuat buku catatan, dasbor, dan pekerjaan di atas manajer cluster dan Spark; Saya merasa ini adalah platform yang berguna bagi data scientist ketika saya memeriksanya pada tahun 2016. Databricks baru-baru ini membuka sumber produk Delta Lake-nya, yang menyediakan transaksi ACID, penanganan metadata yang dapat diskalakan, dan streaming terpadu serta pemrosesan data batch ke data lake untuk membuatnya lebih andal dan membantu mereka memasukkan analisis Spark.

AWS memiliki berbagai macam produk data, dan faktanya Qubole mendukung integrasi dengan banyak dari mereka. Cloudera, yang sekarang mencakup Hortonworks, menyediakan gudang data dan layanan pembelajaran mesin serta layanan hub data. Qubole mengklaim bahwa baik Databricks dan Cloudera kekurangan tata kelola keuangan, tetapi Anda dapat menerapkan tata kelola sendiri di level cloud tunggal, atau dengan menggunakan produk manajemen multi-cloud.

Bagaimana cara kerja Qubole

Qubole mengintegrasikan semua alatnya dalam lingkungan berbasis cloud dan berbasis browser. Saya akan membahas potongan-potongan lingkungan di bagian selanjutnya dari artikel ini; di bagian ini saya akan berkonsentrasi pada alat.

Qubole menyelesaikan pengendalian biaya sebagai bagian dari manajemen clusternya. Anda dapat menentukan bahwa cluster menggunakan campuran jenis instance tertentu, termasuk instance spot jika tersedia, dan jumlah minimum dan maksimum node untuk penskalaan otomatis. Anda juga dapat menentukan lamanya waktu cluster mana pun akan terus berjalan tanpa adanya pemuatan, untuk menghindari kejadian "zombie".

Percikan

Dalam artikel bulan Agustusnya, “Bagaimana Qubole mengatasi tantangan Apache Spark”, CEO Qubole Ashish Thusoo membahas manfaat dan jebakan Spark, dan bagaimana Qubole memperbaiki kesulitan seperti konfigurasi, kinerja, biaya, dan manajemen sumber daya. Spark adalah komponen utama Qubole bagi data scientist, memungkinkan transformasi data dan machine learning dengan mudah dan cepat.

Presto

Presto adalah mesin kueri SQL terdistribusi sumber terbuka untuk menjalankan kueri analitik interaktif terhadap sumber data dari semua ukuran, mulai dari gigabyte hingga petabyte. Kueri presto berjalan jauh lebih cepat daripada kueri Hive. Pada saat yang sama, Presto dapat melihat dan menggunakan metadata dan skema data sarang.

Sarang lebah

Apache Hive adalah proyek sumber terbuka populer di ekosistem Hadoop yang memfasilitasi pembacaan, penulisan, dan pengelolaan kumpulan data besar yang berada di penyimpanan terdistribusi menggunakan SQL. Struktur dapat diproyeksikan ke data yang sudah disimpan. Eksekusi kueri sarang dijalankan melalui Apache Tez, Apache Spark, atau MapReduce. Hive di Qubole dapat melakukan penskalaan otomatis berbasis beban kerja dan penulisan langsung; open-source Hive tidak memiliki pengoptimalan berorientasi cloud ini.

Pendiri Qubole juga merupakan pencipta Apache Hive. Mereka memulai Hive di Facebook dan menjadi open source pada tahun 2008.

Kuantum

Quantum adalah mesin kueri SQL interaktif tanpa server, penskalaan otomatis, dan tanpa server milik Qubole yang mendukung Hive DDL dan Presto SQL. Quantum adalah layanan bayar sesuai pemakaian yang hemat biaya untuk pola kueri sporadis yang menyebar dalam jangka waktu lama, dan memiliki mode ketat untuk mencegah pengeluaran tak terduga. Quantum menggunakan Presto, dan melengkapi klaster server Presto. Kuantum kuantum dibatasi hingga waktu proses 45 menit.

Aliran udara

Airflow adalah platform berbasis Python untuk membuat, menjadwalkan, dan memantau alur kerja secara terprogram. Alur kerja diarahkan grafik asiklik (DAG) tugas. Anda mengonfigurasi DAG dengan menulis pipeline dengan kode Python. Qubole menawarkan Airflow sebagai salah satu layanannya; ini sering digunakan untuk ETL.

QuboleOperator baru dapat digunakan seperti operator Airflow lainnya yang sudah ada. Selama eksekusi operator dalam alur kerja, itu akan mengirimkan perintah ke Qubole Data Service dan menunggu hingga perintah selesai. Qubole mendukung file dan sensor tabel Hive yang dapat digunakan Airflow untuk memantau alur kerja secara terprogram.

Untuk melihat antarmuka pengguna Airflow, Anda harus memulai klaster Airflow terlebih dahulu, lalu membuka halaman klaster untuk melihat situs web Airflow.

RubiX

RubiX adalah kerangka kerja caching data ringan Qubole yang dapat digunakan oleh sistem data besar yang menggunakan antarmuka sistem file Hadoop. RubiX dirancang untuk bekerja dengan sistem penyimpanan cloud seperti Amazon S3 dan Azure Blob Storage, dan untuk menyimpan file jarak jauh ke dalam cache di disk lokal. Qubole telah merilis RubiX ke open source. Mengaktifkan RubiX di Qubole adalah masalah mencentang kotak.

Apa yang dilakukan Qubole?

Qubole menyediakan platform ujung-ke-ujung untuk analitik dan ilmu data. Fungsionalitasnya didistribusikan di antara selusin modul.

Modul Jelajahi memungkinkan Anda melihat tabel data, menambahkan penyimpanan data, dan menyiapkan pertukaran data. Di AWS, Anda dapat melihat koneksi data, bucket S3 Anda, dan penyimpanan data Qubole Hive Anda.

Modul Analisis dan Meja Kerja memungkinkan Anda menjalankan kueri ad hoc pada kumpulan data Anda. Analisis adalah antarmuka lama, dan Workbench adalah antarmuka baru, yang masih dalam versi beta ketika saya mencobanya. Kedua antarmuka memungkinkan Anda menyeret dan melepaskan bidang data ke kueri SQL Anda, dan memilih mesin yang Anda gunakan untuk menjalankan operasi: Quantum, Hive, Presto, Spark, database, shell, atau Hadoop.

Smart Query adalah pembuat kueri SQL berbasis formulir untuk Hive dan Presto. Template memungkinkan Anda untuk menggunakan kembali kueri SQL berparameter.

Notebook adalah notebook Zeppelin berbasis Spark atau (dalam versi beta) Jupyter untuk ilmu data. Dasbor menyediakan antarmuka untuk berbagi eksplorasi Anda, tanpa mengizinkan akses ke buku catatan Anda.

Penjadwal memungkinkan Anda menjalankan kueri, alur kerja, impor dan ekspor data, dan perintah secara otomatis pada interval. Itu melengkapi kueri ad-hoc yang dapat Anda jalankan di modul Analisis dan Meja Kerja.

Modul Cluster memungkinkan Anda mengelola cluster server Hadoop / Hive, Spark, Presto, Airflow, dan deep learning (beta). Penggunaan memungkinkan Anda melacak penggunaan cluster dan kueri Anda. Panel Kontrol memungkinkan Anda mengkonfigurasi platform, baik untuk Anda sendiri, atau untuk orang lain jika Anda memiliki izin administrasi sistem.

Panduan Qubole dari ujung ke ujung

Saya melalui panduan mengimpor database, membuat skema Hive, dan menganalisis hasilnya dengan Hive dan Presto, dan secara terpisah di notebook Spark. Saya juga melihat Airflow DAG untuk proses yang sama, dan pada notebook untuk melakukan pembelajaran mesin dengan Spark pada kumpulan data yang tidak terkait.

Pembelajaran mendalam di Qubole

Kami telah melihat ilmu data di Qubole hingga ke level pembelajaran mesin klasik, tapi bagaimana dengan pembelajaran mendalam? Salah satu cara untuk menyelesaikan pembelajaran mendalam di Qubole adalah dengan memasukkan langkah-langkah Python di notebook Anda yang mengimpor kerangka kerja pembelajaran mendalam seperti TensorFlow dan menggunakannya pada kumpulan data yang sudah direkayasa dengan Spark. Cara lainnya adalah menghubungi Amazon SageMaker dari notebook atau Airflow, dengan asumsi bahwa penginstalan Qubole Anda berjalan di AWS.

Sebagian besar hal yang Anda lakukan di Qubole tidak perlu dijalankan pada GPU, tetapi pembelajaran mendalam sering kali membutuhkan GPU untuk memungkinkan pelatihan selesai dalam waktu yang wajar. Amazon SageMaker mengatasinya dengan menjalankan langkah-langkah pembelajaran mendalam di kluster terpisah, yang dapat Anda konfigurasikan dengan sebanyak mungkin node dan GPU sesuai kebutuhan. Qubole juga menawarkan kluster Machine Learning (dalam versi beta); di AWS, hal ini memungkinkan node pekerja tipe-g dan tipe-p yang dipercepat dengan GPU Nvidia, dan di Google Cloud Platform dan Microsoft Azure mereka memungkinkan node pekerja yang dipercepat yang setara.

Toolkit data besar di cloud

Qubole, platform data cloud-native untuk analitik dan pembelajaran mesin, membantu Anda mengimpor kumpulan data ke dalam data lake, membuat skema dengan Hive, dan mengkueri data dengan Hive, Presto, Quantum, dan Spark. Ini menggunakan notebook dan Airflow untuk membuat alur kerja. Itu juga dapat memanggil layanan lain dan menggunakan pustaka lain, misalnya layanan Amazon SageMaker dan pustaka TensorFlow Python untuk pembelajaran mendalam.

Qubole membantu Anda mengelola pengeluaran cloud dengan mengontrol campuran instance dalam cluster, memulai dan menskalakan cluster secara otomatis sesuai permintaan, dan menutup cluster secara otomatis saat tidak digunakan. Ini berjalan di AWS, Microsoft Azure, Google Cloud Platform, dan Oracle Cloud.

Secara keseluruhan, Qubole adalah cara yang sangat baik untuk memanfaatkan (atau "mengaktifkan") data lake Anda, database yang terisolasi, dan data besar. Anda dapat menguji drive Qubole gratis selama 14 hari dengan pilihan AWS, Azure, atau GCP dengan data sampel. Anda juga dapat mengatur uji coba fitur lengkap gratis untuk maksimal lima pengguna dan satu bulan, menggunakan akun infrastruktur cloud Anda sendiri dan data Anda sendiri.

-

Biaya: Akun uji dan uji coba, gratis. Platform perusahaan, $ 0,14 per QCU (Qubole Compute Unit) per jam. 

Platform: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.