Apache Eagle mengawasi penggunaan data besar

Apache Eagle, awalnya dikembangkan di eBay, kemudian disumbangkan ke Apache Software Foundation, mengisi ceruk keamanan data besar yang masih sedikit, jika tidak kosong: Ia mengendus kemungkinan masalah keamanan dan kinerja dengan kerangka data besar.

Untuk melakukannya, Eagle menggunakan komponen open source Apache lainnya, seperti Kafka, Spark, dan Storm, untuk menghasilkan dan menganalisis model pembelajaran mesin dari data perilaku cluster data besar.

Melihat dari dalam

Data untuk Eagle dapat berasal dari log aktivitas untuk berbagai sumber data (HDFS, Hive, MapR FS, Cassandra) atau dari metrik kinerja yang diambil langsung dari kerangka kerja seperti Spark. Data tersebut kemudian dapat disalurkan oleh framework streaming Kafka ke sistem deteksi real-time yang dibuat dengan Apache Storm atau ke dalam sistem pelatihan model yang dibangun di Apache Spark. Yang pertama untuk menghasilkan peringatan dan laporan berdasarkan kebijakan yang ada; yang terakhir adalah untuk membuat model pembelajaran mesin guna mendorong kebijakan baru.

Penekanan pada perilaku waktu-nyata ini menempati urutan teratas dari daftar "kualitas utama" dalam dokumentasi untuk Eagle. Ini diikuti oleh "skalabilitas", "didorong metadata" (artinya perubahan kebijakan diterapkan secara otomatis saat metadatanya diubah), dan "ekstensibilitas". Ini berarti sumber data, sistem peringatan, dan mesin kebijakan yang digunakan oleh Eagle disediakan oleh plugin dan tidak terbatas pada apa yang ada di dalam kotak.

Karena Elang disatukan dari bagian dunia Hadoop yang ada, ia memiliki dua keunggulan teoretis. Pertama, roda tidak diciptakan kembali. Kedua, mereka yang sudah memiliki pengalaman dengan potongan-potongan tersebut akan mendapat keuntungan.

Apa yang orang-orang saya lakukan?

Selain dari kasus penggunaan yang disebutkan di atas seperti menganalisis kinerja pekerjaan dan memantau perilaku anomali, Eagle juga dapat menganalisis perilaku pengguna. Ini bukan tentang, katakanlah, menganalisis data dari aplikasi web untuk mempelajari tentang pengguna publik aplikasi, tetapi lebih kepada pengguna kerangka data besar itu sendiri - orang-orang yang membangun dan mengelola back end Hadoop atau Spark. Contoh bagaimana menjalankan analisis tersebut disertakan, dan dapat diterapkan sebagaimana adanya atau dimodifikasi.

Eagle juga memungkinkan akses data aplikasi diklasifikasikan menurut tingkat sensitivitas. Hanya aplikasi HDFS, Hive, dan HBase yang dapat menggunakan fitur ini sekarang, tetapi interaksinya dengan mereka menyediakan model bagaimana sumber data lain juga dapat diklasifikasikan.

Mari kita kendalikan ini

Karena kerangka data besar adalah kreasi yang bergerak cepat, sulit untuk membangun keamanan yang andal di sekitarnya. Premis Eagle adalah ia dapat memberikan analisis dan peringatan berbasis kebijakan sebagai pelengkap yang mungkin untuk proyek lain seperti Apache Ranger. Ranger menyediakan otentikasi dan kontrol akses di seluruh Hadoop dan teknologi terkait; Eagle memberi Anda gambaran tentang apa yang dilakukan orang setelah mereka diizinkan masuk.

Pertanyaan terbesar yang melayang di atas masa depan Eagle - ya, bahkan sedini ini - adalah sejauh mana vendor Hadoop akan dengan elegan memasukkannya ke dalam distribusi yang ada atau menggunakan penawaran keamanan mereka sendiri. Keamanan dan tata kelola data telah lama menjadi salah satu bagian yang hilang yang dapat bersaing dengan penawaran komersial.