Bagaimana memilih platform analitik data

Apakah Anda memiliki tanggung jawab dalam pengembangan perangkat lunak, devops, sistem, cloud, otomatisasi pengujian, keandalan situs, tim scrum terkemuka, infosec, atau area teknologi informasi lainnya, Anda akan memiliki peluang dan persyaratan yang semakin besar untuk bekerja dengan data, analitik, dan pembelajaran mesin .

Sorotan Teknologi: Analisis

  • Cara memilih platform analitik data ()
  • 6 praktik terbaik untuk visualisasi data bisnis (Computerworld)
  • Analisis perawatan kesehatan: 4 kisah sukses (CIO)
  • SD-WAN dan analitik: Pernikahan yang dibuat untuk normal baru (Dunia Jaringan)
  • Bagaimana melindungi algoritma sebagai kekayaan intelektual (CSO)

Keterpaparan Anda terhadap analitik mungkin datang melalui data TI, seperti mengembangkan metrik dan wawasan dari metrik tangkas, pengembang, atau situs web. Tidak ada cara yang lebih baik untuk mempelajari keterampilan dan alat dasar seputar data, analitik, dan pembelajaran mesin selain menerapkannya pada data yang Anda ketahui dan yang dapat Anda tambang untuk mendapatkan wawasan guna mendorong tindakan.

Segalanya menjadi sedikit lebih kompleks setelah Anda keluar dari dunia data TI dan memberikan layanan kepada tim ilmuwan data, ilmuwan data warga, dan analis bisnis lainnya yang melakukan visualisasi data, analitik, dan pembelajaran mesin.

Pertama, data harus dimuat dan dibersihkan. Kemudian, bergantung pada volume, variasi, dan kecepatan data, Anda kemungkinan akan menemukan beberapa database back-end dan teknologi data cloud. Terakhir, selama beberapa tahun terakhir, apa yang dulunya merupakan pilihan antara kecerdasan bisnis dan alat visualisasi data telah berkembang menjadi matriks kompleks analitik siklus hidup penuh dan platform pembelajaran mesin.

Pentingnya analitik dan pembelajaran mesin meningkatkan tanggung jawab TI di beberapa area. Sebagai contoh:

  • TI sering menyediakan layanan di sekitar semua integrasi data, database back-end, dan platform analitik.
  • Tim pengembang sering kali menerapkan dan menskalakan infrastruktur data untuk memungkinkan eksperimen pada model pembelajaran mesin dan kemudian mendukung pemrosesan data produksi.
  • Tim operasi jaringan membangun koneksi aman antara alat analitik SaaS, multiclouds, dan pusat data.
  • Tim manajemen layanan TI menanggapi permintaan dan insiden layanan data dan analitik.
  • Infosec mengawasi tata kelola dan implementasi keamanan data.
  • Pengembang mengintegrasikan model analitik dan pembelajaran mesin ke dalam aplikasi.

Mengingat ledakan analitik, platform data cloud, dan kemampuan pembelajaran mesin, berikut ini adalah primer untuk lebih memahami siklus hidup analitik, dari integrasi dan pembersihan data, hingga dataops dan modelop, hingga database, platform data, dan penawaran analitik itu sendiri.

Analytics dimulai dengan integrasi data dan pembersihan data

Sebelum analis, ilmuwan data warga, atau tim ilmu data dapat melakukan analitik, sumber data yang diperlukan harus dapat diakses oleh mereka dalam platform visualisasi dan analitik data.

Untuk memulai, mungkin ada persyaratan bisnis untuk mengintegrasikan data dari beberapa sistem perusahaan, mengekstrak data dari aplikasi SaaS, atau mengalirkan data dari sensor IoT dan sumber data waktu nyata lainnya.

Ini semua adalah langkah-langkah untuk mengumpulkan, memuat, dan mengintegrasikan data untuk analitik dan pembelajaran mesin. Bergantung pada kerumitan data dan masalah kualitas data, terdapat peluang untuk terlibat dalam dataops, katalog data, manajemen data master, dan inisiatif tata kelola data lainnya.

Kita semua tahu ungkapan, "sampah masuk, sampah keluar." Analis harus memperhatikan kualitas datanya, dan data scientist harus memperhatikan bias dalam model pembelajaran mesin mereka. Selain itu, ketepatan waktu dalam mengintegrasikan data baru sangat penting bagi bisnis yang ingin menjadi lebih berbasis data secara real-time. Karena alasan ini, pipeline yang memuat dan memproses data sangat penting dalam analitik dan pembelajaran mesin.

Database dan platform data untuk semua jenis tantangan manajemen data

Memuat dan memproses data adalah langkah pertama yang diperlukan, tetapi kemudian menjadi lebih rumit ketika memilih database yang optimal. Pilihan hari ini mencakup gudang data perusahaan, data lake, platform pemrosesan data besar, dan database khusus NoSQL, grafik, nilai kunci, dokumen, dan kolom. Untuk mendukung data warehousing dan analytics skala besar, ada platform seperti Snowflake, Redshift, BigQuery, Vertica, dan Greenplum. Terakhir, ada platform data besar, termasuk Spark dan Hadoop.

Perusahaan besar cenderung memiliki beberapa repositori data dan menggunakan platform data cloud seperti Cloudera Data Platform atau MapR Data Platform, atau platform orkestrasi data seperti InfoWorks DataFoundy, untuk membuat semua repositori tersebut dapat diakses untuk analitik.

Cloud publik utama, termasuk AWS, GCP, dan Azure, semuanya memiliki platform dan layanan manajemen data untuk disaring. Misalnya, Azure Synapse Analytics adalah gudang data SQL Microsoft di cloud, sementara Azure Cosmos DB menyediakan antarmuka ke banyak penyimpanan data NoSQL, termasuk Cassandra (data kolom), MongoDB (nilai kunci dan data dokumen), dan Gremlin (data grafik) .

Data lake adalah dok pemuatan yang populer untuk memusatkan data tidak terstruktur untuk analisis cepat, dan seseorang dapat memilih dari Azure Data Lake, Amazon S3, atau Google Cloud Storage untuk memenuhi tujuan itu. Untuk memproses data besar, AWS, GCP, dan awan Azure semuanya memiliki penawaran Spark dan Hadoop juga.

Platform analitik menargetkan pembelajaran mesin dan kolaborasi

Dengan data yang dimuat, dibersihkan, dan disimpan, ilmuwan dan analis data dapat mulai melakukan analitik dan pembelajaran mesin. Organisasi memiliki banyak opsi tergantung pada jenis analitik, keterampilan tim analitik yang melakukan pekerjaan, dan struktur data yang mendasarinya.

Analisis dapat dilakukan di alat visualisasi data layanan mandiri seperti Tableau dan Microsoft Power BI. Kedua alat ini menargetkan ilmuwan data warga dan mengekspos visualisasi, penghitungan, dan analitik dasar. Alat ini mendukung integrasi data dasar dan restrukturisasi data, tetapi perselisihan data yang lebih kompleks sering terjadi sebelum langkah analitik. Tableau Data Prep dan Azure Data Factory adalah alat pendamping untuk membantu mengintegrasikan dan mengubah data.

Tim analisis yang ingin mengotomatiskan lebih dari sekadar integrasi dan persiapan data dapat menggunakan platform seperti Alteryx Analytics Process Automation. Platform kolaboratif ujung ke ujung ini menghubungkan pengembang, analis, ilmuwan data warga, dan ilmuwan data dengan otomatisasi alur kerja dan kemampuan pemrosesan data layanan mandiri, analitik, dan pemrosesan pembelajaran mesin.

Alan Jacobson, kepala analitik dan petugas data di Alteryx, menjelaskan, “Munculnya otomatisasi proses analitik (APA) sebagai sebuah kategori menggarisbawahi harapan baru bagi setiap pekerja di sebuah organisasi untuk menjadi pekerja data. Pengembang TI tidak terkecuali, dan ekstensibilitas Platform APA Alteryx sangat berguna bagi para pekerja pengetahuan ini. ”

Ada beberapa alat dan platform yang menargetkan data scientist yang bertujuan untuk membuatnya lebih produktif dengan teknologi seperti Python dan R sambil menyederhanakan banyak langkah operasional dan infrastruktur. Misalnya, Databricks adalah platform operasional ilmu data yang memungkinkan penerapan algoritme ke Apache Spark dan TensorFlow, sambil mengelola sendiri klaster komputasi di AWS atau awan Azure. 

Sekarang beberapa platform seperti SAS Viya menggabungkan persiapan data, analitik, perkiraan, pembelajaran mesin, analitik teks, dan manajemen model pembelajaran mesin ke dalam satu platform modelop. SAS mengoperasionalkan analitik dan menargetkan ilmuwan data, analis bisnis, pengembang, dan eksekutif dengan platform kolaboratif ujung ke ujung.

David Duling, direktur penelitian dan pengembangan manajemen keputusan di SAS, mengatakan, “Kami melihat modelops sebagai praktik pembuatan pipeline operasi yang dapat diulang dan diaudit untuk menerapkan semua analitik, termasuk model AI dan ML, ke dalam sistem operasional. Sebagai bagian dari modelops, kita dapat menggunakan praktik devops modern untuk pengelolaan kode, pengujian, dan pemantauan. Ini membantu meningkatkan frekuensi dan keandalan penerapan model, yang pada akhirnya meningkatkan ketangkasan proses bisnis yang dibangun di atas model ini. "

Dataiku adalah platform lain yang berupaya menghadirkan persiapan data, analitik, dan pembelajaran mesin ke tim ilmu data yang sedang berkembang dan kolaborator mereka. Dataiku memiliki model pemrograman visual untuk memungkinkan kolaborasi dan kode notebook untuk pengembang SQL dan Python yang lebih maju.

Platform analitik dan pembelajaran mesin lainnya dari vendor perangkat lunak perusahaan terkemuka bertujuan untuk menghadirkan kemampuan analitik ke pusat data dan sumber data cloud. Misalnya, Oracle Analytics Cloud dan SAP Analytics Cloud bertujuan untuk memusatkan kecerdasan dan mengotomatiskan wawasan untuk memungkinkan keputusan ujung ke ujung.

Memilih platform analitik data

Memilih integrasi data, pergudangan, dan alat analitik biasanya lebih mudah sebelum munculnya data besar, pembelajaran mesin, dan tata kelola data. Saat ini, ada campuran terminologi, kapabilitas platform, persyaratan operasional, kebutuhan tata kelola, dan persona pengguna yang ditargetkan yang membuat pemilihan platform menjadi lebih kompleks, terutama karena banyak vendor mendukung paradigma penggunaan ganda. 

Bisnis berbeda dalam persyaratan dan kebutuhan analitik tetapi harus mencari platform baru dari sudut pandang apa yang sudah ada. Sebagai contoh:

  • Perusahaan yang telah sukses dengan program ilmu data warga dan yang sudah memiliki alat visualisasi data mungkin ingin memperluas program ini dengan otomatisasi proses analitik atau teknologi persiapan data.
  • Perusahaan yang menginginkan rantai alat yang memungkinkan ilmuwan data bekerja di berbagai bagian bisnis dapat mempertimbangkan platform analitik ujung ke ujung dengan kemampuan modelops.
  • Organisasi dengan beberapa platform data back-end yang berbeda dapat memanfaatkan platform data cloud untuk membuat katalog dan mengelolanya secara terpusat.
  • Perusahaan yang menstandarisasi semua atau sebagian besar kemampuan data pada satu vendor cloud publik harus menyelidiki integrasi data, manajemen data, dan platform analitik data yang ditawarkan.

Dengan analitik dan pembelajaran mesin menjadi kompetensi inti yang penting, ahli teknologi harus mempertimbangkan untuk memperdalam pemahaman mereka tentang platform yang tersedia dan kemampuan mereka. Kekuatan dan nilai platform analitik hanya akan meningkat, begitu pula pengaruhnya di seluruh perusahaan.