Microsoft menghadirkan .NET dev ke Apache Spark

Microsoft dan .NET Foundation telah merilis versi 1.0 dari .NET untuk Apache Spark, sebuah paket sumber terbuka yang membawa pengembangan .NET ke mesin analitik Spark untuk pemrosesan data skala besar.

Diumumkan 27 Oktober, .NET untuk Apache Spark 1.0 memiliki dukungan untuk aplikasi .NET yang menargetkan .NET Standard 2.0 atau yang lebih baru. Pengguna dapat mengakses Spark DataFrame API, menulis Spark SQL, dan membuat fungsi yang ditentukan pengguna UDF).

Framework .NET untuk Apache Spark tersedia di halaman GitHub .NET Foundation atau dari NuGet. Kemampuan .NET lainnya untuk Apache Spark 1.0 meliputi:

  • Kerangka kerja ekstensi API untuk menambahkan dukungan untuk pustaka Spark tambahan termasuk Linux Foundation Delta Lake, fungsi Microsoft OSS Hyperspace, ML.NET, dan Apache Spark MLlib.
  • .NET untuk program Apache Spark yang bukan UDF menunjukkan kecepatan yang sama dengan aplikasi non-UDF berbasis Scala dan PySpark. Jika aplikasi menyertakan UDF, program .NET untuk Apache Spark setidaknya secepat program PySpark atau mungkin lebih cepat.
  • .NET untuk Apache Spark dibangun ke dalam Azure Synapse dan Azure HDInsight. Ini juga dapat digunakan di penawaran cloud Apache Spark lainnya termasuk Azure Databricks.

Versi publik pertama dari proyek ini diumumkan pada April 2019. Mendorong pengembangan .NET untuk Apache Spark telah meningkatkan permintaan akan cara yang lebih mudah untuk membangun aplikasi data besar daripada harus mempelajari Scala atau Python. Proyek ini dioperasikan di bawah .NET Foundation dan telah diajukan sebagai Proposal Peningkatan Proyek Spark untuk dipertimbangkan untuk disertakan dalam proyek Apache Spark secara langsung.

Ke depan, Microsoft sedang mengatasi hambatan termasuk menyiapkan prasyarat dan dependensi serta menemukan dokumentasi berkualitas, dengan contoh seperti image Docker "siap dijalankan" yang disumbangkan oleh komunitas dan pembaruan ke .NET untuk dokumentasi Apache Spark. Prioritas lainnya adalah mendukung opsi penyebaran termasuk integrasi dengan pipeline devops CI / CD dan pekerjaan penerbitan langsung dari Visual Studio.