Apache Spark 3.0 menambahkan dukungan GPU Nvidia untuk pembelajaran mesin

Apache Spark, kerangka kerja pemrosesan data besar dalam memori, akan menjadi GPU yang sepenuhnya diakselerasi dalam inkarnasi 3.0 yang akan segera dirilis. Yang terbaik dari semuanya, aplikasi Spark saat ini dapat memanfaatkan akselerasi GPU tanpa modifikasi; Spark API yang ada semuanya bekerja sebagaimana adanya.

Komponen akselerasi GPU, yang disediakan oleh Nvidia, dirancang untuk melengkapi semua fase aplikasi Spark termasuk operasi ETL, pelatihan pembelajaran mesin, dan penyajian inferensi.

Kontribusi Nvidia Spark memanfaatkan rangkaian RAPIDS dari pustaka ilmu data yang dipercepat GPU. Banyak dari struktur data internal RAPIDS, seperti dataframe, melengkapi milik Spark, tetapi membuat Spark menggunakan RAPIDS secara native membutuhkan waktu hampir empat tahun kerja.

Percepatan Spark 3.0 tidak hanya datang dari akselerasi GPU. Spark 3.0 juga meraup peningkatan kinerja dengan meminimalkan pergerakan data ke dan dari GPU. Jika data memang perlu dipindahkan ke seluruh kluster, kerangka kerja Unified Communication X memindahkannya langsung dari satu blok memori GPU ke blok lain dengan overhead minimal.

Menurut Nvidia, rilis pratinjau Spark 3.0 yang berjalan di platform Databricks menghasilkan peningkatan kinerja tujuh kali lipat saat menggunakan akselerasi GPU, meskipun detail tentang beban kerja dan kumpulan datanya tidak tersedia. 

Tidak ada tanggal pasti yang diberikan untuk ketersediaan umum Spark 3.0. Anda dapat mendownload rilis pratinjau dari situs web proyek Apache Spark.