Ulasan: Google Cloud AutoML benar-benar pembelajaran mesin otomatis

Saat Anda mencoba melatih model pembelajaran mesin terbaik untuk data Anda secara otomatis, ada AutoML, atau pembelajaran mesin otomatis, dan kemudian ada Google Cloud AutoML. Google Cloud AutoML adalah potongan di atas. 

Sebelumnya saya telah meninjau H2O Driverless AI, Amazon SageMaker, dan Azure Machine Learning AutoML. Driverless AI secara otomatis melakukan rekayasa fitur dan penyetelan hyperparameter, dan mengklaim dapat bekerja sebaik master Kaggle. Amazon SageMaker mendukung pengoptimalan hyperparameter. Azure Machine Learning AutoML secara otomatis menelusuri fitur, algoritme, dan hyperparameter untuk algoritme pembelajaran mesin dasar; fasilitas penyetelan hyperparameter Azure Machine Learning yang terpisah memungkinkan Anda menghapus hyperparameter tertentu untuk eksperimen yang ada.

Ini bagus, tetapi Google Cloud AutoML mencapai tingkat yang sangat berbeda dan menyesuaikan jaringan neural dalam akurasi tinggi yang teruji oleh Google untuk data Anda yang diberi tag. Daripada memulai dari awal saat melatih model dari data Anda, Google Cloud AutoML menerapkan pembelajaran transfer dalam otomatis (artinya dimulai dari jaringan neural dalam yang sudah ada yang dilatih pada data lain) dan penelusuran arsitektur neural (artinya ia menemukan kombinasi yang tepat dari ekstra lapisan jaringan) untuk terjemahan pasangan bahasa, klasifikasi bahasa alami, dan klasifikasi gambar.

Di setiap area, Google sudah memiliki satu atau beberapa layanan terlatih berdasarkan jaringan neural dalam dan kumpulan besar data berlabel. Ini mungkin berfungsi untuk data Anda yang tidak dimodifikasi, dan Anda harus mengujinya untuk menghemat waktu dan uang. Jika layanan ini tidak memenuhi kebutuhan Anda, Google Cloud AutoML membantu Anda membuat model yang sesuai, tanpa mengharuskan Anda mengetahui cara melakukan pembelajaran transfer atau bahkan cara membuat jaringan neural.

Pembelajaran transfer menawarkan dua keuntungan besar dibandingkan melatih jaringan saraf dari awal. Pertama, memerlukan lebih sedikit data untuk pelatihan, karena sebagian besar lapisan jaringan sudah terlatih dengan baik. Kedua, ini berjalan jauh lebih cepat, karena ini hanya mengoptimalkan lapisan akhir.

Terjemahan Google Cloud AutoML

Jadi, misalnya, Anda dapat berlatih melawan 1.000 pasangan kalimat dua bahasa dalam satu atau dua jam dengan pembelajaran transfer Google Cloud AutoML Translation. Jaringan saraf dasar yang disesuaikan, NMT, membutuhkan waktu ratusan hingga ribuan jam untuk dilatih dari awal untuk setiap pasangan bahasa, pada sejumlah besar CPU dan GPU. Perhatikan bahwa biaya per jam untuk melatih model terjemahan ubahsuaian saat ini adalah $ 76.

Panduan Pemula AutoML Translation menjelaskan dasar-dasar tentang apa yang dapat dilakukan Google Cloud AutoML Translation, dan mengapa Anda akan menggunakannya. Pada dasarnya, ini menyempurnakan model terjemahan umum yang ada untuk tujuan khusus. Anda tidak perlu melakukan pelatihan untuk umum terjemahan dari seratus atau lebih bahasa yang Google sudah mendukung, tetapi Anda akan perlu menjalankan pembelajaran pengalihan jika Anda ingin membuat jaringan terjemahan untuk khusus kosakata atau penggunaan. Salah satu contoh yang disebutkan Google adalah menerjemahkan dokumen keuangan yang sensitif terhadap waktu secara real time. Terjemahan tujuan umum tidak selalu menggunakan istilah seni yang benar untuk keuangan.

 Menyiapkan pelatihan untuk Google Cloud AutoML Translation adalah proses lima langkah, seperti yang ditunjukkan pada screenshot di bawah, setelah Anda menyiapkan file dengan pasangan kalimat. Saya menggunakan 8.720 pasangan bahasa Inggris-Spanyol untuk permintaan aplikasi yang disediakan oleh Google di AutoML Translation Quickstart, diformat sebagai file nilai yang dipisahkan tab. Google Cloud AutoML Translation juga mendukung format Translation Memory eXchange (TMX) berbasis XML untuk pasangan kalimat.

Anda akan melihat bahwa tidak ada opsi untuk mengontrol hardware (CPU, GPU, TPU, dan memori) yang digunakan untuk melakukan pelatihan. Itu disengaja: Pelatihan akan menggunakan apa yang dibutuhkannya. Juga tidak ada opsi untuk mengontrol lapisan jaringan neural yang ditambahkan ke model, jumlah periode yang akan dijalankan, atau kriteria penghentian.

Setelah pelatihan model selesai, Anda dapat melihat peningkatan (jika semuanya berjalan dengan baik) pada skor BLEU di atas model dasar, dan mencoba membuat prediksi dengan model tersebut. Pelatihan ini memakan waktu 0,9 jam (kurang dari perkiraan) dan biaya $ 68,34.

Google Cloud AutoML Natural Language

Google Natural Language API mengambil teks dan memprediksi entitas, sentimen, sintaksis, dan kategori (dari daftar yang telah ditentukan sebelumnya). Jika masalah klasifikasi teks Anda tidak sesuai dengan semua itu, Anda dapat memberikan sekumpulan pernyataan berlabel dan menggunakan Google Cloud AutoML Natural Language untuk membuat pengklasifikasi khusus.

Untuk menyiapkan AutoML Natural Language untuk pelatihan, Anda perlu membuat sumber data Anda, memberinya label, mempersiapkannya sebagai file CSV, dan menjalankan pelatihan. Anda juga dapat menggunakan AutoML Natural Language UI untuk mengunggah dan memberi label data jika Anda mau.

Setelah pelatihan model selesai, Anda dapat melihat matriks presisi, perolehan, dan kebingungan model. Anda juga dapat menyesuaikan ambang skor untuk ketepatan / penarikan kembali yang diinginkan. Untuk meminimalkan negatif palsu, optimalkan penarikan kembali. Untuk meminimalkan kesalahan positif, optimalkan presisi.

Pelatihan ini memakan waktu 3,63 jam (kira-kira seperti yang diperkirakan) dan biaya $ 10,88.

Google Cloud AutoML Vision

Google Cloud Vision API mengklasifikasikan gambar ke dalam ribuan kategori yang telah ditentukan, mendeteksi objek dan wajah individu dalam gambar, dan menemukan serta membaca kata-kata tercetak yang terdapat dalam gambar. Google Cloud AutoML Vision memungkinkan Anda menentukan dan melatih daftar kategori Anda sendiri. Beberapa aplikasi kehidupan nyata termasuk mendeteksi kerusakan pada turbin angin dari foto drone, dan mengklasifikasikan barang daur ulang untuk pengelolaan limbah.

Untuk menyiapkan kumpulan data Google Cloud AutoML Vision, Anda harus membuat sumber setidaknya 100 gambar untuk setiap kategori, dan melabeli mereka dalam file CSV. Semua gambar dan file CSV harus berada di keranjang Google Cloud Storage.

Saya mengatur pelatihan ini agar berjalan maksimal satu jam, yang gratis hingga 10 model sebulan. Saya sangat terkejut melihat hasil yang bagus dari pelatihan gratis, dan tidak repot-repot melanjutkan pelatihan untuk meningkatkan presisi dan daya ingat.

Google Cloud AutoML memberikan opsi yang nyaman untuk melakukan terjemahan yang ditargetkan, klasifikasi teks yang disesuaikan, dan klasifikasi gambar yang disesuaikan. Masing-masing API ini berfungsi dengan baik jika Anda memberikan data berlabel yang cukup akurat, dan membutuhkan lebih sedikit waktu dan keterampilan daripada membuat model jaringan neural Anda sendiri atau bahkan model pembelajaran transfer Anda sendiri. Dengan Google Cloud AutoML, Anda sebenarnya membuat model TensorFlow, tanpa perlu mengetahui apa pun tentang TensorFlow, Python, arsitektur jaringan neural, atau perangkat keras pelatihan.

Ada banyak cara untuk melakukan persiapan data yang salah, tetapi untungnya ketiga API tersebut memeriksa kesalahan yang paling umum, seperti memiliki terlalu sedikit atau terlalu banyak contoh untuk kategori apa pun. Diagnostik yang ditampilkan setelah pelatihan memberi Anda gambaran tentang seberapa baik model Anda bekerja, dan Anda dapat dengan mudah menyesuaikan model dengan menambahkan lebih banyak data pelatihan berlabel dan menjalankan kembali pelatihan.

-

Biaya: Terjemahan AutoML Google Cloud: Biaya pelatihan $ 76,00 per jam, terjemahan $ 80 per juta karakter setelah 500K pertama. Google Cloud AutoML Natural Language: Biaya pelatihan $ 3,00 per jam, klasifikasi $ 5 per seribu catatan teks setelah 30K pertama. Google Cloud AutoML Vision: Biaya pelatihan $ 20 per jam setelah jam pertama, klasifikasi $ 3 per seribu gambar setelah seribu gambar pertama. 

Platform: Google Cloud Platform