Mengapa perusahaan beralih dari TensorFlow ke PyTorch

Subkategori pembelajaran mesin, pembelajaran dalam menggunakan jaringan saraf berlapis untuk mengotomatiskan tugas mesin yang secara historis sulit — seperti pengenalan gambar, pemrosesan bahasa alami (NLP), dan terjemahan mesin — dalam skala besar.

TensorFlow, yang muncul dari Google pada tahun 2015, telah menjadi framework deep learning open source yang paling populer untuk penelitian dan bisnis. Namun PyTorch, yang muncul dari Facebook pada 2016, dengan cepat menyusul, berkat peningkatan berbasis komunitas dalam kemudahan penggunaan dan penyebaran untuk berbagai kasus penggunaan.

PyTorch melihat adopsi yang sangat kuat dalam industri otomotif — di mana hal itu dapat diterapkan pada sistem penggerak otonom pilot dari orang-orang seperti Tesla dan Lyft Level 5. Kerangka kerja ini juga digunakan untuk klasifikasi konten dan rekomendasi di perusahaan media dan untuk membantu mendukung robot dalam aplikasi industri.

Joe Spisak, pimpinan produk untuk kecerdasan buatan di Facebook AI, mengatakan bahwa meskipun dia senang dengan peningkatan adopsi perusahaan terhadap PyTorch, masih banyak pekerjaan yang harus dilakukan untuk mendapatkan adopsi industri yang lebih luas.

“Gelombang adopsi berikutnya akan datang dengan memungkinkan manajemen siklus hidup, MLOps, dan pipeline Kubeflow dan komunitas di sekitarnya,” katanya. “Bagi mereka yang baru memulai, alatnya cukup bagus, menggunakan layanan terkelola dan beberapa sumber terbuka dengan sesuatu seperti SageMaker di AWS atau Azure ML untuk memulai.”

Disney: Mengidentifikasi wajah animasi dalam film

Sejak 2012, insinyur dan ilmuwan data di raksasa media Disney telah membangun apa yang oleh perusahaan disebut Genome Konten, grafik pengetahuan yang menyatukan metadata konten untuk memberdayakan aplikasi personalisasi dan pencarian berbasis pembelajaran mesin di seluruh pustaka konten Disney yang sangat besar.

“Metadata ini meningkatkan alat yang digunakan oleh pendongeng Disney untuk menghasilkan konten; menginspirasi kreativitas berulang dalam mendongeng; mendukung pengalaman pengguna melalui mesin rekomendasi, navigasi digital, dan penemuan konten; dan mengaktifkan kecerdasan bisnis, ”tulis pengembang Disney Miquel Àngel Farré, Anthony Accardo, Marc Junyent, Monica Alfaro, dan Cesc Guitart dalam sebuah posting blog pada bulan Juli.

Sebelum itu bisa terjadi, Disney harus berinvestasi dalam proyek anotasi konten yang luas, beralih ke ilmuwan datanya untuk melatih pipeline pemberian tag otomatis menggunakan model pembelajaran yang mendalam untuk pengenalan gambar guna mengidentifikasi sejumlah besar gambar orang, karakter, dan lokasi.

Insinyur Disney memulai dengan bereksperimen dengan berbagai kerangka kerja, termasuk TensorFlow, tetapi memutuskan untuk mengkonsolidasikan sekitar PyTorch pada tahun 2019. Para insinyur beralih dari histogram konvensional pendeskripsi fitur gradien berorientasi (HOG) dan model mesin vektor dukungan (SVM) yang populer ke versi arsitektur deteksi objek yang disebut region dengan jaringan saraf konvolusional (R-CNN). Yang terakhir lebih kondusif untuk menangani kombinasi aksi langsung, animasi, dan efek visual yang umum dalam konten Disney.

“Sulit untuk mendefinisikan apa itu wajah dalam kartun, jadi kami beralih ke metode pembelajaran mendalam menggunakan detektor objek dan menggunakan pembelajaran transfer,” insinyur Riset Disney Monica Alfaro menjelaskan. Setelah hanya beberapa ribu wajah yang diproses, model baru tersebut sudah mengidentifikasi wajah secara luas di ketiga kasus penggunaan. Itu mulai diproduksi pada Januari 2020.

"Kami hanya menggunakan satu model sekarang untuk tiga jenis wajah dan itu bagus untuk digunakan dalam film Marvel seperti Avengers, di mana ia perlu mengenali baik Iron Man dan Tony Stark, atau karakter apa pun yang memakai topeng," katanya.

Karena para insinyur berurusan dengan volume data video yang begitu tinggi untuk melatih dan menjalankan model secara paralel, mereka juga ingin menjalankan GPU yang mahal dan berperforma tinggi saat beralih ke produksi.

Pergeseran dari CPU memungkinkan insinyur melatih ulang dan memperbarui model lebih cepat. Ini juga mempercepat distribusi hasil ke berbagai kelompok di seluruh Disney, memotong waktu pemrosesan dari sekitar satu jam untuk film berdurasi panjang, menjadi mendapatkan hasil antara lima hingga 10 menit hari ini.

“Detektor objek TensorFlow membawa masalah memori dalam produksi dan sulit untuk diperbarui, sedangkan PyTorch memiliki detektor objek dan Faster-RCNN yang sama, jadi kami mulai menggunakan PyTorch untuk semuanya,” kata Alfaro.

Peralihan dari satu kerangka kerja ke kerangka lainnya ternyata sangat sederhana bagi tim teknik juga. “Perubahan [ke PyTorch] itu mudah karena semuanya built-in, Anda hanya perlu mencolokkan beberapa fungsi dan dapat memulai dengan cepat, jadi ini bukan kurva pembelajaran yang sulit,” kata Alfaro.

Ketika mereka menemui masalah atau hambatan, komunitas PyTorch yang bersemangat siap membantu.

Teknologi Blue River: Robot pembunuh gulma

Teknologi Blue River telah merancang robot yang menggunakan kombinasi memabukkan dari pencarian arah digital, kamera terintegrasi, dan visi komputer untuk menyemprot gulma dengan herbisida sambil meninggalkan tanaman secara real-time, membantu petani lebih efisien dalam melestarikan herbisida yang mahal dan berpotensi merusak lingkungan.

Perusahaan yang berbasis di Sunnyvale, California menarik perhatian pembuat alat berat John Deere pada 2017, ketika diakuisisi seharga $ 305 juta, dengan tujuan untuk mengintegrasikan teknologi tersebut ke dalam peralatan pertaniannya.

Peneliti Blue River bereksperimen dengan berbagai kerangka kerja pembelajaran mendalam sambil mencoba melatih model visi komputer untuk mengenali perbedaan antara gulma dan tanaman, sebuah tantangan besar saat Anda berurusan dengan tanaman kapas, yang sangat mirip dengan gulma.

Ahli agronomi yang sangat terlatih dirancang untuk melakukan tugas pelabelan gambar manual dan melatih jaringan saraf konvolusional (CNN) menggunakan PyTorch "untuk menganalisis setiap bingkai dan menghasilkan peta dengan akurasi piksel di mana tanaman dan gulma berada," Chris Padwick, direktur komputer visi dan pembelajaran mesin di Blue River Technology, menulis dalam posting blog pada bulan Agustus.

“Seperti perusahaan lain, kami mencoba Caffe, TensorFlow, dan kemudian PyTorch,” kata Padwick. “Ini bekerja cukup banyak di luar kotak bagi kami. Kami tidak memiliki laporan bug atau bug pemblokiran sama sekali. Pada komputasi terdistribusi, ini benar-benar bersinar dan lebih mudah digunakan daripada TensorFlow, yang untuk paralelisme data cukup rumit. ”

Padwick mengatakan popularitas dan kesederhanaan kerangka kerja PyTorch memberinya keuntungan dalam hal merekrut karyawan baru dengan cepat. Meski begitu, Padwick memimpikan sebuah dunia di mana “orang berkembang dalam apa pun yang mereka sukai. Beberapa menyukai Apache MXNet atau Darknet atau Caffe untuk penelitian, tetapi dalam produksi, itu harus dalam satu bahasa, dan PyTorch memiliki semua yang kami butuhkan untuk berhasil. ”

Datarock: Analisis gambar berbasis cloud untuk industri pertambangan

Didirikan oleh sekelompok ahli geosains, perusahaan rintisan Australia Datarock menerapkan teknologi computer vision ke industri pertambangan. Lebih khusus lagi, model pembelajaran mendalamnya membantu ahli geologi menganalisis citra sampel inti bor lebih cepat dari sebelumnya.

Biasanya, ahli geologi akan meneliti sampel ini sentimeter demi sentimeter untuk menilai mineralogi dan struktur, sementara insinyur akan mencari fitur fisik seperti patahan, rekahan, dan kualitas batuan. Proses ini lambat dan rentan terhadap kesalahan manusia.

“Sebuah komputer dapat melihat batu seperti yang dilakukan seorang insinyur,” kata Brenton Crawford, COO Datarock. "Jika Anda dapat melihatnya di gambar, kami dapat melatih model untuk menganalisisnya sebaik manusia."

Mirip dengan Blue River, Datarock menggunakan varian model RCNN dalam produksi, dengan para peneliti beralih ke teknik augmentasi data untuk mengumpulkan data pelatihan yang cukup di tahap awal.

“Setelah periode penemuan awal, tim mulai menggabungkan teknik untuk membuat alur kerja pemrosesan gambar untuk citra inti bor. Ini melibatkan pengembangan serangkaian model pembelajaran mendalam yang dapat memproses gambar mentah menjadi format terstruktur dan mensegmentasi informasi geologi yang penting, ”tulis para peneliti dalam posting blog.

Dengan menggunakan teknologi Datarock, klien bisa mendapatkan hasil dalam setengah jam, dibandingkan dengan lima atau enam jam yang dibutuhkan untuk mencatat temuan secara manual. Ini membebaskan ahli geologi dari bagian pekerjaan mereka yang lebih melelahkan, kata Crawford. Namun, "saat kami mengotomatiskan hal-hal yang lebih sulit, kami mendapatkan beberapa penolakan, dan harus menjelaskan bahwa mereka adalah bagian dari sistem ini untuk melatih model dan membuat putaran umpan balik itu berputar."

Seperti banyak perusahaan yang melatih model computer vision deep learning, Datarock memulai dengan TensorFlow, namun segera bergeser ke PyTorch.

“Pada awalnya kami menggunakan TensorFlow dan itu akan menabrak kami karena alasan misterius,” Duy Tin Truong, pimpinan pembelajaran mesin di Datarock mengatakan. "PyTorch dan Detecton2 dirilis pada waktu itu dan sesuai dengan kebutuhan kami, jadi setelah beberapa pengujian kami melihat lebih mudah untuk men-debug dan bekerja dengan serta menggunakan lebih sedikit memori, jadi kami mengonversinya," katanya.

Datarock juga melaporkan peningkatan 4x dalam kinerja inferensi dari TensorFlow ke PyTorch dan Detectron2 saat menjalankan model pada GPU - dan 3x pada CPU.

Truong mengutip komunitas PyTorch yang berkembang, antarmuka yang dirancang dengan baik, kemudahan penggunaan, dan debugging yang lebih baik sebagai alasan pengalihan dan mencatat bahwa meskipun "mereka sangat berbeda dari sudut pandang antarmuka, jika Anda tahu TensorFlow, cukup mudah untuk beralih , terutama jika Anda tahu Python. ”