Penantang open source menggunakan Google Terjemahan

Para peneliti telah merilis sistem jaringan saraf sumber terbuka untuk melakukan terjemahan bahasa yang dapat menjadi alternatif layanan terjemahan kotak hitam berpemilik.

Terjemahan Mesin Neural Sumber Terbuka (OpenNMT) menggabungkan pekerjaan dari para peneliti di Harvard dengan kontribusi dari pencipta perangkat lunak terjemahan mesin lama Systran. Ini berjalan pada kerangka komputasi ilmiah Torch, yang juga digunakan oleh Facebook untuk proyek pembelajaran mesinnya.

Idealnya, OpenNMT dapat berfungsi sebagai alternatif terbuka untuk proyek sumber tertutup seperti Google Terjemahan, yang baru-baru ini menerima perubahan besar jaringan saraf untuk meningkatkan kualitas terjemahannya.

Tetapi algoritme bukanlah bagian yang sulit; itu datang dengan sumber data yang bagus untuk mendukung proses penerjemahan — di situlah Google dan raksasa awan lainnya yang menyediakan terjemahan mesin sebagai layanan memiliki keunggulan.

Berbicara dalam bahasa roh

OpenNMT, yang menggunakan bahasa Lua untuk berinteraksi dengan Torch, bekerja seperti produk lain di kelasnya. Pengguna mempersiapkan kumpulan data yang mewakili dua pasangan bahasa yang akan diterjemahkan — biasanya teks yang sama dalam kedua bahasa seperti yang diterjemahkan oleh penerjemah manusia. Setelah melatih OpenNMT pada data ini, pengguna kemudian dapat menerapkan model yang dihasilkan dan menggunakannya untuk menerjemahkan teks.

Torch dapat memanfaatkan akselerasi GPU, yang berarti proses pelatihan untuk model OpenNMT dapat dipercepat secara signifikan pada sistem yang dilengkapi GPU. Meskipun demikian, proses pelatihan bisa memakan waktu lama— “terkadang berminggu-minggu”. Namun proses pelatihan dapat diambil gambarnya dan dilanjutkan sesuai permintaan jika diperlukan. Jika Anda ingin menggunakan model terlatih pada CPU daripada GPU, Anda harus mengonversi model agar berfungsi dalam mode CPU. OpenNMT menyediakan alat untuk melakukan hal itu.

Demo langsung yang disediakan oleh Systran mengklaim menggunakan OpenNMT sehubungan dengan pekerjaan Systran sendiri. Untuk pasangan bahasa umum seperti Inggris / Prancis, terjemahannya cukup akurat. Untuk pasangan yang kemungkinan memiliki kumpulan teks yang lebih kecil, atau pasangan bahasa tidak dipetakan secara tepat satu sama lain — katakanlah, Inggris / Jepang — terjemahannya sedikit lebih kaku dan tidak tepat. Dalam salah satu contoh kalimat bahasa Jepang, demo Systran salah mengira kata "burung camar" dalam bahasa Jepang sebagai "gulungan gantung"; Google Terjemahan menerjemahkannya dengan benar.

Kata-kata, kata-kata, kata-kata

Elemen terpenting yang belum disediakan OpenNMT adalah data model bahasa yang telah dilatih sebelumnya. Tautan ke Model Contoh di situs GitHub untuk proyek saat ini menghasilkan kesalahan. Agaknya pada waktunya ini akan menampilkan data sampel yang dapat digunakan untuk mengukur sistem atau merasakan bagaimana proses pelatihan dan penerapan bekerja. Tapi itu tidak akan mencakup data yang dapat digunakan dalam lingkungan produksi.

Ini membatasi seberapa berguna OpenNMT di luar kotak, karena data model setidaknya sama pentingnya untuk terjemahan mesin seperti algoritme itu sendiri. Menerjemahkan pasangan bahasa memerlukan corpora paralel, atau teks dalam kedua bahasa yang sangat cocok satu sama lain pada tingkat kalimat demi kalimat atau frasa demi frasa, dan dapat dilatih untuk menghasilkan model dalam produk seperti OpenNMT.

Banyak corpora tersedia secara gratis, tetapi perlu dibuat bersama-sama dengan tangan agar berguna bagi pengembang rata-rata. Vendor seperti Google — dan IBM, dengan sistem Penerjemah Bahasa di Watson — memiliki keuntungan karena mereka dapat dengan mudah membangun korpora dengan layanan mereka yang lain. Google dapat secara otomatis memanen sejumlah besar data bahasa yang terus diperbarui melalui mesin pencari.

Namun, OpenNMT pasti akan berguna bagi mereka yang ingin membangun fungsionalitas baru di atas pemodelan dan kode pelatihan OpenNMT, dan tidak ingin bergantung pada algoritme di balik API seperti yang dilakukan Google.