Project Oxford: Microsoft menyediakan API untuk aplikasi cerdas

Microsoft pada musim semi yang lalu mengumumkan Project Oxford, sekumpulan SDK dan API yang memungkinkan pengembang membuat aplikasi "cerdas" tanpa harus mempelajari pembelajaran mesin. Menggunakan API wajah, ucapan, dan penglihatan Oxford, pengembang dapat membuat aplikasi yang mengenali fitur wajah, menganalisis gambar, atau melakukan terjemahan ucapan-ke-teks atau teks-ke-ucapan.

Dalam sebuah wawancara dengan Editor di Large Paul Krill, Ryan Galgon dari Microsoft, manajer program senior yang bertanggung jawab atas platform dan teknologi Project Oxford, berbicara tentang tujuan di balik Oxford, menekankan potensinya dalam Internet of things.

: Siapa yang membangun aplikasi Oxford? Untuk siapa Oxford?

Galgon: Banyak orang yang masuk dan mendaftar untuk layanan API. Jumlah pastinya [bukanlah] sesuatu yang dapat saya bahas, tetapi kami memiliki banyak akun Azure yang dibuat, banyak pendaftaran melalui Microsoft Azure Marketplace. Orang-orang menendang ban untuk layanan, serta menjangkau untuk memanfaatkan layanan yang lebih tinggi. Saat ini, semuanya ditawarkan sebagai tingkat gratis terbatas setiap bulan, dan kami sedang berusaha untuk membukanya karena kami telah mendapatkan umpan balik tentang perubahan apa yang ingin dilihat oleh pengembang pada API dan model.

Semuanya lintas platform, dalam arti bahwa ini adalah sekumpulan layanan Web yang diakses terutama melalui antarmuka REST API. Apa pun yang dapat menghubungi situs web dapat memanggil layanan back-end ini. Kami menyediakan sekumpulan SDK, yang menggabungkan panggilan REST tersebut dan membuatnya lebih mudah digunakan pada klien seperti Android dan Windows dan iOS. Apa pun yang dapat membuat panggilan Web HTTP dapat memanggil layanan tersebut.

: Apakah Anda memperkirakan Oxford digunakan terutama di perangkat seluler atau desktop Windows?

Galgon:  Ini terutama merupakan campuran dari perangkat seluler dan IoT. Dalam arti bahwa ketika orang menggunakan desktop, saya lihat sebagian besar penggunaan, Anda duduk di sana, Anda memiliki keyboard dan mouse dan jenis input itu. Tetapi ketika Anda memiliki ponsel, Anda mengambil foto dan video dan audio. Jauh lebih mudah dan alami untuk menangkapnya dengan perangkat kecil. [Teknologi Proyek Oxford akan digunakan] di mana kasus masukan yang dominan akan menjadi data alami, tidak hanya angka tetapi semacam tipe data visual atau audio.

: Beri tahu kami lebih lanjut tentang API ini. Apa saja hal yang dapat dilakukan pengembang?

Galgon: Karena kami ingin menjangkau sebanyak mungkin pengembang, kami benar-benar telah berupaya keras untuk membuatnya sangat mudah digunakan, [untuk] hal-hal seperti deteksi wajah atau penglihatan komputer, kategorisasi gambar. Hal-hal tersebut dilatih dan dimodelkan, dibangun oleh orang-orang dengan pengalaman penelitian mendalam selama bertahun-tahun di tempat-tempat tersebut dan kami tidak ingin pengembang harus menjadi ahli dalam visi komputer. Kami benar-benar mencoba mengatakan, "Lihat, kami akan membuat model terbaik yang dapat kami buat dan membuatnya tersedia untuk Anda dan membuatnya dapat diakses dalam tiga baris kode untuk Anda."

Saya tidak dapat berbicara tentang bagaimana mitra eksternal melihat penggunaan API Oxford, tetapi yang utama yang telah dikerjakan Microsoft, yang mungkin Anda pernah lihat, yang pertama adalah situs How-old.net untuk memprediksi usia. dan jenis kelamin. Lalu kami punya TwinsorNot.net, dan itu diberikan dua foto, seberapa mirip orang-orang ini? Keduanya adalah contoh bagus dari Face API. Yang terakhir, yang menggunakan Face API dan beberapa Speech API, adalah proyek Windows 10 IoT yang beberapa posting blog ditulis tentang di mana Anda dapat membuka kunci pintu dengan wajah Anda dan berbicara dengan pintu - atau kunci, dalam hal itu. Saya rasa itu adalah tiga contoh yang telah dikerjakan oleh Microsoft untuk menunjukkan kepada Anda bahwa inilah jenis aplikasi yang dapat dibuat dan dibagikan dengan orang lain.

: Di bawah REST API ini, apa yang membuat Oxford tergerak?

Galgon: Intinya adalah model pembelajaran mesin yang kami buat untuk hal-hal seperti ucapan-ke-teks. Apakah Anda mengaksesnya melalui REST API - atau dengan ucapan-ke-teks, Anda juga dapat mengaksesnya melalui koneksi soket Web - keajaiban atau hal yang hebat ada model ini yang dapat mengambil audio dari seseorang yang berbicara dan bahasa yang ada di dalamnya dan menerjemahkannya ke dalam format teks. Itulah hal utama yang membuat Oxford tergerak secara keseluruhan.

: Mengapa Project Oxford terpisah dari proyek Azure Machine Learning?

Galgon:  Dalam Pembelajaran Mesin Azure, salah satu komponen utamanya adalah Azure Machine Learning Studio, tempat orang dapat masuk dengan datanya, membuat eksperimen, melatih model mereka sendiri, lalu menghosting model tersebut. Dengan Oxford, ini adalah model bawaan yang dimiliki Microsoft, model yang akan terus kami tingkatkan di masa mendatang dan kami mengizinkan orang menggunakan model tersebut melalui antarmuka REST ini.

: Jenis penggunaan bisnis perusahaan apa yang Anda lihat untuk Project Oxford? Apa kasus bisnis untuk aplikasi Oxford?

Galgon:Tidak ada mitra khusus yang benar-benar dapat saya bicarakan saat ini, tetapi menurut saya salah satu kasus yang sangat kami minati, di mana saya secara pribadi melihat banyak kasus penggunaan, adalah ketika datang ke Internet of things- perangkat yang terhubung. Ketika saya melihat cara orang memandang membangun perangkat IoT, Anda tidak memiliki keyboard dan mouse dan bahkan sering kali monitor nyata yang terkait dengan semua perangkat ini, tetapi mudah untuk menempelkan mikrofon di sana dan itu cukup mudah. untuk menempelkan kamera di sana juga. Jika Anda menggabungkan sesuatu seperti API ucapan dan LUIS (Language Understanding Intelligent Service), maka perangkat yang hanya memiliki mikrofon dan tidak ada cara input lain, Anda sekarang dapat berbicara dengannya, katakan apa yang ingin Anda lakukan, terjemahkan ke dalam serangkaian tindakan terstruktur, dan manfaatkan itu di bagian belakang.Di situlah saya pikir kita akan melihat banyak kasus penggunaan untuk API Oxford.

: Anda menyebutkan iOS dan Android. Apa serapan pada platform tersebut?

Galgon: Dengan membuat API tenang dan menyediakan pembungkus ini untuk mereka, kami pasti telah melihat orang-orang mengunduh pembungkus tersebut, memanfaatkannya. Namun pada akhirnya, yang terjadi adalah, "Ini adalah pembungkus bahasa Java di sekitar pemanggil Web," "Ini adalah pembungkus Objective-C di sekitar panggilan Web." Kami tidak memiliki banyak wawasan tentang perangkat apa yang melakukan panggilan tersebut.

: Apakah Oxford akan menjadi open source?

Galgon: Kami tidak berencana menggunakan sumber terbuka untuk model inti, dan saya tidak memiliki apa pun untuk dibagikan tentang itu karena kami terus memperbarui model dari waktu ke waktu. SDK yang kami sediakan, karena mereka membungkus panggilan REST tersebut, kode sumber itu ada di sana dan tersedia untuk diunduh bagi siapa saja hari ini dari situs web. Tetapi sekali lagi, itu adalah pembungkus tersembunyi pada banyak hal dan kami sebenarnya telah melihat orang-orang di forum MSDN yang telah menyediakan potongan kode dalam berbagai bahasa di sekitarnya.

: Bagaimana rencana Microsoft untuk menghasilkan uang dari Oxford?

Galgon: API di Marketplace hari ini semuanya gratis untuk penggunaan terbatas, jadi Anda mendapatkan 5.000 transaksi API sebulan. Itulah satu-satunya paket yang kami miliki sekarang. Di masa mendatang, kami akan meluncurkan paket berbayar berdasarkan penggunaan API.

: Apa selanjutnya untuk Oxford?

Galgon: Tujuan kita dari sini sebenarnya adalah tiga area. Area pertama adalah tentang memperbarui dan meningkatkan model yang ada. Kami mendapat umpan balik dari pengembang [tentang bagaimana] salah satu API mungkin tidak berfungsi dengan baik dengan jenis gambar tertentu. Kami akan meningkatkan model inti di sana.

Salah satu hal lain yang akan kami lakukan adalah terus memperluas jumlah fitur yang dikembalikan dari model. Hari ini, API Wajah memberi Anda perkiraan usia dan jenis kelamin yang diprediksi. Kami telah melihat banyak permintaan untuk dapat mengenali konten lain di dalam gambar.

Area ketiga adalah kami akan memperluas portofolio API yang kami miliki. Kami punya empat hari ini, tapi kami pasti belum selesai. Kami rasa seluruh ruang yang ingin kami sediakan atau alat yang ingin kami sediakan belum lengkap. Kami akan terus menambahkan API baru yang dapat menangani tipe data yang berbeda atau dapat memberikan jenis pemahaman data alami yang sangat berbeda dari yang kami berikan hari ini.