Watson wannabes: 4 proyek open source untuk kecerdasan mesin

Selama setahun terakhir, sebagai bagian dari layanan perusahaan baru yang didorong oleh IBM untuk diciptakan kembali, Watson telah menjadi bukan sekadar tipu muslihat pemenang "Jeopardy" dan lebih dari sekadar alat. Itu juga tetap merupakan ciptaan milik IBM.

Lalu, apa peluangnya untuk membuat sistem pembelajaran mesin bahasa alami atas pesanan Watson, meskipun dengan komponen open source? Sampai taraf tertentu, ini telah terjadi - sebagian karena Watson sendiri dibangun di atas pekerjaan open source yang ada, dan yang lainnya telah mengembangkan sistem serupa secara paralel dengan Watson. Berikut adalah empat proyek tersebut.

DARPA DeepDive

Merek nama terbesar dari kelompok itu, proyek DeepDive DARPA tidak dimaksudkan untuk meniru sistem kueri bahasa biasa Watson, melainkan kemampuan Watson untuk meningkatkan pengambilan keputusannya dari waktu ke waktu dengan panduan manusia.

Dikembangkan terutama oleh Christopher Re, seorang profesor di University of Wisconsin, proyek ini bersifat open source (Apache 2.0). Menurut EE Times, tujuan utama DeepDive adalah membuat sistem otomatis untuk mengklasifikasikan data tidak terstruktur - dalam satu contoh kasus, mengkategorikan artikel dalam jurnal teknis. Mereka yang berencana menggunakan DeepDive harus terbiasa dengan SQL dan Python, tetapi sistemnya sudah mampu mengekstraksi data dari berbagai sumber konvensional, seperti halaman Web atau dokumen PDF.

Apache UIMA

Manajemen Informasi Tidak Terstruktur (UIMA) adalah standar untuk melakukan analisis pada konten tekstual. Watson menggunakan implementasi UIMA, tetapi Anda tidak harus melalui Watson untuk menggunakan UIMA. Faktanya, arsitektur UIMA IBM bersumber terbuka dan dikelola oleh Apache Foundation. Ini fitur dukungan untuk beberapa bahasa pemrograman, dengan pembaruan ditambahkan secara berkala (paling baru pada bulan Oktober 2014).

Apache UIMA saat ini masih jauh dari solusi pembelajaran mesin lengkap; itu hanya satu - meskipun penting - bagian dari keseluruhan yang dibuat IBM. Jika Anda tidak ingin menggunakan barebone, Anda dapat mengambil salah satu proyek turunannya, seperti YodaQA, yang memanfaatkan UIMA untuk pemrosesannya dan menggunakan Wikipedia sebagai sumber data utama.

OpenCog

OpenCog "bertujuan untuk menyediakan para ilmuwan penelitian dan pengembang perangkat lunak dengan platform yang sama untuk membangun dan berbagi program kecerdasan buatan." Bersumber terbuka di bawah lisensi GNU Affero, ambisi proyek ini adalah untuk mendorong tidak kurang dari apa yang oleh penciptanya disebut sistem "umumnya cerdas", kecerdasan buatan yang memiliki pemahaman yang luas dan mirip manusia tentang dunia alih-alih spesialisasi yang berpusat pada domain (seperti menjadi sangat pandai catur tapi tidak ada yang lain).

Pencipta OpenCog mengklaim kerangka mereka sudah digunakan dalam "aplikasi bahasa alami, baik untuk penelitian dan oleh perusahaan komersial." Itu membuatnya sedikit lebih jauh dari konsep AI pie-in-the-sky dan lebih dekat ke domain Q&A praktis yang dihuni oleh Watson.

OAQA (Kemajuan Terbuka Sistem Penjawab Pertanyaan)

Seperti namanya, misi OAQA adalah "kemajuan terbuka dalam rekayasa sistem penjawab pertanyaan - sistem perangkat lunak bahasa yang memberikan jawaban langsung atas pertanyaan yang diajukan dalam bahasa alami." Terdengar seperti salah satu tujuan Watson? Yup, apalagi OAQA digagas bersama oleh IBM dan Carnegie Mellon University. Seperti Apache UIMA, OAQA mengimplementasikan kerangka kerja UIMA, tetapi jangan menganggapnya sebagai solusi yang siap digunakan; itu toolkit.

Satu kelemahan utama untuk setiap proyek, seperti yang bisa Anda tebak, adalah bahwa mereka tidak ditawarkan dalam paket yang hampir sehalus atau dipoles seperti Watson. Sementara Watson dirancang untuk segera digunakan dalam konteks bisnis, ini adalah peralatan mentah yang membutuhkan pengangkatan berat.

Selain itu, layanan Watson telah dilatih sebelumnya dengan kumpulan data dunia nyata yang dikurasi. Dengan sistem ini, Anda harus menyediakan sumber data, yang mungkin terbukti merupakan proyek yang jauh lebih besar daripada pemrograman itu sendiri.