Pembelajaran tanpa pengawasan menjelaskan

Terlepas dari kesuksesan pembelajaran mesin yang diawasi dan pembelajaran yang mendalam, ada sebuah aliran pemikiran yang mengatakan bahwa pembelajaran tanpa pengawasan memiliki potensi yang lebih besar. Pembelajaran sistem pembelajaran yang diawasi dibatasi oleh pelatihannya; yaitu, sistem pembelajaran yang diawasi hanya dapat mempelajari tugas-tugas yang dilatihnya. Sebaliknya, sistem tanpa pengawasan secara teoritis dapat mencapai "kecerdasan umum buatan," yang berarti kemampuan untuk mempelajari tugas apa pun yang dapat dipelajari manusia. Namun, teknologinya belum ada.

Jika masalah terbesar dengan pembelajaran yang diawasi adalah biaya pelabelan data pelatihan, masalah terbesar dengan pembelajaran tanpa pengawasan (di mana data tidak diberi label) adalah sering tidak berfungsi dengan baik. Namun demikian, pembelajaran tanpa pengawasan memang memiliki kegunaannya: Terkadang bagus untuk mengurangi dimensi kumpulan data, mengeksplorasi pola dan struktur data, menemukan kelompok objek yang serupa, dan mendeteksi pencilan dan gangguan lainnya dalam data. 

Secara umum, ada baiknya mencoba metode pembelajaran tanpa pengawasan sebagai bagian dari analisis data eksplorasi Anda untuk menemukan pola dan cluster, untuk mengurangi dimensi data Anda, untuk menemukan fitur laten, dan untuk menghapus pencilan. Apakah Anda kemudian perlu beralih ke pembelajaran yang diawasi atau menggunakan model terlatih untuk melakukan prediksi bergantung pada tujuan dan data Anda.

Apa itu pembelajaran tanpa pengawasan?

Pikirkan tentang bagaimana anak-anak manusia belajar. Sebagai orang tua atau guru, Anda tidak perlu menunjukkan kepada anak-anak setiap jenis anjing dan kucing yang ada untuk mengajari mereka mengenali anjing dan kucing. Mereka dapat belajar dari beberapa contoh, tanpa banyak penjelasan, dan menggeneralisasi sendiri. Oh, mereka mungkin keliru menyebut Chihuahua "Kitty" saat pertama kali melihatnya, tetapi Anda dapat memperbaikinya dengan relatif cepat.

Anak-anak secara intuitif menggabungkan kelompok hal-hal yang mereka lihat ke dalam kelas. Salah satu tujuan pembelajaran tanpa pengawasan pada dasarnya adalah untuk memungkinkan komputer mengembangkan kemampuan yang sama. Seperti yang dikatakan Alex Graves dan Kelly Clancy dari DeepMind di entri blog mereka, "Pembelajaran tanpa pengawasan: murid yang ingin tahu",

Pembelajaran tanpa pengawasan adalah paradigma yang dirancang untuk menciptakan kecerdasan otonom dengan memberi penghargaan kepada agen (yaitu, program komputer) untuk mempelajari data yang mereka amati tanpa memikirkan tugas tertentu. Dengan kata lain, agen belajar untuk kepentingan pembelajaran.

Potensi agen yang belajar untuk kepentingan pembelajaran jauh lebih besar daripada sistem yang mereduksi gambar kompleks menjadi keputusan biner (misalnya anjing atau kucing). Mengungkap pola daripada melakukan tugas yang ditentukan sebelumnya dapat menghasilkan hasil yang mengejutkan dan berguna, seperti yang ditunjukkan ketika para peneliti di Lawrence Berkeley Lab menjalankan algoritma pemrosesan teks (Word2vec) pada beberapa juta abstrak ilmu material untuk memprediksi penemuan bahan termoelektrik baru.

Metode pengelompokan

Masalah pengelompokan adalah masalah pembelajaran tanpa pengawasan yang meminta model untuk menemukan kelompok titik data yang serupa. Ada sejumlah algoritme pengelompokan yang saat ini digunakan, yang cenderung memiliki karakteristik yang sedikit berbeda. Secara umum, algoritme pengelompokan melihat metrik atau fungsi jarak antara vektor fitur dari titik data, dan kemudian mengelompokkan yang "dekat" satu sama lain. Algoritme pengelompokan bekerja paling baik jika kelas tidak tumpang tindih.

Pengelompokan hierarki

Analisis cluster hierarki (HCA) dapat bersifat aglomeratif (Anda membangun cluster dari bawah ke atas dimulai dengan poin individu dan diakhiri dengan satu cluster) atau memecah belah (Anda mulai dengan satu cluster dan memecahnya sampai Anda berakhir dengan poin individu). Jika beruntung, Anda dapat menemukan tahap perantara dari proses pengelompokan yang mencerminkan klasifikasi yang bermakna.

Proses clustering biasanya ditampilkan sebagai dendrogram (diagram pohon). Algoritma HCA cenderung memakan banyak waktu komputasi [ O (n3)] dan memori [ O (n2)] sumber daya; ini membatasi penerapan algoritme pada kumpulan data yang relatif kecil.

Algoritme HCA dapat menggunakan berbagai metrik dan kriteria keterkaitan. Jarak Euclidian dan jarak Euclidian kuadrat keduanya umum untuk data numerik; Jarak Hamming dan jarak Levenshtein umum untuk data non-numerik. Keterkaitan tunggal dan keterkaitan lengkap adalah hal biasa; keduanya dapat menyederhanakan algoritme pengelompokan (masing-masing SLINK dan CLINK). SLINK adalah salah satu dari sedikit algoritma pengelompokan yang dijamin dapat menemukan solusi optimal.

Pengelompokan K-means

Masalah pengelompokan k-means mencoba membagi n pengamatan menjadi k kluster menggunakan metrik jarak Euclidean, dengan tujuan meminimalkan varians (jumlah kuadrat) di dalam setiap kluster. Ini adalah metode kuantisasi vektor, dan berguna untuk pembelajaran fitur.

Algoritme Lloyd (aglomerasi cluster berulang dengan pembaruan sentroid) adalah heuristik paling umum yang digunakan untuk menyelesaikan masalah, dan relatif efisien, tetapi tidak menjamin konvergensi global. Untuk meningkatkannya, orang sering menjalankan algoritme beberapa kali menggunakan sentroid cluster awal acak yang dihasilkan oleh metode Forgy atau Random Partition.

K-means mengasumsikan cluster berbentuk bola yang dapat dipisahkan sehingga mean berkumpul menuju pusat cluster, dan juga mengasumsikan bahwa pengurutan titik data tidak menjadi masalah. Cluster diharapkan memiliki ukuran yang sama, sehingga penetapan ke pusat cluster terdekat adalah penetapan yang benar.

Heuristik untuk menyelesaikan cluster k-means biasanya mirip dengan algoritma ekspektasi-maksimisasi (EM) untuk model campuran Gaussian.

Model campuran

Model campuran mengasumsikan bahwa sub-populasi pengamatan sesuai dengan beberapa distribusi probabilitas, umumnya distribusi Gaussian untuk pengamatan numerik atau distribusi kategorikal untuk data non-numerik. Setiap sub-populasi dapat memiliki parameter distribusinya sendiri, misalnya mean dan varians untuk distribusi Gaussian.

Expectation maximization (EM) adalah salah satu teknik paling populer yang digunakan untuk menentukan parameter campuran dengan sejumlah komponen. Selain EM, model campuran dapat diselesaikan dengan rantai Markov Monte Carlo, pencocokan momen, metode spektral dengan dekomposisi nilai singular (SVD), dan metode grafis.

Aplikasi model campuran asli untuk memisahkan dua populasi kepiting pantai dengan rasio dahi dan panjang tubuh. Karl Pearson memecahkan masalah ini pada tahun 1894 dengan menggunakan pencocokan momen.

Perpanjangan umum dari model campuran adalah untuk menghubungkan variabel laten yang mendefinisikan identitas komponen campuran ke dalam rantai Markov alih-alih mengasumsikan bahwa mereka adalah variabel acak yang terdistribusi secara identik dan independen. Model yang dihasilkan disebut model Markov tersembunyi dan merupakan salah satu model hierarki sekuensial yang paling umum.

Algoritma DBSCAN

Pengelompokan spasial berbasis kepadatan aplikasi dengan kebisingan (DBSCAN) adalah algoritme pengelompokan data non-parametrik yang berasal dari tahun 1996. Ini dioptimalkan untuk digunakan dengan database yang dapat mempercepat kueri wilayah geometris menggunakan pohon R * atau beberapa struktur indeks geometris lainnya .

Pada dasarnya, titik inti cluster DBSCAN yang memiliki lebih dari beberapa jumlah minimum tetangga dalam jarak tertentu Epsilon, membuang sebagai titik pencilan yang tidak memiliki tetangga dalam Epsilon, dan menambahkan titik yang berada dalam Epsilon dari titik inti ke cluster itu. DBSCAN adalah salah satu algoritme pengelompokan yang paling umum, dan dapat menemukan kluster yang berbentuk arbitrer.

Algoritma OPTICS

Mengurutkan poin untuk mengidentifikasi struktur pengelompokan (OPTICS) adalah algoritme untuk menemukan kluster berbasis kepadatan dalam data spasial. OPTICS mirip dengan DBSCAN, tetapi menangani kasus kepadatan titik yang bervariasi.

Variasi ide dalam DBSCAN dan OPTICS juga dapat digunakan untuk pencilan sederhana serta deteksi dan penghapusan noise.

Model variabel laten

Model variabel laten adalah model statistik yang menghubungkan sekumpulan variabel yang dapat diamati dengan sekumpulan variabel laten (tersembunyi). Model variabel laten berguna untuk mengungkap struktur tersembunyi dalam data yang kompleks dan berdimensi tinggi. 

Analisis komponen utama

Analisis komponen utama (PCA) adalah prosedur statistik yang menggunakan transformasi ortogonal untuk mengubah serangkaian pengamatan variabel numerik yang mungkin berkorelasi menjadi satu set nilai variabel yang tidak berkorelasi linier yang disebut komponen utama. Karl Pearson menemukan PCA pada tahun 1901. PCA dapat dilakukan dengan dekomposisi nilai eigen dari matriks kovarian data (atau korelasi), atau dekomposisi nilai tunggal (SVD) dari matriks data, biasanya setelah langkah normalisasi data awal.

Dekomposisi nilai singular

Dekomposisi nilai singular (SVD) adalah faktorisasi dari matriks nyata atau kompleks. Ini adalah teknik umum dalam aljabar linier, dan sering dihitung menggunakan transformasi Householder. SVD merupakan salah satu cara untuk menyelesaikan komponen utama. Meskipun sangat mungkin untuk membuat kode SVD dari awal, ada implementasi yang baik di semua perpustakaan aljabar linier.

Metode momen

Metode momen menggunakan momen sampel data yang diamati (mean, variance, skewness, dan kurtosis) untuk memperkirakan parameter populasi. Metodenya cukup sederhana, sering dapat dihitung dengan tangan, dan biasanya mencapai konvergensi global. Namun, dalam kasus statistik rendah, metode momen terkadang dapat menghasilkan perkiraan yang berada di luar ruang parameter. Metode momen adalah cara mudah untuk menyelesaikan model campuran (di atas).

Algoritme pemaksimalan harapan

Algoritma ekspektasi-maksimisasi (EM) adalah metode iteratif untuk menemukan perkiraan kemungkinan maksimum dari parameter dalam model yang bergantung pada variabel laten yang tidak teramati. Iterasi EM berganti-ganti antara melakukan langkah ekspektasi (E), yang membuat fungsi untuk ekspektasi kemungkinan log yang dievaluasi menggunakan estimasi saat ini untuk parameter, dan langkah maksimisasi (M), yang menghitung parameter yang memaksimalkan log- yang diharapkan- kemungkinan ditemukan di langkah E.

EM menyatu ke titik maksimum atau sadel, tetapi tidak harus ke titik maksimum global. Anda dapat meningkatkan kemungkinan menemukan maksimum global dengan mengulangi prosedur EM dari banyak perkiraan awal acak untuk parameter, atau dengan menggunakan metode momen untuk menentukan perkiraan awal.

EM diterapkan ke model campuran Gaussian (di atas) dapat digunakan untuk analisis cluster.

Jaringan saraf tanpa pengawasan

Jaringan neural biasanya dilatih pada data berlabel untuk klasifikasi atau regresi, yang menurut definisi merupakan pembelajaran mesin yang diawasi. Mereka juga dapat dilatih tentang data tanpa label, menggunakan berbagai skema tanpa pengawasan.

Pembuat kode otomatis

Autoencoder adalah jaringan neural yang dilatih berdasarkan masukannya. Pada dasarnya, autoencoder adalah jaringan umpan-maju yang bertindak sebagai codec, menyandikan masukannya dari lapisan masukan ke satu atau lebih lapisan tersembunyi dengan jumlah neuron yang lebih rendah, dan kemudian mendekode representasi yang dikodekan ke lapisan keluaran dengan topologi sebagai memasukkan.

Selama pelatihan, autoencoder menggunakan propagasi mundur untuk meminimalkan perbedaan antara input dan output. Autoencoder telah digunakan untuk pengurangan dimensi, pembelajaran fitur, penghilangan derau, deteksi anomali, pemrosesan gambar, dan untuk mempelajari model generatif.

Jaringan keyakinan yang dalam

Jaringan keyakinan mendalam (DBN) adalah tumpukan autoencoder atau mesin Boltzmann terbatas (RBN) yang dapat belajar merekonstruksi input mereka. Lapisan tersebut kemudian bertindak sebagai pendeteksi fitur. RBN biasanya dilatih menggunakan divergensi kontrastif.

DBN telah digunakan untuk menghasilkan dan mengenali gambar, urutan video, dan data penangkapan gerak.

Jaringan permusuhan generatif

Generative adversarial networks (GAN) secara bersamaan melatih dua jaringan, model generatif yang menangkap distribusi data dan model diskriminatif yang memperkirakan probabilitas bahwa sampel berasal dari data pelatihan. Pelatihan mencoba untuk memaksimalkan kemungkinan bahwa generator dapat mengelabui diskriminator.

GAN dapat digunakan untuk membuat foto orang imajiner dan meningkatkan gambar astronomi. GAN juga telah digunakan untuk meningkatkan tekstur dari gim video lama untuk digunakan dalam gim versi resolusi tinggi. Di luar pembelajaran tanpa pengawasan, GAN telah berhasil diterapkan untuk memperkuat pembelajaran bermain game.

Peta yang dapat diatur sendiri

Peta pengorganisasian mandiri (SOM) mendefinisikan pemetaan berurutan dari sekumpulan item data yang diberikan ke dalam kisi biasa yang biasanya dua dimensi. Sebuah model dikaitkan dengan setiap node grid. Item data akan dipetakan ke dalam node yang modelnya paling mirip dengan item data, yaitu memiliki jarak terkecil dari item data dalam beberapa metrik.

Ada sejumlah tindakan pencegahan yang perlu Anda lakukan untuk memastikan bahwa pemetaan stabil dan tertata dengan baik. Tidak semua penerapan komersial mengikuti semua tindakan pencegahan.