Apa itu deepfakes? AI yang menipu

Deepfake adalah media - sering kali berupa video tetapi terkadang audio - yang dibuat, diubah, atau disintesis dengan bantuan pembelajaran mendalam untuk mencoba menipu beberapa penonton atau pendengar agar mempercayai peristiwa palsu atau pesan palsu.

Contoh asli dari deepfake (oleh pengguna reddit / u / deepfake) menukar wajah aktris ke tubuh artis porno dalam sebuah video - yang, tentu saja, sama sekali tidak etis, meskipun pada awalnya tidak ilegal. Deepfake lain telah mengubah perkataan orang terkenal, atau bahasa yang mereka gunakan.

Deepfakes memperluas gagasan pengomposisian video (atau film), yang telah dilakukan selama beberapa dekade. Keterampilan video, waktu, dan peralatan yang signifikan digunakan untuk pembuatan komposisi video; Video deepfake membutuhkan lebih sedikit keterampilan, waktu (dengan asumsi Anda memiliki GPU), dan peralatan, meskipun seringkali tidak meyakinkan bagi pengamat yang cermat.

Cara membuat deepfakes

Awalnya, deepfake mengandalkan autoencoders, sejenis jaringan neural tanpa pengawasan, dan masih banyak yang melakukannya. Beberapa orang telah menyempurnakan teknik itu menggunakan GAN (jaringan adversarial generatif). Metode pembelajaran mesin lainnya juga telah digunakan untuk deepfakes, terkadang dikombinasikan dengan metode pembelajaran non-mesin, dengan hasil yang bervariasi.

Pembuat kode otomatis

Pada dasarnya, autoencoder untuk wajah deepfake dalam gambar menjalankan proses dua langkah. Langkah pertama adalah menggunakan jaringan saraf untuk mengekstrak wajah dari gambar sumber dan menyandikannya ke dalam serangkaian fitur dan mungkin topeng, biasanya menggunakan beberapa lapisan konvolusi 2D, beberapa lapisan padat, dan lapisan softmax. Langkah kedua adalah menggunakan jaringan neural lain untuk mendekode fitur, meningkatkan tampilan yang dihasilkan, memutar dan menskalakan wajah sesuai kebutuhan, dan menerapkan wajah yang ditingkatkan ke gambar lain.

Melatih autoencoder untuk pembuatan wajah deepfake membutuhkan banyak gambar dari sumber dan wajah target dari berbagai sudut pandang dan dalam berbagai kondisi pencahayaan. Tanpa GPU, pelatihan bisa memakan waktu berminggu-minggu. Dengan GPU, ini berjalan jauh lebih cepat.

GAN

Jaringan adversarial generatif dapat menyempurnakan hasil autoencoder, misalnya, dengan mengadu dua jaringan neural satu sama lain. Jaringan generatif mencoba membuat contoh yang memiliki statistik yang sama dengan aslinya, sedangkan jaringan diskriminatif mencoba mendeteksi penyimpangan dari distribusi data asli.

Melatih GAN adalah teknik berulang yang memakan waktu yang sangat meningkatkan biaya dalam waktu komputasi dibandingkan autoencoder. Saat ini, GAN lebih sesuai untuk menghasilkan bingkai gambar tunggal yang realistis dari orang-orang imajiner (misalnya StyleGAN) daripada untuk membuat video deepfake. Itu bisa berubah karena perangkat keras pembelajaran dalam menjadi lebih cepat.

Bagaimana cara mendeteksi deepfakes

Awal tahun 2020, konsorsium dari AWS, Facebook, Microsoft, Kemitraan pada Komite Pengarah Integritas Media AI, dan akademisi membuat Tantangan Deteksi Deepfake (DFDC), yang berjalan di Kaggle selama empat bulan.

Kontes ini mencakup dua solusi prototipe yang terdokumentasi dengan baik: pengantar, dan starter kit. Solusi pemenang, oleh Selim Seferbekov, juga memiliki artikel yang cukup bagus.

Detail solusi akan membuat mata Anda juling jika Anda tidak tertarik pada jaringan saraf yang dalam dan pemrosesan gambar. Pada dasarnya, solusi pemenang melakukan deteksi wajah frame-by-frame dan mengekstrak masker indeks SSIM (Structural Similarity). Perangkat lunak mengekstraksi wajah yang terdeteksi ditambah margin 30 persen, dan menggunakan pelatihan awal EfficientNet B7 di ImageNet untuk pengkodean (klasifikasi). Solusinya sekarang open source.

Sayangnya, bahkan solusi pemenang hanya dapat menangkap sekitar dua pertiga dari deepfake dalam database pengujian DFDC.

Aplikasi pembuatan dan deteksi deepfake

Salah satu aplikasi pembuatan deepfake video open source terbaik saat ini adalah Faceswap, yang dibangun di atas algoritme deepfake asli. Penulis Ars Technica, Tim Lee, membutuhkan waktu dua minggu, menggunakan Faceswap, untuk membuat deepfake yang menukar wajah Letnan Commander Data (Brent Spiner) dari  Star Trek: The Next Generation menjadi video kesaksian Mark Zuckerberg di depan Kongres. Seperti tipikal untuk deepfake, hasilnya tidak lulus uji sniff untuk siapa pun dengan kecanggihan grafis yang signifikan. Jadi, keadaan seni untuk deepfake masih belum terlalu bagus, dengan pengecualian langka yang lebih bergantung pada keterampilan "artis" daripada teknologinya.

Itu agak menghibur, mengingat solusi deteksi DFDC yang unggul juga tidak terlalu bagus. Sementara itu, Microsoft telah mengumumkan, tetapi belum merilis hingga tulisan ini dibuat, Microsoft Video Authenticator. Microsoft mengatakan bahwa Video Authenticator dapat menganalisis foto atau video untuk memberikan peluang persentase, atau skor kepercayaan, bahwa media dimanipulasi secara artifisial.

Video Authenticator diuji terhadap set data DFDC; Microsoft belum melaporkan betapa jauh lebih baik daripada solusi Kaggle pemenang Seferbekov. Biasanya sponsor kontes AI membangun dan meningkatkan solusi pemenang dari kontes.

Facebook juga menjanjikan detektor deepfake, tetapi berencana untuk menutup kode sumbernya. Satu masalah dengan detektor deepfake sumber terbuka seperti Seferbekov's adalah bahwa pengembang generasi deepfake dapat menggunakan detektor sebagai pembeda dalam GAN untuk menjamin bahwa pendeteksi palsu akan melewati detektor itu, yang pada akhirnya memicu perlombaan senjata AI antara generator deepfake dan detektor deepfake.

Di bagian depan audio, Descript Overdub dan Adobe's mendemonstrasikan tetapi VoCo yang belum dirilis dapat membuat text-to-speech mendekati realistis. Anda melatih Overdub selama sekitar 10 menit untuk membuat versi sintetis dari suara Anda sendiri; setelah dilatih, Anda dapat mengedit sulih suara Anda sebagai teks.

Teknologi terkait adalah Google WaveNet. Suara yang disintesis WaveNet lebih realistis daripada suara text-to-speech standar, meskipun tidak cukup pada tingkat suara alami, menurut pengujian Google. Anda pernah mendengar suara WaveNet jika Anda telah menggunakan keluaran suara dari Google Assistant, Google Search, atau Google Translate baru-baru ini.

Pornografi palsu dan non-konsensual

Seperti yang saya sebutkan sebelumnya, deepfake asli menukar wajah aktris ke tubuh artis porno dalam sebuah video. Reddit sejak itu melarang / r / deepfake sub-Reddit yang menghostingnya dan deepfake pornografi lainnya, karena sebagian besar kontennya adalah pornografi non-konsensual, yang sekarang ilegal, setidaknya di beberapa yurisdiksi.

Sub-Reddit lain untuk deepfake non- pornografi masih ada di / r / SFWdeepfakes. Sementara penghuni sub-Reddit itu mengklaim bahwa mereka melakukan pekerjaan dengan baik, Anda harus menilai sendiri apakah, katakanlah, melihat wajah Joe Biden yang dipalsukan dengan buruk ke dalam tubuh Rod Serling memiliki nilai - dan apakah ada deepfake yang lolos. tes mengendus kredibilitas. Menurut pendapat saya, beberapa hampir menjual diri mereka sendiri sebagai nyata; sebagian besar dapat digambarkan sebagai kasar.

Pelarangan / r / deepfake, tentu saja, tidak menghilangkan pornografi non-konsensual, yang mungkin memiliki banyak motivasi, termasuk revenge porn, yang merupakan kejahatan di AS. Situs lain yang melarang deepfake non-konsensual termasuk Gfycat, Twitter, Discord, Google, dan Pornhub, dan akhirnya (setelah banyak hal yang menarik) Facebook dan Instagram.

Di California, individu yang ditargetkan oleh konten deepfake yang eksplisit secara seksual yang dibuat tanpa persetujuan mereka memiliki alasan untuk menindak pembuat konten tersebut. Juga di California, distribusi media audio atau visual deepfake berbahaya yang menargetkan kandidat yang mencalonkan diri sebagai pejabat publik dalam 60 hari setelah pemilihannya dilarang. China mengharuskan deepfake diberi label dengan jelas seperti itu.

Pemalsuan dalam politik

Banyak yurisdiksi lain tidak memiliki undang-undang yang melarang pemalsuan politik. Itu bisa menjadi masalah, terutama ketika tokoh-tokoh politik yang berkualitas tinggi membuatnya tersebar luas. Akankah pemalsuan mendalam Nancy Pelosi lebih buruk daripada video Pelosi yang diperlambat secara konvensional yang dimanipulasi agar terdengar seperti dia melontarkan kata-katanya? Bisa jadi, jika diproduksi dengan baik. Misalnya, lihat video dari CNN ini, yang berkonsentrasi pada deepfake yang relevan dengan kampanye presiden 2020.

Deepfake sebagai alasan

"Itu benar-benar palsu" juga merupakan alasan yang mungkin bagi politisi yang videonya nyata dan memalukan telah bocor. Hal itu baru-baru ini terjadi (atau diduga terjadi) di Malaysia ketika rekaman seks gay ditolak sebagai kesalahan besar oleh Menteri Perekonomian, meskipun pria lain yang ditampilkan dalam rekaman itu bersumpah bahwa itu nyata.

Di sisi lain, distribusi deepfake amatir yang mungkin dari Presiden Ali Bongo dari Gabon yang sakit adalah faktor yang berkontribusi pada kudeta militer berikutnya terhadap Bongo. Video deepfake memberi tahu pihak militer bahwa ada sesuatu yang salah, bahkan lebih dari ketidakhadiran Bongo dari media.

Lebih banyak contoh deepfake

Video deepfake terbaru dari All Star , klasik Smash Mouth tahun 1999, adalah contoh manipulasi video (dalam hal ini, gabungan dari film populer) hingga sinkronisasi bibir palsu. Pembuatnya, pengguna YouTube ontyj, mencatat bahwa dia "Terbawa suasana saat menguji wav2lip dan sekarang ini ada ..." Ini lucu, meskipun tidak meyakinkan. Namun demikian, ini menunjukkan betapa jauh lebih baik gerakan bibir palsu. Beberapa tahun yang lalu, gerakan bibir yang tidak wajar biasanya merupakan bocoran dari video palsu.

Itu bisa menjadi lebih buruk. Simak video deepfake dari Presiden Obama sebagai target dan Jordan Peele sebagai pengemudi. Sekarang bayangkan bahwa itu tidak termasuk konteks apa pun yang mengungkapkannya sebagai palsu, dan termasuk ajakan bertindak yang menghasut.

Apakah kamu sudah ketakutan?

Baca lebih lanjut tentang pembelajaran mesin dan pembelajaran mendalam:

  • Pembelajaran mendalam vs. pembelajaran mesin: Pahami perbedaannya
  • Apa itu pembelajaran mesin? Intelijen berasal dari data
  • Apa itu pembelajaran mendalam? Algoritma yang meniru otak manusia
  • Algoritme pembelajaran mesin menjelaskan
  • Pembelajaran mesin otomatis atau penjelasan AutoML
  • Pembelajaran yang diawasi menjelaskan
  • Penjelasan semi-supervised learning
  • Pembelajaran tanpa pengawasan menjelaskan
  • Pembelajaran penguatan dijelaskan
  • Apa itu computer vision? AI untuk gambar dan video
  • Apa itu pengenalan wajah? AI untuk Kakak
  • Apa itu pemrosesan bahasa alami? AI untuk pidato dan teks
  • Kaggle: Tempat para ilmuwan data belajar dan bersaing
  • Apa itu CUDA? Pemrosesan paralel untuk GPU