Deepfake, tidak semudah yang disangka

Dr. Mohd Syahid Mohd Anuar

Deepfake atau pemalsuan wajah merupakan sejenis teknologi kercerdasan buatan (AI) yang mampu mencipta imej, video atau bunyi palsu yang seakan realistik. Ia berfungsi dengan cara mengubah mimik wajah atau suara asal kepada suara palsu yang seakan-akan menyerupai pemilik asal. Deepfake menggunapakai model AI yang dikenali sebagai pembelajaran mendalam (deep learning) yang memerlukan pembelajaran daripada data yang besar seperti video, gambar atau suara asli. Sekiranya data yang diberi mencukupi untuk dipelajari oleh model AI tersebut, maka ianya boleh menghasilkan output bagi meniru muka atau nada suara pemilik asal.

Akan tetapi, proses menghasilkan deepfake yang hiper-realistik tidaklah begitu mudah seperti yang disangka. Ini kerana terdapat beberapa perkara yang perlu diambil kira bagi menghasilkan kualiti output yang terbaik. Deepfake boleh dijana menggunakan beberapa kaedah iaitu, pertamanya dengan menggunakan aplikasi atau perisian yang boleh diakses secara meluas dan percuma di Internet. Kelebihan kaedah ini ialah proses yang mudah dengan hanya menggunakan teknik drag-and-drop tanpa memerlukan pengetahuan pengaturcaraan. Akan tetapi, kelemahan kaedah ini pula adalah pengguna perlu membayar dengan kos yang tinggi bagi menghasilkan kualiti output yang terbaik.

Kaedah kedua adalah dengan menghasilkan sendiri kod pengaturcaraan yang menggunapakai model pembelajaran mendalam. Antara kelebihan kaedah ini adalah ianya percuma dengan memanfaatkan sumber terbuka (open source) tetapi mempunyai cabaran iaitu memerlukan pengetahuan yang tinggi dalam pengaturcaraan, teknik pemprosesan data, dan kaedah pelarasan (fine-tuning) bagi menghasilkan kualiti output yang terbaik.

deepfake vs ori jpg — Berikut merupakan perbandingan gambar bagi deepfake dan gambar asli

Kualiti output yang dijana oleh deepfake boleh dikesan melalui beberapa kaedah. Pertama sekali adalah melalui kualiti video yang tidak konsisten seperti ketiadaan eskpresi muka terutamanya di bahagian mulut, mata dan dahi. Ianya boleh dinilai dengan melihat pergerakan mulut yang kelihatan agak janggal apabila menyebut sesuatu perkataan, kekurangan kedipan mata dan ketiadaan pergerakan di bahagian dahi. Seterusnya, deepfake yang tidak berkualiti akan menghasilkan pencahayaan dan bayang-bayang yang tidak konsisten dan video yang beresolusi rendah atau kabur terutamanya di sekitar kawasan kompleks seperti rambut atau gigi.

Audio yang tidak padan juga antara kaedah yang dapat dikesan jika dijana melalui deepfake lebih-lebih lagi bagi video yang mengandungi audio. Apabila mendengar ucapan video deepfake tersebut dengan teliti, pendengar akan mendapati video tersebut menghasilkan intonasi yang luar biasa, rentak yang ganjil atau bunyi latar belakang yang tidak konsisten. Ini menunjukkan suara tersebut telah disintesis atau diedit. Bagi output deepfake yang kurang baik, suara audio juga akan kedengaran pelik seakan bunyi robot yang sedang bercakap. Pergerakan bibir juga boleh diperhatikan untuk melihat sama ada ianya konsisten dengan pertuturan atau digerakkan menggunakan AI.

Seterusnya, bagi mengesan audio palsu yang dijana oleh deepfake, beberapa langkah boleh diambil kira iaitu dengan menganalisis corak dan kualiti pertuturan. Kebiasaannya, rentak dan intonasi suara akan menjadi tidak konsisten bagi suara yang dijana oleh AI. Ini kerana data-data yang dipelajari oleh model AI mempunyai pelbagai atribut seperti variasi tona, irama dan rentak. Ini menyebabkan output yang dijana akan cuba untuk melakukan proses normalisasi bagi setiap atribut tersebut.

Seterusnya, audio deepfake selalunya gagal memberi penekanan secara semula jadi bagi perkataan atau ayat-ayat tertentu menyebabkan corak pertuturan yang janggal atau terlalu seragam. Seterusnya, suara manusia secara semula jadi akan berhenti sedikit bagi mengawal pernafasan, tetapi deepfake tidak dapat meniru perbuatan ini dan menyebabkan audio yang dijana akan kedengaran kurang realistik.

Bagi pengesanan deepfake yang lebih mendalam, audio atau video yang dijana oleh deepfake boleh dihantar bagi analisa frekuensi yang boleh dilakukan menggunakan perisian penyuntingan audio atau video. Corak bunyi audio utama dan hingar latar belakang yang halus boleh dinilai dari sudut konsistensi untuk melihat sama ada terdapat perubahan corak yang mendadak. Seterusnya adalah melalui penilaian nada suara dimana audio yang dijana oleh deepfake cenderung untuk menhasilkan nada seperti robot yang sedikit atau peralihan nada yang luar biasa.

Kaedah analisa spektrogram juga boleh digunakan di mana audio asli dan audio deepfake yang dijana mempunyai corak spektrogram yang berbeza. Spektrogram audio palsu mungkin menunjukkan taburan frekuensi yang kelihatan lebih seragam atau tidak konsisten dalam julat tertentu berbanding dengan pertuturan manusia sebenar. Selain itu, kaedah penyelewengan modulasi frekuensi boleh juga digunakan di mana suara manusia mempunyai corak frekuensi dan modulasi tertentu yang agak sukar untuk ditiru oleh AI. Menganalisis corak ini kadangkala boleh mendedahkan corak luar biasa atau anjakan frekuensi yang tidak normal.

Video di atas merupakan contoh video yang dijana oleh AI deepfake. Berdasarkan video, wajah watak nampak tidak begitu semula jadi dan terlalu sempurna. Mimik muka juga ganjil dan terdapat corak konsisten terhadap kedipan mata dan pergerakan kepala. Bayang-bayang cahaya yang dihasilkan tertumpu pada bahagian tengah muka serta terdapat ralat pada pergerakan kepala, leher dan bahu. Pergerakan bibir dan gigi juga kelihatan janggal dan tidak semula jadi. Suara yang dihasilkan juga berbeza dari suara asli pemilik watak.

Kesimpulannya, mencipta deepfake berkualiti tinggi memerlukan gabungan alatan yang betul, perkakasan yang canggih, perhatian yang teliti terhadap perincian dalam proses pembangunan model AI dan penyuntingan, seterusnya melibatkan kos yang tinggi. Walaupun ia merupakan tugas yang rumit, langkah-langkah ini membantu dalam mencapai hasil yang realistik dan berkualiti tinggi. Teknologi ini perlu digunakan secara beretika dan bertanggungjawab. Kesedaran terhadap ilmu AI melalui pendidikan di peringkat awal perlu dititik beratkan bagi membolehkan masyarakat mengenalpasti maklumat yang sahih atau maklumat palsu yang dijana oleh AI. Kegunaan model AI perlu melalui proses pertimbangan etika bagi memastikan ketelusan dan kebolehpercayaan model AI yang dibangunkan.

Akhirnya, dalam konteks teknologi deepfake ini tidak boleh dinafikan bahawa kecerdasan minda manusia masih ampuh dan amat diperlukan dalam menangani isu deepfake yang digunakan untuk tujuan yang tidak beretika. Jangan biarkan kecerdasan semula jadi manusia anugerah tuhan dipermainkan oleh kecerdasan buatan. Berhati-hatilah dalam setiap keadaan.

Syahid Anuar dan Mohd Naz’ri Mahrin, Fakulti Kecerdasan Buatan, Universiti Teknologi Malaysia