Sains di Balik Bagaimana AI Microsoft Dapat Menirukan Suara Siapapun dalam 3 Detik

Sains di Balik Bagaimana AI Microsoft Dapat Menirukan Suara Siapapun dalam 3 Detik

Ilmu Pengetahuan di Balik Bagaimana AI Microsoft Dapat Meniru Suara Siapa Pun dalam 3 Detik PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda mungkin memahami betapa kuatnya program kecerdasan buatan (AI). Mereka meniru seni hebat dan menulis skrip untuk pemimpin global, menyebabkan percakapan global seputar perluasan alat AI yang cepat.

Baru-baru ini, Microsoft mengembangkan AI untuk mimikri suara. Efisiensi dan akurasinya merupakan terobosan, namun pengguna mempertanyakan tujuan dan pemanfaatannya. Bagaimana alat ini berfungsi, dan bagaimana cara mereplikasi suara dalam waktu sesingkat itu?

Temui VALL-E

VALL-E adalah pembelajaran AI untuk mereplikasi suara dalam tiga detik. VALL-E adalah salah satu yang pertama yang begitu cepat untuk dilatih, karena iterasi program text-to-speech (TTS) sebelumnya berjuang dengan efisiensi dan nuansa suara. 

“Namun, VALL-E meningkatkan penelitian untuk studi ini dalam segala hal, mengurangi waktu latihan dan meningkatkan akurasi kualitas suara yang kompleks seperti nada dan tempo.” 

Salah satu tujuan VALL-E adalah mereplikasi detail itu program TTS sebelumnya tidak bisa, dan percobaan menunjukkan hasil yang beragam untuk model saat ini. Untuk keasliannya, program seperti ini tidak hanya dapat menyalin suara seseorang — program ini juga harus mereplikasi kualitas audio perangkat perekam dan pengaruh lingkungan latar belakang seperti statis atau kebisingan. Meskipun para peneliti tetap terkesan dengan kualitas replikasinya, Microsoft mencari peningkatan lebih lanjut dalam mengasah timbre dan infleksi informasi emosi.

Karena VALL-E belum tersedia untuk umum, tidak pasti bagaimana kinerjanya pada skala yang lebih besar. Microsoft mengambil waktu, menyempurnakannya sebelum rilis publik untuk memastikan penggunaan yang tepat. 

Karena VALL-E beroperasi dengan pengambilan sampel suara yang minimal, tidak pasti seberapa baik VALL-E akan menghasilkan klip audio yang lebih panjang dengan kohesi. Kumpulan data AI dan pembelajaran mesin memiliki poin data yang hampir tak terhitung jumlahnya untuk dipertimbangkan. Ini adalah lompatan ke masa depan AI jika Microsoft menyempurnakan replikasi suara dengan kerangka referensi yang begitu kecil. 

Kenali Ilmunya

VALL-E berhasil dalam tujuannya karena menyatu dengan baik dengan teknologi yang ada. Misalnya, GPT-3 masih menggunakan model pemrosesan bahasa untuk menyempurnakan kemampuan generasi TTS untuk produksi yang jelas dan pengeditan yang akurat. Namun, model lain memanipulasi kumpulan data mereka untuk membuat konten baru. VALL-E membuat konten asli.

Bekerja sama dengan Meta, Microsoft menggunakan EnCodec dan LibriLight untuk menginformasikan VALL-E. EnCodec adalah jaring saraf kompresi audio yang mampu membedakan perubahan audio yang paling kecil sekalipun. LibriLight adalah perpustakaan audio berisi lebih dari 60,000 jam file berbahasa Inggris dari berbagai suara. 

“Dengan kekuatan ini, VALL-E dapat mengambil klip audio tiga detik, mengubahnya menjadi token yang dapat dianalisis EnCodec, dan mereferensikannya ke data perpustakaan untuk menghasilkan replikasi vokal yang terdengar asli. Karena EnCodec menghasilkan file dalam bitrate rendah, pembuatannya lebih cepat daripada model sejenis lainnya.” 

Urutan seperti ini akan menghasilkan klip audio yang terdengar lebih alami, kompeten dalam mengelabui teknologi pengenalan telinga atau suara yang paling terlatih sekalipun.

Potensi ini untuk membantu industri tidak dapat dihitung. Itu dapat meningkatkan efisiensi dan produktivitas sambil mengurangi stres di setiap sektor, bukan hanya komunikasi. Namun, itu memiliki peluang yang sama untuk memperburuk aktivitas kriminal di ruang digital, di samping konsekuensi lainnya.

Berpartisipasi dalam Percakapan

Seperti kebanyakan kemajuan AI, masalah etika muncul dengan sendirinya. Seperti pembuatan teks lainnya, AI bekerja dari data — oleh karena itu, plagiarisme akan selalu menjadi pertimbangan. Namun, VALL-E referensi sumber bebas hak cipta, jadi ini belum menjadi perhatian utama.

Namun, Microsoft juga harus mewaspadai publik yang menggunakan teknologi seperti ini untuk tujuan yang bermusuhan, seperti menyebarkan berita palsu atau mengacaukan investigasi dengan kesaksian palsu — kemungkinan dari saksi yang sudah tidak hidup lagi. Industri tertentu, seperti hukum, harus menciptakan kebijakan dan struktur baru cara menghadapi deepfake di ruang sidang.

"Seperti kemajuan teknologi lainnya, penyalahgunaan tidak hanya mungkin terjadi - itu tidak dapat dihindari." 

Terlepas dari properti kreatif atau ancaman pencurian identitas, AI penghasil suara yang mahir dapat mengancam mata pencaharian beberapa profesi atau menghilangkan keahlian artistik dan profesional dari industri yang sebelumnya bergantung pada tahun-tahun yang didedikasikan untuk kerajinan.

Aktor suara, penulis pidato, dan perwakilan layanan pelanggan semuanya bisa menjadi usang dengan mimikri suara AI. Kemungkinan ini tidak diketahui dan sepertinya tidak mungkin dengan cara yang cepat dan komprehensif. Hasil yang bisa dibayangkan adalah mimikri suara akan melengkapi industri ini alih-alih menggantikannya. Pembuatan suara AI dapat membantu pembuatan ide atau bertindak sebagai pekerja lain untuk mendelegasikan tugas, melepaskan dari pekerja manusia.

Mendapatkan Persyaratan Berbicara Dengan AI yang Mereplikasi Suara

Terlepas dari masalah etika dengan AI yang mereplikasi suara, Microsoft berinovasi dengan alat yang progresif dan banyak akal untuk generasi baru — bergantung pada bagaimana publik menggunakannya. Ilmu di balik alat ini adalah aspek yang paling revolusioner, dan dapat memberi tahu para insinyur dan pengembang cara memperluas dan mengubah AI untuk aplikasi masa depan di semua sektor. 

Teknologi yang diimplementasikan dengan VALL-E dapat diterjemahkan menjadi perubahan pola pikir bagi industri. Sifat kolaboratif dari proyek ini akan memajukan interaktivitas dan pengembangan AI ke era baru akurasi dan efisiensi.

Baca juga Lalal.AI Untuk Pemisahan Audio Berkualitas Tinggi 

Stempel Waktu:

Lebih dari Teknologi AIIOT