AI digunakan untuk menghasilkan segala sesuatu dari gambar untuk teks untuk protein buatan, dan sekarang hal lain telah ditambahkan ke daftar: ucapan. Pekan lalu peneliti dari Microsoft merilis sebuah makalah pada AI baru yang disebut VALL-E yang dapat secara akurat mensimulasikan suara siapa pun berdasarkan sampel yang hanya berdurasi tiga detik. VALL-E bukanlah simulator ucapan pertama yang dibuat, tetapi dibuat dengan cara yang berbeda dari pendahulunya—dan dapat membawa risiko lebih besar untuk potensi penyalahgunaan.
Sebagian besar model text-to-speech yang ada menggunakan bentuk gelombang (representasi grafis dari gelombang suara saat bergerak melalui media dari waktu ke waktu) untuk membuat suara palsu, mengutak-atik karakteristik seperti nada atau nada untuk mendekati suara yang diberikan. Namun, VALL-E mengambil sampel suara seseorang dan memecahnya menjadi komponen yang disebut token, lalu menggunakan token tersebut untuk membuat suara baru berdasarkan "aturan" yang telah dipelajarinya tentang suara ini. Jika suaranya sangat dalam, atau pembicara melafalkan A mereka dengan cara yang sengau, atau lebih monoton daripada rata-rata, ini semua adalah ciri-ciri yang akan diambil AI dan dapat ditiru.
Model ini didasarkan pada teknologi yang disebut Encodec oleh Meta, yang baru saja dirilis bagian Oktober ini. Alat ini menggunakan sistem tiga bagian untuk memampatkan audio hingga 10 kali lebih kecil dari MP3 tanpa kehilangan kualitas; penciptanya dimaksudkan untuk salah satu kegunaannya untuk meningkatkan kualitas suara dan musik pada panggilan yang dilakukan melalui koneksi bandwidth rendah.
Untuk melatih VALL-E, pembuatnya menggunakan pustaka audio bernama LibraLight, yang 60,000 jam pidato bahasa Inggrisnya sebagian besar terdiri dari narasi buku audio. Model menghasilkan hasil terbaiknya ketika suara yang disintesis mirip dengan salah satu suara dari pustaka pelatihan (yang jumlahnya lebih dari 7,000, jadi urutannya tidak boleh terlalu tinggi).
Selain membuat ulang suara seseorang, VALL-E juga menyimulasikan lingkungan audio dari sampel tiga detik. Klip yang direkam melalui telepon akan terdengar berbeda dari yang dibuat secara langsung, dan jika Anda berjalan atau mengemudi sambil berbicara, akustik unik dari skenario tersebut diperhitungkan.
Beberapa sampel terdengar cukup realistis, sementara yang lain masih sangat jelas dihasilkan oleh komputer. Tapi ada perbedaan mencolok antara suara-suara itu; Anda dapat mengetahui bahwa itu didasarkan pada orang-orang yang memiliki gaya bicara, nada, dan pola intonasi yang berbeda.
Tim yang menciptakan VALL-E tahu bahwa VALL-E dapat dengan mudah digunakan oleh aktor jahat; dari memalsukan suara politisi atau selebritas hingga menggunakan suara yang sudah dikenal untuk meminta uang atau informasi melalui telepon, ada banyak cara untuk memanfaatkan teknologi ini. Mereka dengan bijak menahan diri untuk tidak membuat kode VALL-E tersedia untuk umum, dan menyertakan pernyataan etika di akhir makalah mereka (yang tidak akan berbuat banyak untuk mencegah siapa pun yang ingin menggunakan AI untuk tujuan jahat).
Mungkin hanya masalah waktu sebelum alat serupa muncul dan jatuh ke tangan yang salah. Para peneliti menyarankan risiko yang akan dihadirkan oleh model seperti VALL-E dapat dikurangi dengan membangun model deteksi untuk mengukur apakah klip audio itu nyata atau disintesis. Jika kita membutuhkan AI untuk melindungi kita dari AI, bagaimana cara mengetahui apakah teknologi ini memiliki dampak positif? Waktu akan berbicara.
Gambar Kredit: Shutterstock.com/tancha
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Sanggup
- Tentang Kami
- Akun
- akurat
- menambahkan
- Keuntungan
- AI
- Semua
- sudah
- dan
- Lain
- siapapun
- audio
- tersedia
- rata-rata
- Buruk
- berdasarkan
- sebelum
- makhluk
- TERBAIK
- antara
- istirahat
- Bangunan
- dibangun di
- bernama
- Panggilan
- membawa
- selebriti
- karakteristik
- klip
- kode
- komponen
- dihasilkan komputer
- Koneksi
- bisa
- membuat
- dibuat
- pencipta
- kredit
- mendalam
- Deteksi
- perbedaan
- berbeda
- turun
- penggerak
- mudah
- Inggris
- Lingkungan Hidup
- etika
- segala sesuatu
- ada
- hampir
- gadungan
- Jatuh
- akrab
- Pertama
- dari
- menghasilkan
- GitHub
- diberikan
- lebih besar
- tangan
- memiliki
- JAM
- Seterpercayaapakah Olymp Trade? Kesimpulan
- HTTPS
- Dampak
- meningkatkan
- in
- termasuk
- informasi
- IT
- Tahu
- Terakhir
- belajar
- Perpustakaan
- Mungkin
- Daftar
- Panjang
- lepas
- terbuat
- Membuat
- hal
- medium
- model
- model
- uang
- lebih
- pindah
- musik
- Perlu
- bersih
- New
- Oktober
- ONE
- urutan
- Lainnya
- kertas
- bagian
- khususnya
- pola
- Konsultan Ahli
- orang
- telepon
- memilih
- Nada
- pitches
- plato
- Kecerdasan Data Plato
- Data Plato
- Politisi
- positif
- potensi
- menyajikan
- terutama
- melindungi
- di depan umum
- tujuan
- kualitas
- nyata
- realistis
- tercatat
- dirilis
- permintaan
- peneliti
- Hasil
- Risiko
- risiko
- skenario
- detik
- Shutterstock
- mirip
- simulator
- lebih kecil
- So
- Suara
- Pembicara
- berbicara
- pidato
- musim semi
- Pernyataan
- Masih
- sistem
- Mengambil
- Dibutuhkan
- pembicaraan
- tim
- Teknologi
- Teknologi
- Text-to-Speech
- Grafik
- mereka
- hal
- tiga
- Melalui
- waktu
- kali
- untuk
- Token
- NADA
- terlalu
- alat
- alat
- Pelatihan VE
- Pelatihan
- tweaking
- unik
- us
- menggunakan
- Suara
- SUARA
- berjalan
- ombak
- cara
- minggu
- apakah
- yang
- sementara
- SIAPA
- akan
- akan
- Salah
- tangan yang salah
- hasil panen
- Kamu
- Anda
- zephyrnet.dll