'Mesin Suara' Baru dari OpenAI Hanya Perlu 15 Detik untuk Mengkloning Ucapan - Dekripsi

'Mesin Suara' Baru dari OpenAI Hanya Perlu 15 Detik untuk Mengkloning Ucapan – Mendekripsi

'Mesin Suara' Baru dari OpenAI Hanya Perlu 15 Detik untuk Mengkloning Ucapan - Mendekripsi Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

OpenAI, perusahaan AI di balik alat AI generatif dominan ChatGPT, telah meluncurkan teknologi kloning suara baru yang disebut “Voice Engine.” Model audio ini dapat mereplikasi suara seseorang, intonasi, dan pola bicara khas manusia lainnya berdasarkan sampel audio asli yang relatif kecil.

“Perlu dicatat bahwa model kecil dengan satu sampel berdurasi 15 detik dapat menciptakan suara yang emosional dan realistis,” kata perusahaan itu dalam pernyataannya. Posting blog Jumat.

Sebagai perbandingan, platform suara AI ElevenLab menampilkan alat kloning suara instan itu membutuhkan sampel setidaknya satu menit. Untuk hasil terbaik, diperlukan pidato terus menerus selama hampir 10 menit untuk tingkat layanan profesionalnya.

Perusahaan menunjukkan contoh berbeda tentang kemampuan teknologi ini. Dalam satu contoh, suara seorang pasien muda yang kehilangan sebagian besar kemampuannya berbicara karena tumor otak vaskular diklon menggunakan rekaman lama yang dia buat untuk proyek sekolah. Ini bagaimana suaranya hari ini, menurut OpenAI.

OpenAI bekerja dengan Jangka hidup, sebuah organisasi nirlaba yang berafiliasi dengan sekolah kedokteran di Brown University dan pencipta alat bernama Livox, sebuah “aplikasi komunikasi alternatif” yang dibuat untuk penyandang disabilitas. Tim dapat bekerja dengan a rekaman yang dibuat wanita itu untuk presentasi sekolah:

Open AI Voice Engine kemudian mampu memberikan kemampuan text-to-speech instan yang memungkinkan pasien melakukannya secara efektif berbicara dengan suaranya sendiri:

OpenAI juga menunjukkan caranya HaiGen menggunakan teknologinya untuk menghasilkan terjemahan ucapan yang terdengar alami dan diunggah dalam bahasa tertentu ke bahasa lain.

Perusahaan mengatakan Voice Engine pertama kali dikembangkan pada akhir tahun 2022 dan sudah digunakan untuk mendukung suara preset yang tersedia di API text-to-speech OpenAI, serta fitur Voice dan Read Aloud dari ChatGPT. Dengan kemajuan terbaru, perusahaan mengatakan akan berhati-hati sebelum merilisnya secara lebih luas.

“Kami berharap dapat memulai dialog mengenai penerapan suara sintetis yang bertanggung jawab dan bagaimana masyarakat dapat beradaptasi dengan kemampuan baru ini,” tulis OpenAI, mengakui praktik “deepfakes” yang dikutuk secara luas. Suara para selebritas, pejabat pemerintah, dan semakin banyak warga negara ditiru untuk tujuan jahat kampanye politik, iklan palsu dan langsung Kegiatan kriminal. Presiden AS Joe Biden telah melakukannya mendorong untuk perlindungan lebih lanjut terhadap penggunaan peniruan suara AI yang berbahaya.

Faktanya, Meta mengungkapkan musim panas lalu bahwa alat suara AI-nya ditahan secara khusus karena “potensi risiko penyalahgunaan. "

“Sejalan dengan pendekatan kami terhadap keamanan AI dan komitmen sukarela kami, kami memilih untuk melakukan pratinjau tetapi tidak merilis teknologi ini secara luas saat ini,” jelas OpenAI.

Bahkan sebelum dirilis ke publik, OpenAI menerapkan pembatasan pada Voice Engine—termasuk daftar orang-orang terkemuka yang tidak akan ditiru.

“Kami percaya bahwa penerapan teknologi suara sintetis secara luas harus disertai dengan pengalaman otentikasi suara yang memverifikasi bahwa pembicara asli dengan sengaja menambahkan suaranya ke layanan dan daftar suara terlarang yang mendeteksi dan mencegah terciptanya suara yang terlalu berlebihan. mirip dengan tokoh terkemuka,” tulis OpenAI.

Mitra yang menguji Voice Engine hari ini telah menyetujui kebijakan penggunaan OpenAI, yang melarang peniruan identitas individu atau organisasi lain tanpa izin. Selain itu, perusahaan memerlukan persetujuan yang jelas dan terinformasi dari pembicara asli, dan mereka tidak mengizinkan pengembang membangun cara bagi pengguna individu untuk mengkloning suara mereka sendiri.

“Berdasarkan percakapan ini dan hasil pengujian skala kecil ini, kami akan membuat keputusan yang lebih tepat mengenai apakah dan bagaimana menerapkan teknologi ini dalam skala besar,” tulis postingan blog tersebut.

Selain Voice Engine, Open AI juga mengerjakan beberapa proyek secara paralel. CEO Sam Altman mengungkapkan perusahaannya sedang berupaya merilis GPT-5 tahun ini. Perusahaan juga memamerkan alat video generatifnya sora. Perusahaan mengklaim bahwa Sora akan menjadi generator video tercanggih di pasar, melampaui model seperti Pika, Stable Video Diffusion, dan Runway ML.

Sora saat ini hanya tersedia untuk “petugas tim merah” yang terdaftar di Open AI untuk memastikannya tidak dapat disalahgunakan.

Voice Engine tentu saja dapat mengungguli alat kloning suara lainnya, termasuk penawaran dari Meta, ElevenLabs, WellSaid Labs, dan model sumber terbuka seperti RVC.

Open AI juga sedang mengerjakan a proyek rahasia bernama Q* yang hanya namanya saja yang bocor. Sam Altman menolak memberikan rincian apa pun, namun mengatakan tim peneliti sangat fokus untuk menemukan teknik dan pendekatan yang membuat alasan AI lebih baik.

Diedit oleh Ryan Ozawa.

Tetap di atas berita crypto, dapatkan pembaruan harian di kotak masuk Anda.

Stempel Waktu:

Lebih dari Dekripsi