Memperkenalkan Bisikan

Diterbitkan Ulang Oleh Plato

Followers: 0

Kami telah melatih dan membuka sumber jaringan saraf yang disebut Whisper yang mendekati ketahanan dan akurasi tingkat manusia dalam pengenalan ucapan bahasa Inggris.

Baca Kertas

Lihat kode

Lihat Kartu Model

Whisper adalah sistem pengenalan suara otomatis (ASR) yang dilatih pada 680,000 jam data multibahasa dan multitugas yang diawasi yang dikumpulkan dari web. Kami menunjukkan bahwa penggunaan kumpulan data yang begitu besar dan beragam mengarah pada peningkatan ketahanan terhadap aksen, kebisingan latar belakang, dan bahasa teknis. Selain itu, ini memungkinkan transkripsi dalam berbagai bahasa, serta terjemahan dari bahasa-bahasa tersebut ke dalam bahasa Inggris. Kami adalah model sumber terbuka dan kode inferensi yang berfungsi sebagai dasar untuk membangun aplikasi yang berguna dan untuk penelitian lebih lanjut tentang pemrosesan ucapan yang kuat.

Arsitektur Whisper adalah pendekatan end-to-end yang sederhana, diimplementasikan sebagai Transformer encoder-decoder. Audio input dibagi menjadi potongan 30 detik, diubah menjadi spektogram log-Mel, dan kemudian diteruskan ke encoder. Sebuah decoder dilatih untuk memprediksi teks teks yang sesuai, dicampur dengan token khusus yang mengarahkan model tunggal untuk melakukan tugas-tugas seperti identifikasi bahasa, stempel waktu tingkat frase, transkripsi ucapan multibahasa, dan terjemahan ucapan ke-Inggris.

Pendekatan lain yang ada sering kali menggunakan kumpulan data pelatihan audio-teks yang lebih kecil dan berpasangan, atau gunakan pelatihan awal audio yang luas namun tanpa pengawasan. Karena Whisper dilatih pada kumpulan data yang besar dan beragam dan tidak disesuaikan dengan yang spesifik, itu tidak mengalahkan model yang berspesialisasi dalam kinerja LibriSpeech, tolok ukur kompetitif yang terkenal dalam pengenalan suara. Namun, ketika kami mengukur kinerja zero-shot Whisper di banyak kumpulan data yang beragam, kami menemukan bahwa itu jauh lebih kuat dan membuat kesalahan 50% lebih sedikit daripada model tersebut.

Sekitar sepertiga dari dataset audio Whisper adalah non-Inggris, dan secara bergantian diberi tugas untuk menyalin dalam bahasa asli atau menerjemahkan ke dalam bahasa Inggris. Kami menemukan pendekatan ini sangat efektif dalam mempelajari terjemahan ucapan ke teks dan mengungguli SOTA yang diawasi pada CoVoST2 ke terjemahan bahasa Inggris zero-shot.

Kami berharap akurasi tinggi dan kemudahan penggunaan Whisper akan memungkinkan pengembang untuk menambahkan antarmuka suara ke rangkaian aplikasi yang jauh lebih luas. Lihat kertas, kartu model, dan kode untuk mempelajari lebih detail dan mencoba Whisper.

Stempel Waktu: September 21, 2022September 21, 2022

Stempel Waktu: Juni 2, 2022

Memperkenalkan Bisikan

Diterbitkan Ulang Oleh Plato

Contoh bisikan:

Lebih dari OpenAI

Sora: Kesan Pertama

Memperkenalkan Perusahaan ChatGPT

DALL·E Kini Tersedia Tanpa Daftar Tunggu

20 Maret Pemadaman ChatGPT: Inilah yang terjadi

Kemampuan GPT-3 Baru: Edit & Sisipkan

Teknik untuk Melatih Jaringan Neural Besar

Model baru dan produk pengembang diumumkan di DevDay

Evolusi melalui model besar

OpenAI dan Elon Musk

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun