Memperkenalkan Bisikan

Kami telah melatih dan membuka sumber jaringan saraf yang disebut Whisper yang mendekati ketahanan dan akurasi tingkat manusia dalam pengenalan ucapan bahasa Inggris.

Baca Kertas


Lihat kode


Lihat Kartu Model

Contoh bisikan:

Whisper adalah sistem pengenalan suara otomatis (ASR) yang dilatih pada 680,000 jam data multibahasa dan multitugas yang diawasi yang dikumpulkan dari web. Kami menunjukkan bahwa penggunaan kumpulan data yang begitu besar dan beragam mengarah pada peningkatan ketahanan terhadap aksen, kebisingan latar belakang, dan bahasa teknis. Selain itu, ini memungkinkan transkripsi dalam berbagai bahasa, serta terjemahan dari bahasa-bahasa tersebut ke dalam bahasa Inggris. Kami adalah model sumber terbuka dan kode inferensi yang berfungsi sebagai dasar untuk membangun aplikasi yang berguna dan untuk penelitian lebih lanjut tentang pemrosesan ucapan yang kuat.

gambar
gambar

Arsitektur Whisper adalah pendekatan end-to-end yang sederhana, diimplementasikan sebagai Transformer encoder-decoder. Audio input dibagi menjadi potongan 30 detik, diubah menjadi spektogram log-Mel, dan kemudian diteruskan ke encoder. Sebuah decoder dilatih untuk memprediksi teks teks yang sesuai, dicampur dengan token khusus yang mengarahkan model tunggal untuk melakukan tugas-tugas seperti identifikasi bahasa, stempel waktu tingkat frase, transkripsi ucapan multibahasa, dan terjemahan ucapan ke-Inggris.

gambar
gambar

Pendekatan lain yang ada sering kali menggunakan kumpulan data pelatihan audio-teks yang lebih kecil dan berpasangan, atau gunakan pelatihan awal audio yang luas namun tanpa pengawasan. Karena Whisper dilatih pada kumpulan data yang besar dan beragam dan tidak disesuaikan dengan yang spesifik, itu tidak mengalahkan model yang berspesialisasi dalam kinerja LibriSpeech, tolok ukur kompetitif yang terkenal dalam pengenalan suara. Namun, ketika kami mengukur kinerja zero-shot Whisper di banyak kumpulan data yang beragam, kami menemukan bahwa itu jauh lebih kuat dan membuat kesalahan 50% lebih sedikit daripada model tersebut.

Sekitar sepertiga dari dataset audio Whisper adalah non-Inggris, dan secara bergantian diberi tugas untuk menyalin dalam bahasa asli atau menerjemahkan ke dalam bahasa Inggris. Kami menemukan pendekatan ini sangat efektif dalam mempelajari terjemahan ucapan ke teks dan mengungguli SOTA yang diawasi pada CoVoST2 ke terjemahan bahasa Inggris zero-shot.

gambar
gambar

Kami berharap akurasi tinggi dan kemudahan penggunaan Whisper akan memungkinkan pengembang untuk menambahkan antarmuka suara ke rangkaian aplikasi yang jauh lebih luas. Lihat kertas, kartu model, dan kode untuk mempelajari lebih detail dan mencoba Whisper.

Stempel Waktu:

Lebih dari OpenAI