Представляємо Whisper

Ми навчили та відкриваємо нейронну мережу під назвою Whisper, яка наближається до рівня надійності та точності розпізнавання англійської мови.

Прочитаний папір


Переглянути код


Переглянути картку моделі

Приклади шепоту:

Whisper — це система автоматичного розпізнавання мовлення (ASR), навчена на основі 680,000 XNUMX годин багатомовних і багатозадачних контрольованих даних, зібраних з Інтернету. Ми показуємо, що використання такого великого та різноманітного набору даних призводить до покращення стійкості до акцентів, фонового шуму та технічної мови. Крім того, він дозволяє транскрипцію кількома мовами, а також переклад з цих мов на англійську. Ми маємо моделі з відкритим вихідним кодом і код висновку, які слугують основою для створення корисних програм і для подальших досліджень надійної обробки мовлення.

зображення
зображення

Архітектура Whisper — це простий наскрізний підхід, реалізований як кодер-декодер Transformer. Вхідний звук розбивається на 30-секундні фрагменти, перетворюється на спектрограму log-Mel, а потім передається в кодер. Декодер навчений передбачати відповідний текстовий підпис, змішаний зі спеціальними маркерами, які направляють єдину модель для виконання таких завдань, як ідентифікація мови, позначки часу на рівні фрази, багатомовна транскрипція мовлення та переклад мовлення на англійську.

зображення
зображення

Інші існуючі підходи часто використовують менші, більш тісно поєднані навчальні набори аудіо-текстуабо скористайтеся широким, але неконтрольованим аудіонавчанням. Оскільки Whisper був навчений на великому та різноманітному наборі даних і не був точно налаштований на якийсь конкретний, він не перевершує моделі, які спеціалізуються на продуктивності LibriSpeech, відомому конкурентоспроможному тесті розпізнавання мовлення. Однак, коли ми вимірюємо продуктивність Whisper з нульовим ударом у багатьох різноманітних наборах даних, ми виявимо, що він набагато надійніший і робить на 50% менше помилок, ніж ці моделі.

Приблизно третина набору аудіоданих Whisper не є англійською мовою, і йому по черзі дається завдання транскрибувати мовою оригіналу або перекладати англійською. Ми вважаємо, що цей підхід особливо ефективний у навчанні перекладу мовлення в текст і перевершує контрольований SOTA на перекладі CoVoST2 на англійську з нуля.

зображення
зображення

Ми сподіваємося, що висока точність і простота використання Whisper дозволять розробникам додавати голосові інтерфейси до значно ширшого набору програм. Перевірте папір, модель картки та код щоб дізнатися більше та випробувати Whisper.

Часова мітка:

Більше від OpenAI