Представляємо Whisper

Перевидано Платоном

читають: 0

Ми навчили та відкриваємо нейронну мережу під назвою Whisper, яка наближається до рівня надійності та точності розпізнавання англійської мови.

Прочитаний папір

Переглянути код

Переглянути картку моделі

Whisper — це система автоматичного розпізнавання мовлення (ASR), навчена на основі 680,000 XNUMX годин багатомовних і багатозадачних контрольованих даних, зібраних з Інтернету. Ми показуємо, що використання такого великого та різноманітного набору даних призводить до покращення стійкості до акцентів, фонового шуму та технічної мови. Крім того, він дозволяє транскрипцію кількома мовами, а також переклад з цих мов на англійську. Ми маємо моделі з відкритим вихідним кодом і код висновку, які слугують основою для створення корисних програм і для подальших досліджень надійної обробки мовлення.

Архітектура Whisper — це простий наскрізний підхід, реалізований як кодер-декодер Transformer. Вхідний звук розбивається на 30-секундні фрагменти, перетворюється на спектрограму log-Mel, а потім передається в кодер. Декодер навчений передбачати відповідний текстовий підпис, змішаний зі спеціальними маркерами, які направляють єдину модель для виконання таких завдань, як ідентифікація мови, позначки часу на рівні фрази, багатомовна транскрипція мовлення та переклад мовлення на англійську.

Інші існуючі підходи часто використовують менші, більш тісно поєднані навчальні набори аудіо-текстуабо скористайтеся широким, але неконтрольованим аудіонавчанням. Оскільки Whisper був навчений на великому та різноманітному наборі даних і не був точно налаштований на якийсь конкретний, він не перевершує моделі, які спеціалізуються на продуктивності LibriSpeech, відомому конкурентоспроможному тесті розпізнавання мовлення. Однак, коли ми вимірюємо продуктивність Whisper з нульовим ударом у багатьох різноманітних наборах даних, ми виявимо, що він набагато надійніший і робить на 50% менше помилок, ніж ці моделі.

Приблизно третина набору аудіоданих Whisper не є англійською мовою, і йому по черзі дається завдання транскрибувати мовою оригіналу або перекладати англійською. Ми вважаємо, що цей підхід особливо ефективний у навчанні перекладу мовлення в текст і перевершує контрольований SOTA на перекладі CoVoST2 на англійську з нуля.

Ми сподіваємося, що висока точність і простота використання Whisper дозволять розробникам додавати голосові інтерфейси до значно ширшого набору програм. Перевірте папір, модель картки та код щоб дізнатися більше та випробувати Whisper.

Часова мітка: Вересень 21, 2022Вересень 21, 2022

Часова мітка: Червень 2, 2022

Представляємо Whisper

Перевидано Платоном

Приклади шепоту:

Більше від OpenAI

Сора: Перші враження

Представляємо ChatGPT Enterprise

DALL·E тепер доступний без списку очікування

Збій ChatGPT 20 березня: ось що сталося

Нові можливості GPT-3: редагування та вставка

Методи навчання великих нейронних мереж

Нові моделі та продукти для розробників, анонсовані на DevDay

Еволюція через великі моделі

OpenAI та Ілон Маск

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки