Представляем шепот

Мы обучили и открыли исходный код нейронной сети под названием Whisper, которая приближается по надежности и точности к человеческому уровню распознавания английской речи.

Читать статью


Просмотреть код


Посмотреть карточку модели

Примеры шепота:

Whisper — это система автоматического распознавания речи (ASR), обученная на 680,000 XNUMX часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. Мы показываем, что использование такого большого и разнообразного набора данных приводит к повышению устойчивости к акцентам, фоновому шуму и техническому языку. Кроме того, он позволяет транскрипцию на нескольких языках, а также перевод с этих языков на английский. Мы предлагаем модели и код логического вывода с открытым исходным кодом, которые служат основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи.

изображение
изображение

Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде преобразователя кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуется в спектрограмму log-Mel, а затем передается в кодировщик. Декодер обучен предсказывать соответствующий текстовый заголовок, смешанный со специальными токенами, которые направляют единую модель для выполнения таких задач, как идентификация языка, временные метки на уровне фраз, транскрипция многоязычной речи и перевод речи на английский язык.

изображение
изображение

Другие существующие подходы часто используют меньшие по размеру, более тесно связанные наборы данных для обучения аудио-тексту., или используйте обширную, но неконтролируемую предварительную подготовку звука. Поскольку Whisper обучался на большом и разнообразном наборе данных и не настраивался на какой-либо конкретный набор данных, он не превосходит модели, специализирующиеся на производительности LibriSpeech, известном конкурентном эталоне распознавания речи. Однако когда мы измеряем производительность Whisper с нулевым выстрелом по множеству разнообразных наборов данных, мы обнаруживаем, что он гораздо более надежен и допускает на 50 % меньше ошибок, чем эти модели.

Около трети набора аудиоданных Whisper не на английском языке, и перед ним попеременно ставится задача расшифровки на языке оригинала или перевода на английский язык. Мы считаем, что этот подход особенно эффективен при обучении переводу речи в текст и превосходит контролируемую SOTA на CoVoST2 для перевода на английский язык с нулевым выстрелом.

изображение
изображение

Мы надеемся, что высокая точность и простота использования Whisper позволят разработчикам добавлять голосовые интерфейсы в гораздо более широкий набор приложений. Проверьте бумаги, модель картыкачества код чтобы узнать подробности и попробовать Whisper.

Отметка времени:

Больше от OpenAI