Представляем шепот

Переиздано Платоном

Читают: 0

Мы обучили и открыли исходный код нейронной сети под названием Whisper, которая приближается по надежности и точности к человеческому уровню распознавания английской речи.

Читать статью

Просмотреть код

Посмотреть карточку модели

Whisper — это система автоматического распознавания речи (ASR), обученная на 680,000 XNUMX часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. Мы показываем, что использование такого большого и разнообразного набора данных приводит к повышению устойчивости к акцентам, фоновому шуму и техническому языку. Кроме того, он позволяет транскрипцию на нескольких языках, а также перевод с этих языков на английский. Мы предлагаем модели и код логического вывода с открытым исходным кодом, которые служат основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи.

Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде преобразователя кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуется в спектрограмму log-Mel, а затем передается в кодировщик. Декодер обучен предсказывать соответствующий текстовый заголовок, смешанный со специальными токенами, которые направляют единую модель для выполнения таких задач, как идентификация языка, временные метки на уровне фраз, транскрипция многоязычной речи и перевод речи на английский язык.

Другие существующие подходы часто используют меньшие по размеру, более тесно связанные наборы данных для обучения аудио-тексту., или используйте обширную, но неконтролируемую предварительную подготовку звука. Поскольку Whisper обучался на большом и разнообразном наборе данных и не настраивался на какой-либо конкретный набор данных, он не превосходит модели, специализирующиеся на производительности LibriSpeech, известном конкурентном эталоне распознавания речи. Однако когда мы измеряем производительность Whisper с нулевым выстрелом по множеству разнообразных наборов данных, мы обнаруживаем, что он гораздо более надежен и допускает на 50 % меньше ошибок, чем эти модели.

Около трети набора аудиоданных Whisper не на английском языке, и перед ним попеременно ставится задача расшифровки на языке оригинала или перевода на английский язык. Мы считаем, что этот подход особенно эффективен при обучении переводу речи в текст и превосходит контролируемую SOTA на CoVoST2 для перевода на английский язык с нулевым выстрелом.

Мы надеемся, что высокая точность и простота использования Whisper позволят разработчикам добавлять голосовые интерфейсы в гораздо более широкий набор приложений. Проверьте бумаги, модель картыкачества код чтобы узнать подробности и попробовать Whisper.

Отметка времени: 21 сентября, 202221 сентября, 2022

Отметка времени: Июнь 2, 2022

Представляем шепот

Переиздано Платоном

Примеры шепота:

Больше от OpenAI

Сора: Первые впечатления

Представляем ChatGPT Enterprise

DALL·E теперь доступен без списка ожидания

20 марта Отключение ChatGPT: вот что произошло

Новые возможности GPT-3: редактирование и вставка

Методы обучения больших нейронных сетей

Новые модели и продукты разработчиков анонсированы на DevDay

Эволюция через большие модели

OpenAI и Илон Маск

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись