Мы обучили и открыли исходный код нейронной сети под названием Whisper, которая приближается по надежности и точности к человеческому уровню распознавания английской речи.
Просмотреть код
Посмотреть карточку модели
Примеры шепота:
Whisper — это система автоматического распознавания речи (ASR), обученная на 680,000 XNUMX часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. Мы показываем, что использование такого большого и разнообразного набора данных приводит к повышению устойчивости к акцентам, фоновому шуму и техническому языку. Кроме того, он позволяет транскрипцию на нескольких языках, а также перевод с этих языков на английский. Мы предлагаем модели и код логического вывода с открытым исходным кодом, которые служат основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи.
Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде преобразователя кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуется в спектрограмму log-Mel, а затем передается в кодировщик. Декодер обучен предсказывать соответствующий текстовый заголовок, смешанный со специальными токенами, которые направляют единую модель для выполнения таких задач, как идентификация языка, временные метки на уровне фраз, транскрипция многоязычной речи и перевод речи на английский язык.
Другие существующие подходы часто используют меньшие по размеру, более тесно связанные наборы данных для обучения аудио-тексту., или используйте обширную, но неконтролируемую предварительную подготовку звука. Поскольку Whisper обучался на большом и разнообразном наборе данных и не настраивался на какой-либо конкретный набор данных, он не превосходит модели, специализирующиеся на производительности LibriSpeech, известном конкурентном эталоне распознавания речи. Однако когда мы измеряем производительность Whisper с нулевым выстрелом по множеству разнообразных наборов данных, мы обнаруживаем, что он гораздо более надежен и допускает на 50 % меньше ошибок, чем эти модели.
Около трети набора аудиоданных Whisper не на английском языке, и перед ним попеременно ставится задача расшифровки на языке оригинала или перевода на английский язык. Мы считаем, что этот подход особенно эффективен при обучении переводу речи в текст и превосходит контролируемую SOTA на CoVoST2 для перевода на английский язык с нулевым выстрелом.
Мы надеемся, что высокая точность и простота использования Whisper позволят разработчикам добавлять голосовые интерфейсы в гораздо более широкий набор приложений. Проверьте бумаги, модель картыкачества код чтобы узнать подробности и попробовать Whisper.
- AI
- ай искусство
- генератор искусств ай
- искусственный интеллект
- искусственный интеллект
- сертификация искусственного интеллекта
- искусственный интеллект в банковском деле
- робот с искусственным интеллектом
- роботы с искусственным интеллектом
- программное обеспечение искусственного интеллекта
- блокчейн
- конференция по блокчейну
- Coingenius
- разговорный искусственный интеллект
- криптоконференция ИИ
- дал-и
- глубокое обучение
- google ai
- обучение с помощью машины
- OpenAI
- Платон
- Платон Ай
- Платон Интеллектуальные данные
- Платон игра
- ПлатонДанные
- платогейминг
- исследованиям
- масштаб ай
- синтаксис
- зефирнет