Ми навчили та відкриваємо нейронну мережу під назвою Whisper, яка наближається до рівня надійності та точності розпізнавання англійської мови.
Переглянути код
Переглянути картку моделі
Приклади шепоту:
Whisper — це система автоматичного розпізнавання мовлення (ASR), навчена на основі 680,000 XNUMX годин багатомовних і багатозадачних контрольованих даних, зібраних з Інтернету. Ми показуємо, що використання такого великого та різноманітного набору даних призводить до покращення стійкості до акцентів, фонового шуму та технічної мови. Крім того, він дозволяє транскрипцію кількома мовами, а також переклад з цих мов на англійську. Ми маємо моделі з відкритим вихідним кодом і код висновку, які слугують основою для створення корисних програм і для подальших досліджень надійної обробки мовлення.
Архітектура Whisper — це простий наскрізний підхід, реалізований як кодер-декодер Transformer. Вхідний звук розбивається на 30-секундні фрагменти, перетворюється на спектрограму log-Mel, а потім передається в кодер. Декодер навчений передбачати відповідний текстовий підпис, змішаний зі спеціальними маркерами, які направляють єдину модель для виконання таких завдань, як ідентифікація мови, позначки часу на рівні фрази, багатомовна транскрипція мовлення та переклад мовлення на англійську.
Інші існуючі підходи часто використовують менші, більш тісно поєднані навчальні набори аудіо-текстуабо скористайтеся широким, але неконтрольованим аудіонавчанням. Оскільки Whisper був навчений на великому та різноманітному наборі даних і не був точно налаштований на якийсь конкретний, він не перевершує моделі, які спеціалізуються на продуктивності LibriSpeech, відомому конкурентоспроможному тесті розпізнавання мовлення. Однак, коли ми вимірюємо продуктивність Whisper з нульовим ударом у багатьох різноманітних наборах даних, ми виявимо, що він набагато надійніший і робить на 50% менше помилок, ніж ці моделі.
Приблизно третина набору аудіоданих Whisper не є англійською мовою, і йому по черзі дається завдання транскрибувати мовою оригіналу або перекладати англійською. Ми вважаємо, що цей підхід особливо ефективний у навчанні перекладу мовлення в текст і перевершує контрольований SOTA на перекладі CoVoST2 на англійську з нуля.
Ми сподіваємося, що висока точність і простота використання Whisper дозволять розробникам додавати голосові інтерфейси до значно ширшого набору програм. Перевірте папір, модель картки та код щоб дізнатися більше та випробувати Whisper.
- AI
- ai мистецтво
- AI арт генератор
- ai робот
- штучний інтелект
- сертифікація штучного інтелекту
- штучний інтелект у банківській справі
- робот зі штучним інтелектом
- роботи зі штучним інтелектом
- програмне забезпечення для штучного інтелекту
- blockchain
- блокчейн конференція AI
- coingenius
- розмовний штучний інтелект
- крипто конференція ai
- dall's
- глибоке навчання
- у вас є гугл
- навчання за допомогою машини
- OpenAI
- plato
- платон ai
- Інформація про дані Платона
- Гра Платон
- PlatoData
- platogaming
- дослідження
- масштаб ai
- синтаксис
- зефірнет