Амазонська розшифровка це повністю керована служба автоматичного розпізнавання мовлення (ASR), яка дозволяє легко додавати можливості перетворення мови в текст у ваших програмах. Сьогодні ми раді анонсувати систему наступного покоління на базі моделі мовної основи з кількома мільярдами параметрів, яка розширює автоматичне розпізнавання мовлення до понад Мови 100. У цій публікації ми обговорюємо деякі переваги цієї системи, як компанії її використовують і як розпочати. Нижче ми також надаємо приклад результату транскрипції.
Основна модель мовлення Transcribe навчається за допомогою кращих у своєму класі самоконтрольованих алгоритмів для вивчення властивих універсальних моделей людського мовлення різними мовами та акцентами. Він навчений на мільйонах годин аудіоданих без міток понад 100 мовами. Рецепти навчання оптимізовано за допомогою інтелектуальної вибірки даних, щоб збалансувати навчальні дані між мовами, гарантуючи, що традиційно недостатньо представлені мови також досягають високого рівня точності.
Carbyne – компанія, що займається розробкою програмного забезпечення та розробляє критично важливі рішення для контакт-центрів у хмарі для служби екстреної допомоги. Місія Carbyne полягає в тому, щоб допомогти аварійним службам рятувати життя, і мова не може стати на заваді їхнім цілям. Ось як вони використовують Amazon Transcribe для виконання своєї місії:
«Cabyne Live Audio Translation на основі штучного інтелекту напряму спрямований на допомогу у покращенні реагування на надзвичайні ситуації для 68 мільйонів американців, які розмовляють вдома не англійською мовою, а також до 79 мільйонів іноземних відвідувачів країни щорічно. Використовуючи нову багатомовну основну модель Amazon Transcribe на базі ASR, Carbyne буде ще краще підготовлений для демократизації життєво важливих служб екстреної допомоги, тому що Every. особа. Розраховує».
– Алекс Дізенгоф, співзасновник і технічний директор Carbyne.
Використовуючи модель основи мовлення, Amazon Transcribe забезпечує значне підвищення точності на 20%–50% для більшості мов. У телефонному мовленні, яке є складною областю з дефіцитом даних, підвищення точності становить від 30% до 70%. Окрім значного підвищення точності, ця велика модель ASR також покращує читабельність завдяки точнішій пунктуації та вживанню великих літер. З появою генеративного штучного інтелекту тисячі підприємств використовують Amazon Transcribe, щоб розблокувати багату інформацію зі свого аудіовмісту. Завдяки значно покращеній точності та підтримці понад 100 мов Amazon Transcribe позитивно вплине на всі подібні випадки використання. Усі наявні та нові клієнти, які використовують Amazon Transcribe у пакетному режимі, можуть отримати доступ до розпізнавання мовлення на основі моделі бази мовлення без необхідності будь-яких змін у кінцевій точці API чи вхідних параметрах.
Нова система ASR надає кілька ключових функцій для всіх 100+ мов, пов’язаних із простотою використання, налаштуванням, безпекою користувача та конфіденційністю. До них належать такі функції, як автоматична пунктуація, спеціальний словниковий запас, автоматична ідентифікація мови, щоденник мовця, оцінки достовірності на рівні слів і спеціальний словниковий фільтр. Розширена підтримка системою різних акцентів, шумових середовищ і акустичних умов дозволяє виробляти більш точні виходи і, таким чином, допомагає ефективно вбудовувати голосові технології у ваші програми.
Завдяки високій точності Amazon Transcribe для різних акцентів і шумових умов, підтримці великої кількості мов і широкому набору додаткових функцій тисячі підприємств матимуть змогу розблокувати багату статистику з їхнього аудіовмісту, а також підвищити доступність і видимість їхнього аудіо- та відеовмісту в різних доменах. Наприклад, контакт-центри транскрибують і аналізують дзвінки клієнтів, щоб виявити інформацію та згодом покращити взаємодію з клієнтами та продуктивність агентів. Виробники вмісту та медіарозповсюджувачі автоматично генерують субтитри за допомогою Amazon Transcribe, щоб покращити доступність вмісту.
Почніть роботу з Amazon Transcribe
Ви можете використовувати Інтерфейс командного рядка AWS (AWS CLI), Консоль управління AWS, і різні SDK AWS для пакетної транскрипції та продовжуйте використовувати те саме StartTranscriptionJob
API, щоб отримати переваги продуктивності від вдосконаленої моделі ASR без необхідності вносити будь-які зміни коду чи параметрів з вашого боку. Додаткову інформацію про використання AWS CLI та консолі див Транскрибування за допомогою AWS CLI та Транскрибування за допомогою консолі керування AWS, відповідно.
Першим кроком є завантаження медіафайлів у файл Служба простого зберігання Amazon (Amazon S3), служба зберігання об’єктів, створена для зберігання та отримання будь-якої кількості даних з будь-якого місця. Amazon S3 пропонує найкращі в галузі довговічність, доступність, продуктивність, безпеку та практично необмежену масштабованість за дуже низькою ціною. Ви можете зберегти свою стенограму у власному сегменті S3 або використовувати Amazon Transcribe у безпечному сегменті за замовчуванням. Щоб дізнатися більше про використання сегментів S3, див Створення, налаштування та робота з сегментами Amazon S3.
Вихід транскрипції
Amazon Transcribe використовує представлення JSON для своїх виводів. Він надає результат транскрипції у двох різних форматах: текстовому та детальному. Нічого не змінюється щодо кінцевої точки API або вхідних параметрів.
Текстовий формат надає розшифровку як блок тексту, тоді як розшифрований формат надає стенограму у формі своєчасно впорядкованих транскрибованих елементів разом із додатковими метаданими для кожного елемента. Обидва формати існують паралельно у вихідному файлі.
Залежно від функцій, які ви вибираєте під час створення завдання транскрипції, Amazon Transcribe створює додаткові та розширені перегляди результату транскрипції. Перегляньте наступний приклад коду:
Погляди такі:
- Стенограми – В особі
transcripts
елемент, він містить лише текстовий формат стенограми. У сценаріях із кількома мовцями та багатоканальними сценаріями конкатенація всіх транскриптів надається як єдиний блок. - акустичні системи – В особі
speaker_labels
містить текст і формати стенограми, згруповані за мовцем. Це доступно, лише якщо ввімкнено функцію кількох динаміків. - Канали – В особі
channel_labels
містить текст і формати розшифровки, згруповані за каналами. Він доступний лише тоді, коли ввімкнено функцію багатоканального доступу. - предмети – В особі
items
елемент, він містить лише деталізований формат стенограми. У сценаріях із кількома динаміками та багатоканальними функціями елементи збагачуються додатковими властивостями, що вказують на динамік і канал. - Сегменти – В особі
segments
елемент, він містить текст і деталізовані формати стенограми, згруповані за альтернативною транскрипцією. Він доступний, лише якщо ввімкнено функцію альтернативних результатів.
Висновок
В AWS ми постійно впроваджуємо інновації від імені наших клієнтів. Розширюючи мовну підтримку в Amazon Transcribe до понад 100 мов, ми даємо нашим клієнтам можливість обслуговувати користувачів із різним лінгвістичним походженням. Це не тільки підвищує доступність, але й відкриває нові шляхи для спілкування та обміну інформацією в глобальному масштабі. Щоб дізнатися більше про функції, які обговорюються в цій публікації, перегляньте сторінка функцій та який новий пост.
Про авторів
Суміт Кумар є головним менеджером із продуктів, технічним відділом команди AWS AI Language Services. Він має 10 років досвіду управління продуктами в різних сферах і захоплюється ШІ/ML. Поза роботою Саміт любить подорожувати та любить грати в крикет і лаун-теніс.
Вівек Сінгх є старшим менеджером відділу управління продуктами в команді AWS AI Language Services. Він очолює групу продуктів Amazon Transcribe. До того як приєднатися до AWS, він обіймав посади з управління продуктами в різних інших організаціях Amazon, таких як споживчі платежі та роздрібна торгівля. Вівек живе в Сіетлі, штат Вашингтон, і захоплюється бігом і пішим туризмом.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- : має
- :є
- : ні
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- МЕНЮ
- доступ
- доступність
- точність
- точний
- через
- додавати
- доповнення
- Додатковий
- прихід
- Агент
- AI
- AI / ML
- спрямований
- Alex
- алгоритми
- ВСІ
- по
- Також
- альтернатива
- Amazon
- Амазонська розшифровка
- Amazon Web Services
- Американці
- кількість
- an
- аналізувати
- та
- Оголосити
- оголошує
- Щорічно
- будь-який
- де-небудь
- API
- застосування
- ЕСТЬ
- AS
- At
- аудіо
- автоматичний
- автоматично
- наявність
- доступний
- проспекти
- AWS
- фони
- Balance
- BE
- оскільки
- імені
- нижче
- Переваги
- Краще
- між
- Блокувати
- обидва
- широта
- побудований
- але
- by
- call
- Виклики
- CAN
- можливості
- Капіталізація
- випадків
- Центр
- Центри
- складні
- зміна
- Зміни
- Канал
- канали
- перевірка
- Вибирати
- Співзасновник
- код
- Комунікація
- Компанії
- компанія
- Зроблено
- Умови
- довіра
- конфігурування
- Консоль
- постійно
- споживач
- контакт
- контакт-центр
- містить
- зміст
- продовжувати
- Коштувати
- країна
- створює
- створення
- крикет
- CTO
- виготовлений на замовлення
- клієнт
- Досвід клієнтів
- Клієнти
- настройка
- дані
- дефолт
- постачає
- демократизувати
- розвивається
- різний
- безпосередньо
- обговорювати
- обговорювалися
- дистриб'ютори
- Різне
- домен
- домени
- довговічність
- простота
- простота використання
- фактично
- або
- елемент
- Вставляти
- аварійний
- уповноважений
- включіть
- включений
- дозволяє
- кінець
- Кінцева точка
- англійська
- підвищена
- Підсилює
- Збагачений
- забезпечення
- підприємств
- середовищах
- обладнаний
- Навіть
- Кожен
- приклад
- обмін
- існувати
- існуючий
- розширений
- розширюється
- досвід
- розширення
- особливість
- риси
- філе
- Файли
- фільтрувати
- Перший
- після
- слідує
- для
- іноземні
- форма
- формат
- фонд
- від
- повністю
- породжувати
- генеративний
- Генеративний ШІ
- отримати
- Глобальний
- глобальний масштаб
- Цілі
- щасливий
- Мати
- he
- Герой
- допомога
- допомогу
- допомагає
- тут
- hi
- Високий
- Головна
- ГОДИННИК
- Як
- How To
- HTML
- HTTP
- HTTPS
- людина
- Ідентифікація
- ідентифікувати
- Impact
- удосконалювати
- поліпшений
- поліпшення
- поліпшення
- in
- включати
- Augmenter
- провідний в галузі
- інформація
- притаманне
- інноваційний
- вхід
- розуміння
- екземпляр
- в
- IT
- пунктів
- ЙОГО
- робота
- приєднання
- JPG
- json
- ключ
- мова
- мови
- великий
- Веде за собою
- УЧИТЬСЯ
- рівні
- використання
- Лінія
- жити
- Місце проживання
- любить
- низький
- зробити
- РОБОТИ
- вдалося
- управління
- менеджер
- Медіа
- метадані
- мільйона
- мільйони
- Місія
- режим
- модель
- більше
- найбільш
- нужденних
- Нові
- наступне покоління
- шум
- нічого
- номер
- об'єкт
- of
- Пропозиції
- on
- тільки
- Відкриється
- оптимізований
- or
- організації
- Інше
- наші
- з
- вихід
- виходи
- поза
- над
- власний
- Паралельні
- параметр
- параметри
- пристрасний
- моделі
- платежі
- для
- продуктивність
- людина
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- позитивно
- пошта
- Харчування
- Головний
- попередній
- недоторканність приватного життя
- виробляти
- Виробники
- Product
- Управління продуктом
- менеджер по продукції
- продуктивність
- властивості
- забезпечувати
- за умови
- забезпечує
- переслідувати
- досягати
- визнання
- послатися
- пов'язаний
- подання
- представлений
- повага
- відповідно
- відповідь
- результат
- результати
- роздрібна торгівля
- Багаті
- ролі
- біг
- Безпека
- то ж
- зберегти
- масштабованість
- шкала
- сценарії
- Сіетл
- безпечний
- безпеку
- побачити
- сегменти
- вибрати
- старший
- служити
- обслуговування
- Послуги
- набори
- кілька
- значний
- істотно
- простий
- один
- розумний
- Софтвер
- Рішення
- деякі
- говорити
- Гучномовець
- динаміки
- мова
- Розпізнавання мови
- мовлення в текст
- почалася
- Статус
- Крок
- зберігання
- зберігати
- просто
- Згодом
- істотний
- субтитри
- такі
- підтримка
- система
- команда
- технічний
- Технології
- текст
- ніж
- Що
- Команда
- їх
- тим самим
- Ці
- вони
- це
- тисячі
- через
- своєчасно
- до
- сьогодні
- традиційно
- навчений
- Навчання
- Розшифровка
- Переклад
- подорожувати
- два
- Universal
- необмежений
- відімкнути
- використання
- користувач
- користувачі
- використовує
- використання
- різноманітність
- різний
- дуже
- Відео
- думки
- фактично
- відвідувачів
- Голос
- шлях..
- we
- Web
- веб-сервіси
- ласкаво просимо
- ДОБРЕ
- коли
- в той час як
- який
- ВООЗ
- волі
- з
- без
- Work
- робочий
- років
- Ти
- вашу
- зефірнет