Amazon транскрибировать — это полностью управляемая служба автоматического распознавания речи (ASR), которая упрощает добавление возможностей преобразования речи в текст в ваши приложения. Сегодня мы рады объявить о системе следующего поколения, основанной на модели речевой основы с многомиллиардными параметрами, которая расширяет возможности автоматического распознавания речи до более чем Языки 100. В этом посте мы обсудим некоторые преимущества этой системы, то, как ее используют компании и с чего начать. Ниже мы также приводим пример вывода транскрипции.
Модель речевой основы Transcribe обучается с использованием лучших в своем классе алгоритмов с самоконтролем для изучения присущих универсальных моделей человеческой речи на разных языках и акцентах. Он обучен на миллионах часов неразмеченных аудиоданных на более чем 100 языках. Рецепты обучения оптимизируются посредством интеллектуальной выборки данных, чтобы сбалансировать данные обучения между языками, гарантируя, что традиционно недостаточно представленные языки также достигают высокого уровня точности.
Carbyne — компания-разработчик программного обеспечения, которая разрабатывает облачные критически важные решения для контакт-центров для служб экстренной помощи. Миссия Карбайна — помогать спасателям экстренных служб спасать жизни, и язык не может помешать достижению их целей. Вот как они используют Amazon Transcribe для выполнения своей миссии:
«Carbyne Live Audio Translation на базе искусственного интеллекта напрямую направлен на помощь в улучшении реагирования на чрезвычайные ситуации для 68 миллионов американцев, которые говорят дома на другом языке, кроме английского, в дополнение к 79 миллионам иностранных гостей, приезжающих в страну ежегодно. Используя новую многоязычную базовую модель Amazon Transcribe на основе ASR, Carbyne будет еще лучше подготовлена к демократизации служб экстренной помощи, спасающих жизни, потому что Every. Человек. Имеет значение.
– Алекс Дизенгоф, соучредитель и технический директор Carbyne.
Используя модель речевой основы, Amazon Transcribe обеспечивает значительное повышение точности на 20–50 % для большинства языков. В телефонной речи, которая представляет собой сложную область с дефицитом данных, повышение точности составляет от 30% до 70%. Помимо существенного повышения точности, эта большая модель ASR также обеспечивает улучшение читаемости за счет более точной пунктуации и использования заглавных букв. С появлением генеративного искусственного интеллекта тысячи предприятий используют Amazon Transcribe, чтобы получить ценную информацию из своего аудиоконтента. Благодаря значительному повышению точности и поддержке более 100 языков Amazon Transcribe окажет положительное влияние на все подобные варианты использования. Все существующие и новые клиенты, использующие Amazon Transcribe в пакетном режиме, могут получить доступ к распознаванию речи на основе модели речи без необходимости внесения каких-либо изменений в конечную точку API или входные параметры.
Новая система ASR предоставляет несколько ключевых функций на всех более чем 100 языках, связанных с простотой использования, настройкой, безопасностью пользователей и конфиденциальностью. К ним относятся такие функции, как автоматическая пунктуация, настраиваемый словарь, автоматическая идентификация языка, дневникирование говорящих, оценки достоверности на уровне слов и настраиваемый словарный фильтр. Расширенная поддержка системой различных акцентов, шумовой среды и акустических условий позволяет вам получать более точные выходные данные и тем самым помогает эффективно внедрять голосовые технологии в ваши приложения.
Благодаря высокой точности Amazon Transcribe при различных акцентах и условиях шума, поддержке большого количества языков и широкому набору дополнительных функций тысячи предприятий получат возможность получить ценную информацию из своего аудиоконтента, а также повысить доступность и возможность обнаружения своего аудио- и видеоконтента в различных доменах. Например, контакт-центры расшифровывают и анализируют звонки клиентов, чтобы выявить ценную информацию и впоследствии улучшить качество обслуживания клиентов и производительность агентов. Производители контента и распространители мультимедиа автоматически генерируют субтитры с помощью Amazon Transcribe, чтобы улучшить доступность контента.
Начните работу с Amazon Transcribe
Вы можете использовать Интерфейс командной строки AWS (интерфейс командной строки AWS), Консоль управления AWS, и различные SDK AWS для пакетной транскрипции и продолжать использовать то же самое StartTranscriptionJob
API, позволяющий получить преимущества в производительности от расширенной модели ASR без необходимости вносить какие-либо изменения в код или параметры с вашей стороны. Дополнительную информацию об использовании интерфейса командной строки AWS и консоли см. Транскрипция с помощью AWS CLI и Транскрипция с помощью консоли управления AWS, Соответственно.
Первый шаг — загрузить медиафайлы в Простой сервис хранения Amazon (Amazon S3) — служба хранения объектов, созданная для хранения и извлечения любого объема данных из любого места. Amazon S3 предлагает лучшие в отрасли надежность, доступность, производительность, безопасность и практически неограниченную масштабируемость по очень низкой цене. Вы можете сохранить расшифровку в собственной корзине S3 или позволить Amazon Transcribe использовать безопасную корзину по умолчанию. Дополнительные сведения об использовании сегментов S3 см. Создание, настройка и работа с корзинами Amazon S3.
Выход транскрипции
Amazon Transcribe использует представление JSON для вывода. Он предоставляет результат транскрипции в двух разных форматах: текстовом формате и подробном формате. Ничего не меняется в отношении конечной точки API или входных параметров.
Текстовый формат предоставляет расшифровку в виде блока текста, тогда как подробный формат предоставляет расшифровку в виде своевременно упорядоченных расшифрованных элементов вместе с дополнительными метаданными для каждого элемента. Оба формата существуют параллельно в выходном файле.
В зависимости от функций, выбранных вами при создании задания на транскрипцию, Amazon Transcribe создает дополнительные и расширенные представления результата транскрипции. См. следующий пример кода:
Взгляды следующие:
- стенограммы – Представлено
transcripts
элемент, он содержит только текстовый формат стенограммы. В многоканальных сценариях с несколькими говорящими объединение всех расшифровок осуществляется в виде одного блока. - Динамики – Представлено
speaker_labels
элемент, он содержит текст и подробные форматы стенограммы, сгруппированные по докладчикам. Он доступен только в том случае, если включена функция нескольких динамиков. - каналы – Представлено
channel_labels
элемент, он содержит текст и детализированные форматы стенограммы, сгруппированные по каналам. Он доступен только в том случае, если включена функция многоканального просмотра. - пункты – Представлено
items
элемент, он содержит только детализированный формат стенограммы. В многоканальных сценариях с несколькими динамиками элементы обогащаются дополнительными свойствами, указывающими динамик и канал. - Сегменты – Представлено
segments
элемент, он содержит текст и подробные форматы стенограммы, сгруппированные по альтернативной транскрипции. Он доступен только в том случае, если включена функция альтернативных результатов.
Заключение
В AWS мы постоянно внедряем инновации ради наших клиентов. Расширяя языковую поддержку Amazon Transcribe на более чем 100 языков, мы даем нашим клиентам возможность обслуживать пользователей с разным языковым опытом. Это не только повышает доступность, но и открывает новые возможности для общения и обмена информацией в глобальном масштабе. Чтобы узнать больше о функциях, обсуждаемых в этом посте, посетите страница функций и какой новый пост.
Об авторах
Сумит Кумар — главный менеджер по продукту и технический специалист в команде AWS AI Language Services. У него 10-летний опыт управления продуктами в различных областях, и он увлечен искусственным интеллектом и машинным обучением. Помимо работы Сумит любит путешествовать, играть в крикет и лаун-теннис.
Вивек Сингх — старший менеджер по управлению продуктами в команде AWS AI Language Services. Он возглавляет группу продуктов Amazon Transcribe. До прихода в AWS он занимал должности по управлению продуктами в различных других организациях Amazon, таких как отдел потребительских платежей и розничная торговля. Вивек живет в Сиэтле, штат Вашингтон, и любит бегать и ходить в походы.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :имеет
- :является
- :нет
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- О нас
- доступ
- доступность
- точность
- точный
- через
- Добавить
- дополнение
- дополнительный
- приход
- Агент
- AI
- AI / ML
- Нацеленный
- Alex
- алгоритмы
- Все
- вдоль
- причислены
- альтернатива
- Amazon
- Amazon транскрибировать
- Amazon Web Services
- Американцы
- количество
- an
- анализировать
- и
- анонсировать
- объявляет
- Ежегодно
- любой
- откуда угодно
- API
- Приложения
- МЫ
- AS
- At
- аудио
- Автоматический
- автоматически
- свободных мест
- доступен
- проспекты
- AWS
- фоны
- Баланс
- BE
- , так как:
- от имени
- ниже
- Преимущества
- Лучшая
- между
- Заблокировать
- изоферменты печени
- ширина
- построенный
- но
- by
- призывают
- Объявления
- CAN
- возможности
- капитализация
- случаев
- Центр
- Центры
- сложные
- изменение
- изменения
- Канал
- каналы
- проверка
- Выберите
- Соучредитель
- код
- Связь
- Компании
- Компания
- Заполненная
- Условия
- доверие
- настройка
- Консоли
- постоянно
- потребитель
- обращайтесь
- контакт-центр
- содержит
- содержание
- продолжать
- Цена
- страна
- создает
- Создающий
- крикет
- CTO
- изготовленный на заказ
- клиент
- опыт работы с клиентами
- Клиенты
- настройка
- данным
- По умолчанию
- обеспечивает
- демократизировать
- развивается
- различный
- непосредственно
- обсуждать
- обсуждается
- дистрибьюторов
- Разное
- домен
- доменов
- долговечность
- простота
- простота в использовании
- фактически
- или
- элемент
- вставлять
- крайняя необходимость
- уполномоченный
- включить
- включен
- позволяет
- конец
- Конечная точка
- Английский
- расширение
- Усиливает
- обогащенный
- обеспечение
- предприятий
- средах
- оборудованный
- Даже
- Каждая
- пример
- обмена
- существовать
- существующий
- расширенный
- раскрываться
- опыт
- простирающийся
- Особенность
- Особенности
- Файл
- Файлы
- фильтр
- Во-первых,
- после
- следующим образом
- Что касается
- иностранный
- форма
- формат
- Год основания
- от
- полностью
- порождать
- генеративный
- Генеративный ИИ
- получить
- Глобальный
- глобальный масштаб
- Цели
- счастливый
- Есть
- he
- Герой
- помощь
- помощь
- помогает
- здесь
- hi
- High
- Главная
- ЧАСЫ
- Как
- How To
- HTML
- HTTP
- HTTPS
- человек
- Идентификация
- определения
- Влияние
- улучшать
- улучшенный
- улучшение
- улучшение
- in
- включают
- Увеличение
- отрасли
- информация
- свойственный
- инновации
- вход
- размышления
- пример
- в
- IT
- пункты
- ЕГО
- работа
- присоединение
- JPG
- JSON
- Основные
- язык
- Языки
- большой
- Лиды
- УЧИТЬСЯ
- уровни
- Используя
- линия
- жить
- Живет
- любит
- Низкий
- сделать
- ДЕЛАЕТ
- управляемого
- управление
- менеджер
- Медиа
- Метаданные
- миллиона
- миллионы
- Наша миссия
- режим
- модель
- БОЛЕЕ
- самых
- нуждающихся
- Новые
- следующее поколение
- Шум
- ничего
- номер
- объект
- of
- Предложения
- on
- только
- Откроется
- оптимизированный
- or
- организации
- Другое
- наши
- внешний
- выходной
- выходы
- внешнюю
- за
- собственный
- Параллельные
- параметр
- параметры
- страстный
- паттеранами
- платежи
- для
- производительность
- человек
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- положительно
- После
- Питание
- Основной
- Предварительный
- политикой конфиденциальности.
- производит
- Производители
- Продукт
- Управление продуктом
- Менеджер по продукции
- производительность
- свойства
- обеспечивать
- при условии
- приводит
- преследовать
- достигать
- признание
- относиться
- Связанный
- представление
- представленный
- уважение
- соответственно
- ответ
- результат
- Итоги
- розничный
- Богатые
- роли
- Бег
- Сохранность
- то же
- Сохранить
- Масштабируемость
- Шкала
- Сценарии
- Сиэтл
- безопасный
- безопасность
- посмотреть
- сегментами
- выберите
- старший
- служить
- обслуживание
- Услуги
- Наборы
- несколько
- значительный
- существенно
- просто
- одинарной
- умный
- Software
- Решения
- некоторые
- говорить
- Динамик
- динамики
- речь
- Распознавание речи
- речи в текст
- и политические лидеры
- Статус:
- Шаг
- диск
- магазин
- простой
- впоследствии
- существенный
- субтитры
- такие
- поддержка
- система
- команда
- Технический
- технологии
- текст
- чем
- который
- Ассоциация
- их
- тем самым
- Эти
- они
- этой
- тысячи
- Через
- своевременно
- в
- сегодня
- Традиционно
- специалистов
- Обучение
- Запись
- Переводы
- путешествовать
- два
- Universal
- Неограниченный
- отпереть
- использование
- Информация о пользователе
- пользователей
- использования
- через
- разнообразие
- различный
- очень
- Видео
- Просмотры
- фактически
- посетителей
- Режимы
- Путь..
- we
- Web
- веб-сервисы
- добро пожаловать
- ЧТО Ж
- когда
- в то время как
- который
- КТО
- будете
- без
- Работа
- работает
- лет
- Ты
- ВАШЕ
- зефирнет