Amazon Polly - это текст в речь сервис, использующий передовые технологии глубокого обучения для синтеза естественно звучащей человеческой речи. Он используется в различных вариантах использования, таких как системы контакт-центров, обеспечивающие взаимодействие пользователей с человеческими голосами для автоматической проверки статуса в режиме реального времени, автоматических запросов учетной записи и выставления счетов, а также новостными агентствами, такими как The Washington Post. чтобы читатели могли слушать новостные статьи.
На сегодняшний день Amazon Polly предоставляет более 60 голосов в более чем 30 языковых вариантах. Amazon Polly также использует контекст, чтобы по-разному произносить определенные слова в зависимости от времени глагола и другой контекстной информации. Например, «читать» в «я читаю книгу» (настоящее время) и «я буду читать книгу» (будущее время) произносится по-разному.
Однако в некоторых ситуациях может потребоваться настроить способ произношения слова Amazon Polly. Например, вам может понадобиться сопоставить произношение с местным диалектом или народным языком. Названия вещей (например, Tomato может произноситься как том-а-то or том-ай-то), люди, улицы или места часто произносятся по-разному.
В этом посте мы покажем, как вы можете использовать словари для создания собственного произношения. Вы можете применять лексиконы для таких случаев использования, как публикации, образование или центры обработки вызовов.
Настройте произношение с помощью тега SSML
Предположим, вы транслируете популярный подкаст из Австралии и используете голос Amazon Polly Australian English (Olivia) для преобразования вашего сценария в человеческую речь. В одном из ваших сценариев вы хотите использовать слова, неизвестные голосу Amazon Polly. Например, вы хотите отправить своим слушателям из Новой Зеландии поздравления с Матарики (Новым годом маори). Для таких сценариев Amazon Polly поддерживает фонетическое произношение, которое можно использовать для достижения произношения, близкого к правильному произношению на иностранном языке.
Вы можете использовать Язык разметки синтеза речи (ССМЛ), чтобы предложить фонетическое произношение в атрибуте ph. Позвольте мне показать вам, как вы можете использовать SSML-тег.
Сначала войдите в свой Консоль AWS и найдите Amazon Polly в строке поиска вверху. Выберите Amazon Polly, а затем нажмите кнопку «Попробовать Polly».
В консоли Amazon Polly выберите австралийский английский из раскрывающегося списка языков и введите следующий текст в текстовое поле ввода, а затем нажмите «Прослушать», чтобы проверить произношение.
Я желаю вам всем счастливого Матарики.
Пример речи без применения фонетического произношения:
Если вы слышите пример речи выше, вы можете заметить, что произношение Матарики – слово, которое не является частью австралийского английского языка – не совсем точное. Теперь давайте посмотрим, как в таких случаях мы можем использовать фонетическое произношение, используя Тег SSML для настройки речи, создаваемой Amazon Polly.
Чтобы использовать теги SSML, включите параметр SSML в консоли Amazon Polly. Затем скопируйте и вставьте следующий SSML-скрипт, содержащий фонетическое произношение для Матарики указанный внутри атрибута ph ярлык.
Для ярлык, Amazon Polly использует произношение, указанное в атрибуте ph, вместо стандартного произношения, связанного по умолчанию с языком, используемым выбранным голосом.
Пример речи после применения фонетического произношения:
Если вы услышите образец звука, вы заметите, что мы выбрали другое произношение для некоторых гласных (например, ā), чтобы Амазонка Полли синтезировала звуки, наиболее близкие к правильному произношению. Теперь у вас может возникнуть вопрос, как мне создать фонетическую транскрипцию «ма:.та:.ри.ки” для слова Матарики?
Вы можете создавать фонетические транскрипции, обращаясь к Таблицы фонем и визем для поддерживаемых языков. В приведенном выше примере мы использовали фонемы для австралийского английского.
Amazon Polly предлагает поддержку двух фонетических алфавитов: IPA и X-Sampa. Преимущество X-Sampa в том, что это стандартные символы ASCII, поэтому фонетическая транскрипция легче набирать на обычной клавиатуре. Вы можете использовать либо IPA, либо X-Sampa для создания своих транскрипций, но обязательно придерживайтесь своего выбора, особенно когда вы используете файл лексикона, который мы рассмотрим в следующем разделе.
Каждая фонема в таблице фонем представляет звук речи. Выделенные буквы в "Пример" Столбец таблицы фонемы/висемы на странице австралийского английского, ссылка на которую приведена выше, представляет часть слова, которой соответствует «фонема». Например, фонема /j/ представляет собой звук, который произносит австралийский носитель английского языка при произнесении буквы «y» в слове «yes».
Настройка произношения с помощью словарей
Теги фонемы подходят для разовых ситуаций для настройки отдельных случаев, но они не масштабируемы. Если вы обрабатываете большой объем текста, которым занимаются разные редакторы и рецензенты, мы рекомендуем использовать лексиконы. Используя лексиконы, вы можете добиться согласованности при добавлении пользовательских произношений и одновременно уменьшить ручную работу по вставке тегов фонем в скрипт.
Хорошей практикой является то, что после проверки пользовательского произношения на консоли Amazon Polly с помощью тег, вы создаете библиотеку настроенных произношений, используя словари. После загрузки файла лексиконов Amazon Polly автоматически применит фонетическое произношение, указанное в файле лексиконов, и избавит от необходимости вручную указывать ярлык.
Создать файл лексикона
Файл словаря содержит сопоставление слов и их фонетического произношения. Спецификация лексикона произношения (PLS) является рекомендацией W3C по указанию совместимых данных о произношении. Ниже приведен пример документа PLS:
Убедитесь, что вы используете правильное значение для xml:lang
поле. Использовать en-AU
если вы загружаете файл лексикона для использования с австралийской английской озвучкой Amazon Polly. Полный список поддерживаемых языков см. Языки, поддерживаемые Amazon Polly.
Чтобы указать пользовательское произношение, вам нужно добавить элемент, который является контейнером для лексической статьи с одним или несколькими <grapheme>
элемент и одна или несколько сведений о произношении, представленных внутри <phoneme>
элемент.
Ассоциация <grapheme>
элемент содержит текст, описывающий орфография элемент. Вы можете использовать <grapheme>
чтобы указать слово, произношение которого вы хотите настроить. Вы можете добавить несколько <grapheme>
элементы для указания всех вариантов слов, например, с макронами или без них. <grapheme>
элемент чувствителен к регистру, и во время синтеза речи строка Amazon Polly соответствует словам внутри вашего скрипта, которые вы конвертируете в речь. Если совпадение найдено, используется элемент, описывающий, как произносится для создания фонетической транскрипции.
Вы также можете использовать <alias>
для часто используемых сокращений. В предыдущем примере файла лексикона NZ используется как псевдоним для Новая Зеландия. Это означает, что всякий раз, когда Amazon Polly встречает «NZ» (с соответствующим регистром) в тексте, он будет читать эти две буквы как «Новая Зеландия».
Дополнительные сведения о формате файла лексикона см. Спецификация лексикона произношения (PLS), версия 1.0 на сайте W3C.
Вы можете сохранить файл лексикона в виде файла .pls или .xml перед его загрузкой в Amazon Polly.
Загрузите и примените файл лексикона
Загрузите файл лексикона в Amazon Polly, следуя следующим инструкциям:
- В консоли Amazon Polly выберите словари в навигационной панели.
- Выберите Загрузить лексикон.
- Введите имя для лексикона, а затем выберите файл словаря.
- Выберите файл для загрузки.
- Выберите Загрузить лексикон.
Если словарь с таким же именем (будь то файл .pls или .xml) уже существует, загрузка словаря перезаписывает существующий словарь.
Теперь вы можете применить лексикон для настройки произношения.
- Выберите Преобразование текста в речь в навигационной панели.
- Расширьте Дополнительные настройки.
- включать Настроить произношение.
- Выберите словарь в раскрывающемся меню.
Вы также можете выбрать Загрузить лексикон загрузить новый файл лексикона (или новую версию).
Хорошей практикой является контроль версий файла лексикона в репозитории исходного кода. Сохранение пользовательского произношения в файле лексикона гарантирует, что вы сможете постоянно ссылаться на фонетическое произношение определенных слов в организации. Кроме того, имейте в виду ограничения лексики произношения, упомянутые на Квоты в Amazon Polly стр.
Проверьте произношение после применения лексики
Давайте проведем быстрый тест, используя «Желаю всем моим слушателям в Новой Зеландии счастливого Матарики» в качестве входного текста.
Мы можем сравнить аудиофайлы до и после применения лексикона.
Перед применением лексики:
После применения лексики:
Заключение
В этом посте мы обсудили, как вы можете настроить произношение часто используемых сокращений или слов, которых нет в выбранном языке в Amazon Polly. Ты можешь использовать Тег SSML, который отлично подходит для вставки одноразовых настроек или целей тестирования. Мы рекомендуем использовать Lexicon, чтобы создать согласованный набор произношений для часто используемых слов в вашей организации. Это позволяет вашим авторам контента тратить время на написание вместо утомительной задачи повторного добавления фонетического произношения в сценарий. Вы можете попробовать это в своей учетной записи AWS на консоли Amazon Polly.
Сводка ресурсов
Об авторах
Ратан Кумар является архитектором решений из Окленда, Новая Зеландия. Он работает с крупными корпоративными клиентами, помогая им проектировать и создавать безопасные, экономичные и надежные интернет-приложения с использованием облака AWS. Он увлечен технологиями и любит делиться знаниями с помощью сообщений в блогах и сессий Twitch.
Мациек Теги является главным аудиодизайнером и менеджером по продуктам Polly Brand Voices. Он профессионально работал в сфере высоких технологий, кино, рекламы и локализации игр. В 2013 году он был первым звукоинженером, нанятым в команду Alexa Text-To-Speech. Мациек участвовал в выпуске 12 голосов Alexa TTS в разных странах, более 20 голосов Полли и 4 голосов знаменитостей Alexa. Мацек занимается триатлетом и заядлый игрок на акустической гитаре.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/customize-pronunciation-using-lexicons-in-amazon-polly/
- "
- 100
- 116
- О нас
- Учетная запись
- Достигать
- через
- продвинутый
- Alexa
- Все
- уже
- Amazon
- Приложения
- Применение
- аудио
- Австралия
- автоматический
- Автоматизированный
- AWS
- до
- польза
- биллинг
- Блог
- Сообщения в блоге
- тело
- граница
- Коробка
- марка
- строить
- призывают
- Пропускная способность
- случаев
- Знаменитость
- определенный
- Выберите
- ближе
- облако
- код
- Column
- Консоли
- обращайтесь
- Container
- содержит
- содержание
- контроль
- рентабельным
- страны
- чехол для варгана
- Создайте
- Создающий
- изготовленный на заказ
- Клиенты
- доставки
- демонстрировать
- Проект
- Застройщик
- различный
- в течение
- Обучение
- усилие
- элементы
- ликвидировать
- инженер
- Английский
- Enter
- Предприятие
- особенно
- пример
- существующий
- Впечатления
- First
- после
- иностранный
- формат
- найденный
- будущее
- игра
- порождать
- хорошо
- большой
- счастливый
- помощь
- Как
- HTTPS
- огромный
- человек
- промышленность
- информация
- вход
- Интернет
- совместимость
- вовлеченный
- IT
- хранение
- знания
- язык
- Языки
- большой
- изучение
- Кредитное плечо
- Библиотека
- Список
- локальным
- ДЕЛАЕТ
- управляемого
- менеджер
- руководство
- вручную
- отображение
- Совпадение
- согласование
- означает
- упомянутый
- может быть
- против
- БОЛЕЕ
- Кино
- с разными
- имена
- Навигация
- Новый год
- Новая Зеландия
- Новости
- "обычные"
- Предложения
- Опция
- организация
- Другие контрактные услуги
- часть
- страстный
- Люди
- игрок
- Подкаст
- Популярное
- Блог
- практика
- представить
- Основной
- процесс
- Произведенный
- Продукт
- профессиональный
- обеспечивать
- приводит
- Издательство
- целей
- вопрос
- САЙТ
- читатели
- реального времени
- рекомендовать
- уменьшить
- складская
- хранилище
- представлять
- представляет
- масштабируемые
- Шкала
- Поиск
- безопасный
- выбранный
- обслуживание
- сессиях
- набор
- разделение
- So
- твердый
- Решения
- некоторые
- исходный код
- Динамик
- Спецификация
- тратить
- стандарт
- Статус:
- оставаться
- поток
- поддержка
- Поддержанный
- Поддержка
- системы
- команда
- технологии
- техническая промышленность
- технологии
- Технологии
- тестXNUMX
- Тестирование
- Washington Post
- Через
- время
- сегодня
- топ
- Twitch
- использование
- ценностное
- разнообразие
- версия
- Режимы
- ГОЛОСА
- объем
- W3
- Вашингтон
- Вебсайт
- будь то
- Википедия.
- без
- слова
- работавший
- работает
- письмо
- XML
- год