Amazon PollyСлужба преобразования текста в речь, созданная с помощью искусственного интеллекта, позволяет автоматизировать и масштабировать ваши интерактивные голосовые решения, помогая повысить производительность и сократить расходы.
Поскольку наши клиенты продолжают использовать Amazon Polly из-за его богатого набора функций и простоты использования, мы заметили спрос на возможность одновременного создания синхронизированного звука и субтитров или скрытых титров для заданного ввода текста. В AWS мы постоянно работаем в обратном направлении от запросов наших клиентов, поэтому в этом посте мы описываем метод одновременной генерации аудио и субтитров для заданного текста.
Хотя субтитры и титры часто используются взаимозаменяемо, в том числе в этом посте, между ними есть небольшие различия:
- Субтитры – В субтитрах язык текста, отображаемый на экране, отличается от языка аудио и не отображает ничего недиалогового, например значимых звуков. Основная цель — охватить аудиторию, которая не говорит на языке аудио в видео.
- Субтитры (закрытые/открытые) - Субтитры отображают диалоги, которые произносятся в аудио на том же языке. Его основная цель — повысить доступность в тех случаях, когда звук не может быть услышан конечным потребителем из-за ряда проблем. Скрытые титры являются частью файла, отличного от источника аудио/видео, и могут включаться и выключаться по усмотрению пользователя, в то время как открытые титры являются частью видеофайла и не могут быть отключены пользователем.
Преимущества использования Amazon Polly для создания аудио с субтитрами или субтитрами
Представьте себе следующий вариант использования: вы готовите презентацию на основе слайдов для портала онлайн-обучения. Каждый слайд включает в себя экранный контент и повествование. Контент на экране представляет собой базовую схему, а повествование переходит в детали. Вместо того, чтобы записывать человеческий голос, что может быть громоздким и непоследовательным, вы можете использовать Amazon Polly для создания повествования. Amazon Polly производит высококачественные, согласованные голоса. Нет необходимости в постпродакшне. В будущем, если вам потребуется обновить часть презентации, вам нужно будет обновить только затронутые слайды. Голос соответствует оригинальным слайдам. Кроме того, когда Amazon Polly генерирует аудио, добавляются субтитры, которые появляются синхронно с аудио. Вы экономите время, потому что не требуется ручная запись, и экономите дополнительное время, когда требуются обновления. Ваша презентация также имеет большую ценность, поскольку подписи помогают учащимся воспринимать контент. Это беспроигрышное решение.
Существует множество вариантов использования субтитров, например реклама в социальных сетях, спортзалах, кофейнях и других местах, где обычно что-то показывают по телевизору с отключенным звуком и фоновой музыкой; онлайн-обучение и занятия; виртуальные встречи; публичные электронные объявления; смотреть видео в дороге без наушников и не мешая попутчикам; и еще несколько.
Независимо от области применения, субтитры могут помочь в следующем:
- Универсальный доступ – Люди с нарушениями слуха могут лучше воспринимать ваш контент.
- Сохранение – Онлайн-обучение легче воспринимается и запоминается электронными учащимися, когда задействовано больше человеческих органов чувств.
- достижимость – Ваш контент может дойти до людей, у которых есть конкурирующие приоритеты, например, игры и просмотр новостей одновременно, или люди, чей родной язык отличается от языка аудио.
- Возможности поиска - Контент доступен для поиска поисковыми системами. В то время как большинство поисковых систем не могут оптимально искать видео, поисковые системы могут использовать текстовые файлы субтитров и сделать ваш контент более доступным для поиска.
- Социальная вежливость – Иногда может быть грубо воспроизводить звук из-за вашего окружения, или звук может быть плохо слышен из-за окружающего шума.
- постижение – Содержание легче понять независимо от акцента говорящего, родного языка говорящего или скорости речи. Вы также можете делать заметки, не просматривая повторно одну и ту же сцену.
Обзор решения
Библиотека, представленная в этом посте, использует Amazon Polly для генерации звука и субтитров для вводимого текста. Вы можете легко интегрировать эту библиотеку в свои приложения для преобразования текста в речь. Он поддерживает несколько аудиоформатов и субтитры в форматах файлов VTT и SRT, которые наиболее часто используются в отрасли.
В этом посте мы сосредоточимся на PollyVTT()
синтаксис и опции, а также предложить несколько примеров, демонстрирующих, как использовать Python SubtitleGeneratorForPolly
для одновременной генерации синхронных файлов аудио и субтитров для заданного ввода текста. Формат выходного аудиофайла может быть PCM(wav), OGG или MP3, а формат файла субтитров может быть VTT или SRT. Более того, SubtitleGeneratorForPolly
поддерживает все Amazon Polly synthesize_speech
параметров и расширяет богатый набор функций Amazon Polly.
Ассоциация polly-vtt
библиотека и ее зависимости доступны на GitHub.
Установите и используйте функцию
Прежде чем мы рассмотрим некоторые примеры использования PollyVTT()
, функция, которая питает SubtitleGeneratorForPolly
, давайте посмотрим на его установку и синтаксис.
Установите библиотеку, используя следующий код:
Чтобы запустить из командной строки, вы просто запускаете polly-vtt
:
Следующий код показывает ваши варианты:
Давайте теперь рассмотрим несколько примеров.
Пример 1
В этом примере создается аудиофайл PCM вместе с файлом субтитров SRT для двух простых предложений:
Пример 2
В этом примере показано, как использовать абзац текста в качестве входных данных. При этом создаются аудиофайлы в форматах WAV, MP3 и OGG, а также субтитры в форматах SRT и VTT. В следующем примере создается шесть файлов для заданного входного текста:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Смотрите следующий код:
Пример 3
Однако в большинстве случаев вы хотите передать текст в качестве входного файла. Ниже приведен пример этого на Python с тем же выводом, что и в предыдущем примере:
Ниже приводится отзыв внутренней группы обучения AWS об использовании Amazon Polly со скрытыми субтитрами:
В следующем видеоролике представлена короткая демонстрация того, как команда внутреннего обучения AWS использует PollyVTT()
:
Заключение
В этом посте мы поделились методом одновременной генерации аудио и субтитров для заданного текста. PollyVTT()
функции и SubtitleGeneratorForPolly
эффективное и действенное решение общего требования к субтитрам. Команда Amazon Polly продолжает изобретать и предлагать упрощенные решения для сложных требований клиентов.
Дополнительные руководства и информацию об Amazon Polly см. Блог машинного обучения AWS.
Об авторах
Абхишек Сони является архитектором партнерских решений в AWS. Он работает с клиентами, чтобы предоставить технические рекомендации по оптимальному результату рабочих нагрузок на AWS.
Дан Макки использует аудио, видео и кофе для преобразования контента в целевые, модульные и структурированные курсы. В своей роли руководителя проекта Curriculum Developer для домена NetSec в Amazon Web Services он использует свой опыт в области сетей центров обработки данных, чтобы помочь экспертам в данной области воплощать идеи в жизнь.
Орландо Карам является техническим разработчиком учебной программы в Amazon Web Services, что означает, что он может поиграть с новыми интересными технологиями, а затем рассказать об этом. Иногда он также использует эти крутые технологии, чтобы облегчить себе работу.
- AI
- ай искусство
- генератор искусств ай
- искусственный интеллект
- Amazon Polly
- искусственный интеллект
- сертификация искусственного интеллекта
- искусственный интеллект в банковском деле
- робот с искусственным интеллектом
- роботы с искусственным интеллектом
- программное обеспечение искусственного интеллекта
- Машинное обучение AWS
- блокчейн
- конференция по блокчейну
- Coingenius
- разговорный искусственный интеллект
- криптоконференция ИИ
- дал-и
- глубокое обучение
- google ai
- обучение с помощью машины
- Платон
- Платон Ай
- Платон Интеллектуальные данные
- Платон игра
- ПлатонДанные
- платогейминг
- масштаб ай
- синтаксис
- зефирнет