Створюйте синхронізовані субтитри та аудіо за допомогою генератора субтитрів Amazon Polly

Перевидано Платоном

читають: 0

Амазонка Поллі, створена штучним інтелектом служба перетворення тексту в мовлення, дає змогу автоматизувати та масштабувати свої інтерактивні голосові рішення, допомагаючи підвищити продуктивність і зменшити витрати.

Оскільки наші клієнти продовжують використовувати Amazon Polly через його багатий набір функцій і простоту використання, ми помітили попит на можливість одночасного створення синхронізованого аудіо та субтитрів або субтитрів для певного текстового введення. У AWS ми постійно реагуємо на запити наших клієнтів, тому в цій публікації ми описуємо метод одночасного створення аудіо та субтитрів для певного тексту.

Хоча субтитри та підписи часто використовуються як взаємозамінні, зокрема в цій публікації, між ними є тонкі відмінності:

Субтитри – У субтитрах мова тексту, що відображається на екрані, відрізняється від мови аудіосупроводу та не відображає нічого недіалогового, наприклад значущих звуків. Основна мета – охопити аудиторію, яка не розмовляє мовою звуку у відео.
Підписи (закриті/відкриті) – Підписи відображають діалоги, які вимовляються в аудіо, тією самою мовою. Його головна мета — підвищити доступність у випадках, коли аудіо не може почути кінцевий споживач через низку проблем. Закриті субтитри є частиною файлу, відмінного від джерела аудіо/відео, і їх можна вимикати та вмикати на розсуд користувача, тоді як відкриті субтитри є частиною відеофайлу, і користувач не може вимкнути їх.

Переваги використання Amazon Polly для створення аудіо з субтитрами або субтитрами

Уявіть наступний варіант використання: ви готуєте презентацію на основі слайдів для онлайн-навчального порталу. Кожен слайд містить екранний вміст і дикторський текст. Вміст на екрані є основним планом, а розповідь міститься в деталях. Замість запису людського голосу, який може бути громіздким і непослідовним, ви можете використовувати Amazon Polly для створення оповідання. Amazon Polly виробляє високоякісні послідовні голоси. Немає потреби в постпродакшн. У майбутньому, якщо вам знадобиться оновити частину презентації, вам потрібно буде оновити лише відповідні слайди. Голос відповідає оригінальним слайдам. Крім того, коли Amazon Polly генерує ваше аудіо, до нього додаються субтитри, які з’являються одночасно зі звуком. Ви заощаджуєте час, оскільки не потрібно записувати вручну, і заощаджуєте додатковий час, коли потрібні оновлення. Ваша презентація також має більшу цінність, оскільки підписи допомагають студентам сприймати вміст. Це безпрограшне рішення.

Існує безліч варіантів використання субтитрів, як-от реклама в соціальних мережах, спортзалах, кав’ярнях та інших місцях, де зазвичай щось показують по телевізору з вимкненим звуком і фоновою музикою; онлайн навчання та заняття; віртуальні зустрічі; публічні електронні оголошення; перегляд відео під час поїздки без навушників і не турбуючи попутників; і ще кілька.

Незалежно від сфери застосування субтитри можуть допомогти в наступному:

Доступність – Люди з вадами слуху можуть краще споживати ваш контент.
Утримання – Онлайн-навчання легше сприйняти та запам’ятати, коли задіяно більше людських органів чуття.
Досяжність – Ваш вміст може охопити людей, які мають конкуруючі пріоритети, як-от ігри та перегляд новин одночасно, або людей, рідна мова яких відрізняється від мови аудіо.
можливості пошуку – Вміст доступний для пошуку за допомогою пошукових систем. Оскільки більшість пошукових систем не може оптимально шукати відео, пошукові системи можуть використовувати текстові файли субтитрів і зробити ваш вміст більш видимим.
Соціальна ввічливість – Іноді відтворення аудіо може бути грубим через ваше оточення, або аудіо може бути важко почути через шум навколо.
Усвідомлення – Зміст легше сприймається незалежно від акценту мовця, рідної мови мовця чи швидкості мовлення. Ви також можете робити нотатки, не переглядаючи ту саму сцену повторно.

Огляд рішення

Бібліотека, представлена в цьому дописі, використовує Amazon Polly для створення звуку та субтитрів для вхідного тексту. Ви можете легко інтегрувати цю бібліотеку у свої програми синтезу мовлення. Він підтримує кілька аудіоформатів і субтитри у форматах файлів VTT і SRT, які найчастіше використовуються в галузі.

У цій публікації ми зосередимося на PollyVTT() синтаксис і параметри, а також пропонують кілька прикладів, які демонструють, як використовувати Python SubtitleGeneratorForPolly щоб одночасно генерувати синхронні аудіофайли та файли субтитрів для певного текстового введення. Формат вихідного аудіофайлу може бути PCM(wav), OGG або MP3, а формат файлу субтитрів може бути VTT або SRT. Крім того, SubtitleGeneratorForPolly підтримує всі Amazon Polly synthesize_speech параметрів і додає багатий набір функцій Amazon Polly.

Команда polly-vtt бібліотека та її залежності доступні на GitHub.

Встановіть і використовуйте функцію

Перш ніж ми розглянемо кілька прикладів використання PollyVTT(), функція, яка живить SubtitleGeneratorForPolly, давайте розглянемо його встановлення та синтаксис.

Встановіть бібліотеку за допомогою такого коду:

pip install

Щоб запустити з командного рядка, просто запустіть polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Наступний код показує ваші варіанти:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Давайте зараз розглянемо кілька прикладів.

Приклад 1

Цей приклад генерує аудіофайл PCM разом із файлом субтитрів SRT для двох простих речень:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Приклад 2

Цей приклад демонструє, як використовувати абзац тексту як вхідні дані. Це генерує аудіофайли у форматі WAV, MP3 та OGG, а також субтитри у форматі SRT та VTT. У наступному прикладі створюється шість файлів для заданого вхідного тексту:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

Дивіться наступний код:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

Приклад 3

Однак у більшості випадків ви хочете передати текст як вхідний файл. Нижче наведено приклад цього на Python з тим самим результатом, що й попередній приклад:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Нижче наведено допис із відгуками від команди внутрішнього навчання AWS щодо використання Amazon Polly із субтитрами:

Наступне відео пропонує коротку демонстрацію того, як використовує внутрішня навчальна група AWS PollyVTT():

Висновок

У цій публікації ми поділилися методом одночасного створення аудіо та субтитрів для певного тексту. The PollyVTT() функція і SubtitleGeneratorForPolly вирішувати загальну вимогу до субтитрів ефективним і ефективним способом. Команда Amazon Polly продовжує винаходити та пропонувати спрощені рішення для складних вимог клієнтів.

Щоб отримати додаткові посібники та інформацію про Amazon Polly, перегляньте Блог машинного навчання AWS.

Про авторів

Абхішек Соні є архітектором партнерських рішень в AWS. Він працює з клієнтами, щоб надати технічні вказівки щодо найкращого результату робочих навантажень на AWS.

Дан Маккей використовує аудіо, відео та каву, щоб розділити вміст на цільові, модульні та структуровані курси. Виконуючи роль менеджера проекту розробника навчального плану для домену NetSec в Amazon Web Services, він використовує свій досвід роботи в мережі центрів обробки даних, щоб допомогти експертам із предметних питань втілити ідеї в життя.

Орландо Карам є розробником технічної навчальної програми в Amazon Web Services, а це означає, що він може грати з новими крутими технологіями, а потім розповідати про них. Час від часу він також використовує ці класні технології, щоб полегшити свою роботу.