Амазонка Поллі, створена штучним інтелектом служба перетворення тексту в мовлення, дає змогу автоматизувати та масштабувати свої інтерактивні голосові рішення, допомагаючи підвищити продуктивність і зменшити витрати.
Оскільки наші клієнти продовжують використовувати Amazon Polly через його багатий набір функцій і простоту використання, ми помітили попит на можливість одночасного створення синхронізованого аудіо та субтитрів або субтитрів для певного текстового введення. У AWS ми постійно реагуємо на запити наших клієнтів, тому в цій публікації ми описуємо метод одночасного створення аудіо та субтитрів для певного тексту.
Хоча субтитри та підписи часто використовуються як взаємозамінні, зокрема в цій публікації, між ними є тонкі відмінності:
- Субтитри – У субтитрах мова тексту, що відображається на екрані, відрізняється від мови аудіосупроводу та не відображає нічого недіалогового, наприклад значущих звуків. Основна мета – охопити аудиторію, яка не розмовляє мовою звуку у відео.
- Підписи (закриті/відкриті) – Підписи відображають діалоги, які вимовляються в аудіо, тією самою мовою. Його головна мета — підвищити доступність у випадках, коли аудіо не може почути кінцевий споживач через низку проблем. Закриті субтитри є частиною файлу, відмінного від джерела аудіо/відео, і їх можна вимикати та вмикати на розсуд користувача, тоді як відкриті субтитри є частиною відеофайлу, і користувач не може вимкнути їх.
Переваги використання Amazon Polly для створення аудіо з субтитрами або субтитрами
Уявіть наступний варіант використання: ви готуєте презентацію на основі слайдів для онлайн-навчального порталу. Кожен слайд містить екранний вміст і дикторський текст. Вміст на екрані є основним планом, а розповідь міститься в деталях. Замість запису людського голосу, який може бути громіздким і непослідовним, ви можете використовувати Amazon Polly для створення оповідання. Amazon Polly виробляє високоякісні послідовні голоси. Немає потреби в постпродакшн. У майбутньому, якщо вам знадобиться оновити частину презентації, вам потрібно буде оновити лише відповідні слайди. Голос відповідає оригінальним слайдам. Крім того, коли Amazon Polly генерує ваше аудіо, до нього додаються субтитри, які з’являються одночасно зі звуком. Ви заощаджуєте час, оскільки не потрібно записувати вручну, і заощаджуєте додатковий час, коли потрібні оновлення. Ваша презентація також має більшу цінність, оскільки підписи допомагають студентам сприймати вміст. Це безпрограшне рішення.
Існує безліч варіантів використання субтитрів, як-от реклама в соціальних мережах, спортзалах, кав’ярнях та інших місцях, де зазвичай щось показують по телевізору з вимкненим звуком і фоновою музикою; онлайн навчання та заняття; віртуальні зустрічі; публічні електронні оголошення; перегляд відео під час поїздки без навушників і не турбуючи попутників; і ще кілька.
Незалежно від сфери застосування субтитри можуть допомогти в наступному:
- Доступність – Люди з вадами слуху можуть краще споживати ваш контент.
- Утримання – Онлайн-навчання легше сприйняти та запам’ятати, коли задіяно більше людських органів чуття.
- Досяжність – Ваш вміст може охопити людей, які мають конкуруючі пріоритети, як-от ігри та перегляд новин одночасно, або людей, рідна мова яких відрізняється від мови аудіо.
- можливості пошуку – Вміст доступний для пошуку за допомогою пошукових систем. Оскільки більшість пошукових систем не може оптимально шукати відео, пошукові системи можуть використовувати текстові файли субтитрів і зробити ваш вміст більш видимим.
- Соціальна ввічливість – Іноді відтворення аудіо може бути грубим через ваше оточення, або аудіо може бути важко почути через шум навколо.
- Усвідомлення – Зміст легше сприймається незалежно від акценту мовця, рідної мови мовця чи швидкості мовлення. Ви також можете робити нотатки, не переглядаючи ту саму сцену повторно.
Огляд рішення
Бібліотека, представлена в цьому дописі, використовує Amazon Polly для створення звуку та субтитрів для вхідного тексту. Ви можете легко інтегрувати цю бібліотеку у свої програми синтезу мовлення. Він підтримує кілька аудіоформатів і субтитри у форматах файлів VTT і SRT, які найчастіше використовуються в галузі.
У цій публікації ми зосередимося на PollyVTT()
синтаксис і параметри, а також пропонують кілька прикладів, які демонструють, як використовувати Python SubtitleGeneratorForPolly
щоб одночасно генерувати синхронні аудіофайли та файли субтитрів для певного текстового введення. Формат вихідного аудіофайлу може бути PCM(wav), OGG або MP3, а формат файлу субтитрів може бути VTT або SRT. Крім того, SubtitleGeneratorForPolly
підтримує всі Amazon Polly synthesize_speech
параметрів і додає багатий набір функцій Amazon Polly.
Команда polly-vtt
бібліотека та її залежності доступні на GitHub.
Встановіть і використовуйте функцію
Перш ніж ми розглянемо кілька прикладів використання PollyVTT()
, функція, яка живить SubtitleGeneratorForPolly
, давайте розглянемо його встановлення та синтаксис.
Встановіть бібліотеку за допомогою такого коду:
Щоб запустити з командного рядка, просто запустіть polly-vtt
:
Наступний код показує ваші варіанти:
Давайте зараз розглянемо кілька прикладів.
Приклад 1
Цей приклад генерує аудіофайл PCM разом із файлом субтитрів SRT для двох простих речень:
Приклад 2
Цей приклад демонструє, як використовувати абзац тексту як вхідні дані. Це генерує аудіофайли у форматі WAV, MP3 та OGG, а також субтитри у форматі SRT та VTT. У наступному прикладі створюється шість файлів для заданого вхідного тексту:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Дивіться наступний код:
Приклад 3
Однак у більшості випадків ви хочете передати текст як вхідний файл. Нижче наведено приклад цього на Python з тим самим результатом, що й попередній приклад:
Нижче наведено допис із відгуками від команди внутрішнього навчання AWS щодо використання Amazon Polly із субтитрами:
Наступне відео пропонує коротку демонстрацію того, як використовує внутрішня навчальна група AWS PollyVTT()
:
Висновок
У цій публікації ми поділилися методом одночасного створення аудіо та субтитрів для певного тексту. The PollyVTT()
функція і SubtitleGeneratorForPolly
вирішувати загальну вимогу до субтитрів ефективним і ефективним способом. Команда Amazon Polly продовжує винаходити та пропонувати спрощені рішення для складних вимог клієнтів.
Щоб отримати додаткові посібники та інформацію про Amazon Polly, перегляньте Блог машинного навчання AWS.
Про авторів
Абхішек Соні є архітектором партнерських рішень в AWS. Він працює з клієнтами, щоб надати технічні вказівки щодо найкращого результату робочих навантажень на AWS.
Дан Маккей використовує аудіо, відео та каву, щоб розділити вміст на цільові, модульні та структуровані курси. Виконуючи роль менеджера проекту розробника навчального плану для домену NetSec в Amazon Web Services, він використовує свій досвід роботи в мережі центрів обробки даних, щоб допомогти експертам із предметних питань втілити ідеї в життя.
Орландо Карам є розробником технічної навчальної програми в Amazon Web Services, а це означає, що він може грати з новими крутими технологіями, а потім розповідати про них. Час від часу він також використовує ці класні технології, щоб полегшити свою роботу.
- AI
- ai мистецтво
- AI арт генератор
- ai робот
- Амазонка Поллі
- штучний інтелект
- сертифікація штучного інтелекту
- штучний інтелект у банківській справі
- робот зі штучним інтелектом
- роботи зі штучним інтелектом
- програмне забезпечення для штучного інтелекту
- AWS Машинне навчання
- blockchain
- блокчейн конференція AI
- coingenius
- розмовний штучний інтелект
- крипто конференція ai
- dall's
- глибоке навчання
- у вас є гугл
- навчання за допомогою машини
- plato
- платон ai
- Інформація про дані Платона
- Гра Платон
- PlatoData
- platogaming
- масштаб ai
- синтаксис
- зефірнет