Як Süddeutsche Zeitung оптимізувала процес аудіорозповіді за допомогою Amazon Polly

Перевидано Платоном

читають: 0

Це гостьовий допис Якоба Коля, розробника програмного забезпечення в Süddeutsche Zeitung. Süddeutsche Zeitung є однією з найкращих щоденних газет у Німеччині, коли йдеться про платні підписки та унікальних користувачів. Його веб-сайт, SZ.de, охоплює понад 15 мільйонів унікальних користувачів щомісяця станом на жовтень 2021 року.

Завдяки розумним колонкам і подкастам аудіоіндустрія пережила справжній бум за останні роки. на Süddeutsche Zeitung, ми постійно шукаємо нові способи зробити нашу різноманітну журналістику ще доступнішою. Як піонери цифрової журналістики, ми хочемо відкрити більше можливостей для Süddeutsche Zeitung читачів споживати статті. Ми почали шукати рішення, які могли б забезпечити високоякісне звукове оповідання для наших статей. Нашою кінцевою метою було запустити функцію «прослухати статтю».

У цій публікації ми розповідаємо, як ми оптимізували процес аудіорозповіді за допомогою Amazon Polly, сервісу, який перетворює тексту в реалістичну мову використання передових технологій глибинного навчання.

Чому Amazon Polly?

Ми вважаємо, що Вікі, німецький нейрон Голос Amazon Polly, на даний момент є найкращим німецьким голосом на ринку. Amazon Polly пропонує вражаючу функцію перемикатися між мовами, правильно вимовляючи, наприклад, англійські назви фільмів, а також власні імена різними мовами (для прикладу послухайте статтю Шаль і Ван на нашому сайті).

Значна частина нашої інфраструктури вже працює на AWS за допомогою Amazon Polly ідеально підходив. Ми можемо поєднати Amazon Polly з такими компонентами:

An Служба простих сповіщень Amazon (Amazon SNS), на яку ми можемо підписатися на статті. CMS надсилає статті до цієї теми щоразу, коли їх зберігає редактор.
An Amazon CloudFront розподіл с Lambda@Edge до платних статей преміум-класу, які ми можемо повторно використовувати для аудіоверсій статей.

Команда API Amazon Polly простий у використанні та добре задокументований. Нам знадобилося менше тижня, щоб наше підтвердження концепції запрацювало.

Змагання

Щодня на SZ.de публікуються сотні нових статей. Після початкової публікації вони можуть кілька разів оновлюватися з різних причин: до статей, орієнтованих на новини, додаються нові абзаци, виправляються описки, змінюються тизери або оптимізуються метадані для пошукових систем.

Створення мовлення для первинної публікації статті є простим, оскільки весь текст потрібно синтезувати. Але як ми можемо швидко створити аудіо для оновлених версій статей, не платячи двічі за той самий вміст? Наша найбільша проблема полягала в тому, щоб запобігти повторному надсиланню всього тексту до Amazon Polly для кожного окремого оновлення.

Наше технічне рішення

Щоразу, коли редактор зберігає статтю, нова версія статті публікується в темі SNS. Ан AWS Lambda функція підписана на цю тему та викликається для кожної нової версії статті. Ця функція виконує такі дії:

Перевірте, чи нова версія статті вже повністю синтезована. Якщо так, функція негайно припиняється (це може статися, якщо змінено лише метадані, які не впливають на звук).
Перетворіть статтю на кратну документи SSML, приблизно по одному на кожен абзац тексту.
Для кожного документа SSML функція перевіряє, чи він уже був синтезований у аудіо за допомогою обчислених хешів. Наприклад:
1. Якщо стаття зберігається вперше, усі документи SSML мають бути синтезовані.
2. Якщо помилку було виправлено в одному абзаці, потрібно повторно синтезувати лише документ SSML для цього абзацу.
3. Якщо до статті додається новий абзац, потрібно синтезувати лише документ SSML для цього нового абзацу.
Надішліть усі ще не синтезовані документи SSML окремо до Amazon Polly.

Ці перевірки допомагають оптимізувати продуктивність і зменшити витрати, запобігаючи багаторазовому синтезу всієї статті. Ми уникаємо додаткових витрат через незначні зміни, такі як редагування назви або коригування метаданих з міркувань SEO.

Наступна діаграма ілюструє робочий процес рішення.

Після того як Amazon Polly синтезує документи SSML, аудіофайли надсилаються до вихідного відра Служба простого зберігання Amazon (Amazon S3). Друга функція Lambda прослуховує створення об’єкта в цьому відрі, очікує завершення всіх аудіофрагментів статті та об’єднує їх у остаточний аудіофайл за допомогою FFmpeg із лямбда-шару. Цей останній аудіо надсилається в інше відро S3, яке використовується як джерело в нашому дистрибутиві CloudFront. У CloudFront ми повторно використовуємо наявний платний екран для преміум-статей для відповідної звукової версії.

Базуючись на нашій безкоштовній моделі, ми пропонуємо скорочену аудіоверсію преміум-статей. Користувачі, які не підписалися, можуть прослухати перший абзац безкоштовно, але повинні придбати підписку, щоб отримати доступ до повної статті.

Висновок

Інтеграція Amazon Polly в нашу існуючу інфраструктуру була дуже простою. Наш вміст вимагає мінімального налаштування, оскільки ми включаємо лише абзаци та деякі додаткові розриви. Найскладнішою частиною була оптимізація продуктивності та витрат, якої ми досягли, розділивши статтю на кілька документів SSML, які відповідають параграфам, перевіривши наявність змін у кожному документі SSML і побудувавши весь аудіофайл шляхом об’єднання фрагментів. За допомогою цих оптимізацій ми можемо досягти наступного:

Зменшіть кількість синтезованих символів принаймні на 50%, синтезуючи лише реальні зміни.
Скоротіть час, потрібний для того, щоб зміни в тексті статті з’явилися в аудіо, оскільки аудіо для синтезу менше.
Додайте довільні аудіофайли між абзацами без повторного синтезу всієї статті. Наприклад, ми можемо включити звуковий файл у скорочену звукову версію преміум-статей, щоб відокремити перший абзац від наступної примітки про те, що для прослуховування повної версії потрібна підписка.

У перший місяць після запуску функції «слухати статтю» в наших статтях на SZ.de ми отримали багато позитивних відгуків від користувачів. Нам вдалося охопити майже 30,000 2 користувачів протягом перших 200 місяців після запуску. Приблизно XNUMX із цих користувачів перейшли на платну підписку лише завдяки прослуховуванню тизера статті за нашим платним екраном. Функція «прослухати статтю» не стоїть за нашою системою оплати, але користувачі можуть слухати преміум-статті повністю, лише якщо вони мають підписку. Наш веб-сайт також пропонує безкоштовні статті без платного доступу. У майбутньому ми розширимо цю функцію на інші платформи SZ, особливо на наші програми для мобільних новин.

Про автора

Якоб Коль є розробником програмного забезпечення в Süddeutsche Zeitung, де йому подобається працювати з сучасними технологіями в гнучкій команді веб-сайтів. Він є одним із головних розробників функції «прослухати статтю SZ». У вільний час він любить будувати дерев’яні меблі, де технічний і візуальний дизайн так само важливий, як і в веб-розробці.