Hoe de Süddeutsche Zeitung hun audiovertellingsproces optimaliseerde met Amazon Polly PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Hoe de Süddeutsche Zeitung hun audiovertellingsproces optimaliseerde met Amazon Polly

Dit is een gastpost van Jakob Kohl, een softwareontwikkelaar bij de Süddeutsche Zeitung. Süddeutsche Zeitung is een van de toonaangevende kwaliteitsdagbladen in Duitsland als het gaat om betaalde abonnementen en unieke gebruikers. haar website, SZ.de, bereikt vanaf oktober 15 meer dan 2021 miljoen maandelijkse unieke gebruikers.

Dankzij slimme speakers en podcasts heeft de audio-industrie de afgelopen jaren een ware boom doorgemaakt. Bij Süddeutsche Zeitung, zijn we constant op zoek naar nieuwe manieren om onze diverse journalistiek nog toegankelijker te maken. Als pioniers op het gebied van digitale journalistiek willen we meer kansen scheppen voor: Süddeutsche Zeitung lezers om artikelen te consumeren. We zijn op zoek gegaan naar oplossingen die audiovertelling van hoge kwaliteit voor onze artikelen konden bieden. Ons uiteindelijke doel was om een ​​"luister naar het artikel"-functie te lanceren.

In dit bericht delen we hoe we ons audiovertellingsproces hebben geoptimaliseerd met Amazon Polly, een service die verandert tekst in levensechte spraak met behulp van geavanceerde deep learning-technologieën.

Waarom Amazon Polly?

Wij geloven dat Vicki, de Duitse neurale Amazon Polly-stem, is momenteel de beste Duitse stem op de markt. Amazon Polly biedt de indrukwekkende functie om schakelen tussen talen, het correct uitspreken van bijvoorbeeld Engelse filmtitels en persoonsnamen in verschillende talen (luister bijvoorbeeld naar het artikel Schall en Wahn op onze website).

Een groot deel van onze infrastructuur draait al op AWS, dus met behulp van Amazon Polly paste perfect. We kunnen Amazon Polly combineren met de volgende componenten:

  • An Amazon eenvoudige meldingsservice (Amazon SNS) onderwerp waarop we ons kunnen abonneren voor artikelen. De artikelen worden door het CMS naar dit onderwerp gestuurd wanneer ze door een redacteur worden opgeslagen.
  • An Amazon CloudFront distributie met Lambda@Edge naar premium-artikelen op de betaalmuur, die we kunnen hergebruiken voor audioversies van artikelen.

De Amazon Polly-API is gemakkelijk te gebruiken en goed gedocumenteerd. Het kostte ons minder dan een week om onze proof of concept te laten werken.

De uitdaging

Elke dag verschijnen er honderden nieuwe artikelen op SZ.de. Na de eerste publicatie kunnen ze om verschillende redenen meerdere keren worden bijgewerkt: er worden nieuwe alinea's toegevoegd in nieuwsgestuurde artikelen, typefouten worden hersteld, teasers worden gewijzigd of metagegevens worden geoptimaliseerd voor zoekmachines.

Het genereren van spraak voor de eerste publicatie van een artikel is eenvoudig, omdat de hele tekst moet worden gesynthetiseerd. Maar hoe kunnen we snel de audio genereren voor bijgewerkte versies van artikelen zonder twee keer te betalen voor dezelfde inhoud? Onze grootste uitdaging was om te voorkomen dat bij elke update de hele tekst herhaaldelijk naar Amazon Polly werd gestuurd.

Onze technische oplossing

Elke keer dat een redacteur een artikel opslaat, wordt de nieuwe versie van het artikel gepubliceerd in een SNS-onderwerp. Een AWS Lambda functie is geabonneerd op dit onderwerp en wordt aangeroepen voor elke nieuwe versie van een artikel. Deze functie voert de volgende stappen uit:

  1. Controleer of de nieuwe versie van het artikel al volledig is samengesteld. Als dat het geval is, stopt de functie onmiddellijk (dit kan gebeuren wanneer alleen metadata wordt gewijzigd die geen invloed hebben op de audio).
  2. Converteer het artikel naar meerdere SSML-documenten, ongeveer één voor elke tekstparagraaf.
  3. Voor elk SSML-document controleert de functie of het al is gesynthetiseerd naar audio met behulp van berekende hashes. Bijvoorbeeld:
    1. Als een artikel voor de eerste keer wordt opgeslagen, moeten alle SSML-documenten worden samengevoegd.
    2. Als een typefout in een enkele alinea is hersteld, hoeft alleen het SSML-document voor deze alinea opnieuw te worden gesynthetiseerd.
    3. Als er een nieuwe paragraaf aan het artikel wordt toegevoegd, hoeft alleen het SSML-document voor deze nieuwe paragraaf te worden samengesteld.
  4. Stuur alle nog niet gesynthetiseerde SSML-documenten afzonderlijk naar Amazon Polly.

Deze controles helpen de prestaties te optimaliseren en de kosten te verlagen door de synthese van een volledig artikel meerdere keren te voorkomen. We vermijden dat we extra kosten maken vanwege kleine wijzigingen, zoals een titelbewerking of metadata-aanpassingen om SEO-redenen.

Het volgende diagram illustreert de workflow van de oplossing.

Hoe de Süddeutsche Zeitung hun audiovertellingsproces optimaliseerde met Amazon Polly PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nadat Amazon Polly de SSML-documenten heeft gesynthetiseerd, worden de audiobestanden naar een uitvoerbucket gestuurd in Amazon eenvoudige opslagservice (Amazon S3). Een tweede Lambda-functie luistert naar het maken van objecten op die bucket, wacht op de voltooiing van alle audiofragmenten van een artikel en voegt ze samen tot een definitief audiobestand met behulp van FFmpeg van een Lambda-laag. Deze laatste audio wordt naar een andere S3-bucket gestuurd, die wordt gebruikt als de oorsprong in onze CloudFront-distributie. In CloudFront hergebruiken we een bestaande paywall voor premium artikelen voor de bijbehorende audioversie.

Op basis van ons freemium-model bieden we een verkorte audioversie van premiumartikelen. Niet-abonnees kunnen de eerste alinea gratis beluisteren, maar moeten een abonnement aanschaffen om toegang te krijgen tot het volledige artikel.

Conclusie

De integratie van Amazon Polly in onze bestaande infrastructuur was heel eenvoudig. Onze inhoud vereist minimale aanpassingen omdat we alleen alinea's en enkele extra pauzes opnemen. Het meest uitdagende onderdeel was prestatie- en kostenoptimalisatie, wat we bereikten door het artikel op te splitsen in meerdere SSML-documenten die overeenkomen met paragrafen, te controleren op wijzigingen in elk SSML-document en het hele audiobestand te bouwen door de fragmenten samen te voegen. Met deze optimalisaties kunnen we het volgende bereiken:

  • Verminder het aantal gesynthetiseerde karakters met ten minste 50% door alleen echte veranderingen te synthetiseren.
  • Verminder de tijd die nodig is voordat een wijziging in de artikeltekst in de audio verschijnt, omdat er minder audio hoeft te worden gesynthetiseerd.
  • Voeg willekeurige audiobestanden toe tussen alinea's zonder het hele artikel opnieuw te synthetiseren. We kunnen bijvoorbeeld een geluidsbestand opnemen in de verkorte audioversie van een premiumartikel om de eerste alinea te scheiden van de daaropvolgende opmerking dat een abonnement nodig is om naar de volledige versie te luisteren.

In de eerste maand na de lancering van de functie "luister naar het artikel" in onze SZ.de-artikelen hebben we veel positieve gebruikersfeedback ontvangen. In de eerste 30,000 maanden na de lancering hebben we bijna 2 gebruikers kunnen bereiken. Van deze gebruikers zijn er ongeveer 200 omgezet in een betaald abonnement alleen door te luisteren naar de teaser van een artikel achter onze betaalmuur. De functie 'luister naar het artikel' zit niet achter onze betaalmuur, maar gebruikers kunnen alleen naar premium artikelen luisteren als ze een abonnement hebben. Onze website biedt ook gratis artikelen zonder paywall. In de toekomst zullen we de functie uitbreiden naar andere SZ-platforms, met name onze mobiele nieuws-apps.


Over de auteur

Hoe de Süddeutsche Zeitung hun audiovertellingsproces optimaliseerde met Amazon Polly PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Jakob Kohl is een softwareontwikkelaar bij de Süddeutsche Zeitung, waar hij graag met moderne technologieën werkt in een flexibel websiteteam. Hij is een van de belangrijkste ontwikkelaars van de functie "luister naar een SZ-artikel". In zijn vrije tijd bouwt hij graag houten meubelen, waarbij technisch en visueel ontwerp net zo belangrijk is als bij webontwikkeling.

Tijdstempel:

Meer van AWS-machine learning