Hvordan Süddeutsche Zeitung optimerede deres lydfortællingsproces med Amazon Polly

Genudgivet af Platon

Abonnenter: 0

Dette er et gæsteindlæg af Jakob Kohl, softwareudvikler hos Süddeutsche Zeitung. Süddeutsche Zeitung er et af de førende kvalitetsdagblade i Tyskland, når det kommer til betalte abonnementer og unikke brugere. dens hjemmeside, SZ.de, når ud til mere end 15 millioner månedlige unikke brugere fra oktober 2021.

Takket være smarte højttalere og podcasts har lydindustrien oplevet et sandt boom de seneste år. På Süddeutsche Zeitung, vi leder konstant efter nye måder at gøre vores mangfoldige journalistik endnu mere tilgængelig. Som pionerer inden for digital journalistik ønsker vi at åbne op for flere muligheder for Süddeutsche Zeitung læsere til at forbruge artikler. Vi begyndte at lede efter løsninger, der kunne give lydfortælling i høj kvalitet til vores artikler. Vores ultimative mål var at lancere en "lyt til artiklen"-funktion.

I dette indlæg deler vi, hvordan vi optimerede vores lydfortællingsproces med Amazon Polly, en tjeneste, der vender tekst til virkelighedstro tale ved hjælp af avancerede deep learning-teknologier.

Hvorfor Amazon Polly?

Vi tror, at Vicki, den tyske neurale Amazon Polly stemme, er i øjeblikket den bedste tyske stemme på markedet. Amazon Polly tilbyder den imponerende funktion til skift mellem sprog, korrekt udtale af f.eks. engelske filmtitler samt personlige navne på forskellige sprog (lyt for eksempel til artiklen Schall og Wahn på vores hjemmeside).

En stor del af vores infrastruktur kører allerede på AWS, så ved hjælp af Amazon Polly var en perfekt pasform. Vi kan kombinere Amazon Polly med følgende komponenter:

An Amazon Simple Notification Service (Amazon SNS) emne, som vi kan abonnere på for artikler. Artiklerne sendes til dette emne af CMS, når de bliver gemt af en redaktør.
An Amazon CloudFront distribution med Lambda@Edge til paywall premium-artikler, som vi kan genbruge til lydversioner af artikler.

Amazon Polly API er nem at bruge og veldokumenteret. Det tog os mindre end en uge at få vores proof of concept til at fungere.

Udfordringen

Hundredvis af nye artikler publiceres hver dag på SZ.de. Efter den første udgivelse kan de blive opdateret flere gange af forskellige årsager - nye afsnit tilføjes i nyhedsdrevne artikler, tastefejl rettes, teasere ændres, eller metadata er optimeret til søgemaskiner.

At generere tale til den første udgivelse af en artikel er ligetil, fordi hele teksten skal syntetiseres. Men hvordan kan vi hurtigt generere lyden til opdaterede versioner af artikler uden at betale to gange for det samme indhold? Vores største udfordring var at undgå at sende hele teksten til Amazon Polly gentagne gange for hver enkelt opdatering.

Vores tekniske løsning

Hver gang en redaktør gemmer en artikel, udgives den nye version af artiklen til et SNS-emne. An AWS Lambda funktion abonnerer på dette emne og kaldes for hver ny version af en artikel. Denne funktion kører følgende trin:

Tjek, om den nye version af artiklen allerede er blevet fuldstændig syntetiseret. Hvis det er tilfældet, stopper funktionen med det samme (dette kan ske, når kun metadata ændres, som ikke påvirker lyden).
Konverter artiklen til flere SSML dokumenter, cirka én for hvert tekstafsnit.
For hvert SSML-dokument kontrollerer funktionen, om det allerede er syntetiseret til lyd ved hjælp af beregnede hashes. For eksempel:
1. Hvis en artikel gemmes for første gang, skal alle SSML-dokumenter syntetiseres.
2. Hvis en tastefejl er blevet rettet i et enkelt afsnit, skal kun SSML-dokumentet for dette afsnit syntetiseres igen.
3. Hvis et nyt afsnit tilføjes til artiklen, skal kun SSML-dokumentet for dette nye afsnit syntetiseres.
Send alle endnu ikke-syntetiserede SSML-dokumenter separat til Amazon Polly.

Disse kontroller hjælper med at optimere ydeevnen og reducere omkostningerne ved at forhindre syntesen af en hel artikel flere gange. Vi undgår at pådrage os yderligere gebyrer på grund af mindre ændringer såsom en titelredigering eller metadatajusteringer af SEO-årsager.

Følgende diagram illustrerer løsningens arbejdsgang.

Efter at Amazon Polly har syntetiseret SSML-dokumenterne, sendes lydfilerne til en output-bøtte i Amazon Simple Storage Service (Amazon S3). En anden Lambda-funktion lytter efter objektoprettelse på den bøtte, venter på færdiggørelsen af alle lydfragmenter af en artikel og fletter dem til en endelig lydfil ved hjælp af FFmpeg fra et lambdalag. Denne endelige lyd sendes til en anden S3-bøtte, som bruges som oprindelse i vores CloudFront-distribution. I CloudFront genbruger vi en eksisterende betalingsmur til premium-artikler til den tilsvarende lydversion.

Baseret på vores freemium-model leverer vi en forkortet lydversion af premium-artikler. Ikke-abonnenter er i stand til at lytte til det første afsnit gratis, men er forpligtet til at købe et abonnement for at få adgang til hele artiklen.

Konklusion

Integration af Amazon Polly i vores eksisterende infrastruktur var meget ligetil. Vores indhold kræver minimal tilpasning, fordi vi kun inkluderer afsnit og nogle ekstra pauser. Den mest udfordrende del var ydelses- og omkostningsoptimering, som vi opnåede ved at dele artiklen op i flere SSML-dokumenter svarende til afsnit, tjekke for ændringer i hvert SSML-dokument og bygge hele lydfilen ved at flette fragmenterne. Med disse optimeringer er vi i stand til at opnå følgende:

Reducer mængden af syntetiserede tegn med mindst 50 % ved kun at syntetisere reelle ændringer.
Reducer den tid, det tager for en ændring i artikelteksten at blive vist i lyden, fordi der er mindre lyd at syntetisere.
Tilføj vilkårlige lydfiler mellem afsnit uden at gensyntetisere hele artiklen. For eksempel kan vi inkludere en lydfil i den forkortede lydversion af en premium-artikel for at adskille det første afsnit fra den efterfølgende note om, at et abonnement er nødvendigt for at lytte til den fulde version.

I den første måned efter lanceringen af "lyt til artiklen"-funktionen i vores SZ.de-artikler, modtog vi en masse positive brugerfeedback. Vi var i stand til at nå ud til næsten 30,000 brugere i løbet af de første 2 måneder efter lanceringen. Fra disse brugere konverterede cirka 200 til et betalt abonnement kun ved at lytte til teaseren af en artikel bag vores betalingsmur. Funktionen "lyt til artiklen" er ikke bag vores betalingsmur, men brugere kan kun lytte til premium-artikler fuldt ud, hvis de har et abonnement. Vores hjemmeside tilbyder også gratis artikler uden betalingsmur. I fremtiden vil vi udvide funktionen til andre SZ-platforme, især vores mobile nyhedsapps.

Om forfatteren

Jakob Kohl er softwareudvikler hos Süddeutsche Zeitung, hvor han nyder at arbejde med moderne teknologier på et agilt webstedsteam. Han er en af hovedudviklerne af funktionen "lyt til en SZ-artikel". I sin fritid kan han godt lide at bygge træmøbler, hvor teknisk og visuelt design er lige så vigtigt som i webudvikling.

Tidsstempel: Februar 11, 2022

Tidsstempel: Oktober 23, 2023

Genudgivet af Platon

Sådan udvides funktionaliteten af AWS Trainium med brugerdefinerede operatører

Udnyttelse af kunstig intelligens og maskinlæring hos Parsons med AWS DeepRacer

Introduktion af popularitetsjustering for lignende varer i Amazon Personalize | Amazon Web Services

Hjernetumorsegmentering i skala ved hjælp af AWS Inferentia

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto