Kako je Süddeutsche Zeitung optimiziral svoj proces zvočnega pripovedovanja z Amazon Polly PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Kako je Süddeutsche Zeitung optimiziral svoj proces zvočnega pripovedovanja z Amazon Polly

To je gostujoča objava Jakoba Kohla, razvijalca programske opreme pri Süddeutsche Zeitung. Süddeutsche Zeitung je eden vodilnih kakovostnih dnevnikov v Nemčiji, ko gre za plačljive naročnine in edinstvene uporabnike. Svojo spletno stran, SZ.de, od oktobra 15 doseže več kot 2021 milijonov edinstvenih uporabnikov mesečno.

Zahvaljujoč pametnim zvočnikom in podcastom je avdio industrija v zadnjih letih doživela pravi razcvet. pri Süddeutsche Zeitung, nenehno iščemo nove načine, kako narediti naše raznoliko novinarstvo še bolj dostopno. Kot pionirji v digitalnem novinarstvu želimo odpreti več priložnosti za Süddeutsche Zeitung bralci za uživanje člankov. Začeli smo iskati rešitve, ki bi lahko zagotovile visokokakovostno zvočno pripovedovanje naših člankov. Naš končni cilj je bil lansirati funkcijo »poslušaj članek«.

V tej objavi delimo, kako smo optimizirali naš postopek zvočnega pripovedovanja z Amazon Polly, storitvijo, ki se spremeni besedilo v realen govor z uporabo naprednih tehnologij globokega učenja.

Zakaj Amazon Polly?

Verjamemo, da je Vicki, nemška živčna Glas Amazonke Polly, je trenutno najboljši nemški glas na trgu. Amazon Polly ponuja impresivno funkcijo za preklapljanje med jeziki, pravilno izgovorjavo na primer angleških naslovov filmov kot tudi osebnih imen v različnih jezikih (za primer poslušajte članek Schall und Wahn na naši spletni strani).

Velik del naše infrastrukture že deluje na AWS, torej z uporabo Amazon Polly se je odlično prilegal. Amazon Polly lahko kombiniramo z naslednjimi komponentami:

O Amazon Polly API je enostaven za uporabo in dobro dokumentiran. Potrebovali smo manj kot teden dni, da je naš dokaz koncepta deloval.

Izziv

Na SZ.de je vsak dan objavljenih na stotine novih člankov. Po prvi objavi se lahko zaradi različnih razlogov večkrat posodobijo – v članke, ki temeljijo na novicah, se dodajo novi odstavki, popravijo se tipkarske napake, spremenijo dražljivke ali metapodatki optimizirajo za iskalnike.

Ustvarjanje govora za prvo objavo članka je preprosto, saj je treba sintetizirati celotno besedilo. Toda kako lahko hitro ustvarimo zvok za posodobljene različice člankov, ne da bi plačali dvakrat za isto vsebino? Naš največji izziv je bil preprečiti ponavljajoče se pošiljanje celotnega besedila Amazon Polly za vsako posamezno posodobitev.

Naša tehnična rešitev

Vsakič, ko urednik shrani članek, se nova različica članka objavi v temi SNS. An AWS Lambda funkcija je naročena na to temo in klicana za vsako novo različico članka. Ta funkcija izvaja naslednje korake:

  1. Preverite, ali je nova različica članka že v celoti sintetizirana. Če je tako, se funkcija takoj ustavi (to se lahko zgodi, ko se spremenijo samo metapodatki, ki ne vplivajo na zvok).
  2. Pretvori člen v večkratnik dokumenti SSML, približno eno za vsak odstavek besedila.
  3. Za vsak dokument SSML funkcija preveri, ali je bil že sintetiziran v zvok z uporabo izračunanih zgoščenih vrednosti. Na primer:
    1. Če je članek shranjen prvič, je treba sintetizirati vse dokumente SSML.
    2. Če je bila tipkarska napaka popravljena v enem odstavku, je treba znova sintetizirati samo dokument SSML za ta odstavek.
    3. Če je članku dodan nov odstavek, je treba sintetizirati samo dokument SSML za ta novi odstavek.
  4. Vse dokumente SSML, ki še niso sintetizirani, pošljite ločeno na Amazon Polly.

Ta preverjanja pomagajo optimizirati delovanje in zmanjšati stroške, tako da večkrat preprečijo sintezo celotnega članka. Izognemo se dodatnim stroškom zaradi manjših sprememb, kot je urejanje naslova ali prilagoditev metapodatkov zaradi SEO.

Naslednji diagram prikazuje potek dela rešitve.

Kako je Süddeutsche Zeitung optimiziral svoj proces zvočnega pripovedovanja z Amazon Polly PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ko Amazon Polly sintetizira dokumente SSML, se zvočne datoteke pošljejo v izhodno vedro Preprosta storitev shranjevanja Amazon (Amazon S3). Druga funkcija Lambda posluša ustvarjanje objekta na tem vedru, čaka na dokončanje vseh zvočnih fragmentov članka in jih združi v končno zvočno datoteko z uporabo FFmpeg iz sloja Lambda. Ta končni zvok se pošlje v drugo vedro S3, ki se uporablja kot izvor v naši distribuciji CloudFront. V CloudFrontu ponovno uporabimo obstoječ plačilni zid za premium članke za ustrezno zvočno različico.

Na podlagi našega freemium modela nudimo skrajšano zvočno različico premium člankov. Nenaročniki lahko prvi odstavek poslušajo brezplačno, vendar se morajo za dostop do celotnega članka naročiti.

zaključek

Integracija Amazon Polly v našo obstoječo infrastrukturo je bila zelo enostavna. Naša vsebina zahteva minimalno prilagajanje, ker vključujemo le odstavke in nekaj dodatnih prelomov. Najzahtevnejši del je bila optimizacija zmogljivosti in stroškov, kar smo dosegli z razdelitvijo članka na več dokumentov SSML, ki ustrezajo odstavkom, preverjanjem sprememb v vsakem dokumentu SSML in izdelavo celotne zvočne datoteke z združitvijo fragmentov. S temi optimizacijami lahko dosežemo naslednje:

  • Zmanjšajte količino sintetiziranih znakov za najmanj 50 % tako, da sintetizirate samo prave spremembe.
  • Skrajšajte čas, ki je potreben, da se sprememba besedila članka prikaže v zvoku, ker je manj zvoka za sintetiziranje.
  • Dodajte poljubne zvočne datoteke med odstavke brez ponovne sintetizacije celotnega članka. Na primer, lahko vključimo zvočno datoteko v skrajšano zvočno različico premium člankov, da ločimo prvi odstavek od naslednje opombe, da je za poslušanje polne različice potrebna naročnina.

V prvem mesecu po uvedbi funkcije »poslušaj članek« v naših člankih na SZ.de smo prejeli veliko pozitivnih odzivov uporabnikov. V prvih 30,000 mesecih po lansiranju nam je uspelo doseči skoraj 2 uporabnikov. Od teh uporabnikov se jih je približno 200 pretvorilo v plačljivo naročnino samo iz poslušanja dražljivke članka za našim plačilnim zidom. Funkcija »poslušaj članek« ne stoji za našim plačilnim zidom, vendar lahko uporabniki v celoti poslušajo vrhunske članke samo, če imajo naročnino. Naše spletno mesto ponuja tudi brezplačne članke brez plačilnega zidu. V prihodnosti bomo funkcijo razširili na druge platforme SZ, zlasti na naše aplikacije za mobilne novice.


O Author

Kako je Süddeutsche Zeitung optimiziral svoj proces zvočnega pripovedovanja z Amazon Polly PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Jakob Kohl je razvijalec programske opreme pri Süddeutsche Zeitung, kjer uživa v delu s sodobnimi tehnologijami v agilni spletni ekipi. Je eden glavnih razvijalcev funkcije »poslušaj članek SZ«. V prostem času rad izdeluje leseno pohištvo, kjer je tehnično in vizualno oblikovanje enako pomembno kot pri spletnem razvoju.

Časovni žig:

Več od Strojno učenje AWS