Hogyan optimalizálta a Süddeutsche Zeitung hangos narrációs folyamatát az Amazon Polly PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Hogyan optimalizálta a Süddeutsche Zeitung hangos narrációs folyamatát az Amazon Polly segítségével

Ez Jakob Kohl, a Süddeutsche Zeitung szoftverfejlesztőjének vendégbejegyzése. A Süddeutsche Zeitung Németország egyik vezető minőségi napilapja, ami a fizetős előfizetéseket és az egyedi felhasználókat illeti. A honlapja, SZ.de, 15 októberétől havonta több mint 2021 millió egyedi felhasználót ér el.

Az intelligens hangszóróknak és podcastoknak köszönhetően az audioipar igazi fellendülésen ment keresztül az elmúlt években. Nál nél Süddeutsche Zeitung, folyamatosan új utakat keresünk, hogy sokszínű újságírásunkat még elérhetőbbé tegyük. A digitális újságírás úttörőiként több lehetőséget szeretnénk nyitni a számára Süddeutsche Zeitung cikkeket fogyasztani. Elkezdtük keresni azokat a megoldásokat, amelyek kiváló minőségű hangos narrációt biztosítanak cikkeinkhez. Végső célunk az volt, hogy elindítsuk a „cikk meghallgatása” funkciót.

Ebben a bejegyzésben megosztjuk, hogyan optimalizáltuk hangos narrációs folyamatunkat az Amazon Polly szolgáltatással, amely megfordul szöveget élethű beszédté fejlett mély tanulási technológiák használatával.

Miért az Amazon Polly?

Úgy gondoljuk, hogy Vicki, a német neurális Amazon Polly hangja, jelenleg a legjobb német hang a piacon. Az Amazon Polly ezt a lenyűgöző funkciót kínálja váltson a nyelvek között, helyesen kiejti például az angol filmcímeket, valamint a személyneveket különböző nyelveken (például hallgassa meg a cikket Schall und Wahn honlapunkon).

Infrastruktúránk nagy része már AWS-en fut, tehát az Amazon Polly használatával tökéletes illeszkedés volt. Az Amazon Polly-t a következő összetevőkkel kombinálhatjuk:

  • An Amazon Simple Notification Service (Amazon SNS) témában, amelyhez feliratkozhatunk cikkekre. A cikkeket a CMS küldi el ebbe a témába, amikor egy szerkesztő elmenti őket.
  • An Amazon CloudFront elosztással Lambda@Edge fizetőfal prémium cikkekhez, amelyeket újra felhasználhatunk a cikkek hangos változataihoz.

A Amazon Polly API könnyen használható és jól dokumentált. Kevesebb, mint egy hétbe telt, mire működésbe hoztuk a koncepciót.

A kihívás

Naponta több száz új cikk jelenik meg az SZ.de-n. A kezdeti közzététel után különböző okok miatt többször is frissülhetnek – új bekezdések kerülnek be a hírvezérelt cikkekbe, kijavítják az elírásokat, módosulnak a kedvcsinálók, vagy a metaadatokat keresőmotorokhoz optimalizálják.

Egy cikk kezdeti közzétételéhez beszédet generálni egyszerű, mivel a teljes szöveget szintetizálni kell. De hogyan hozhatunk létre gyorsan hangot a cikkek frissített verzióihoz anélkül, hogy kétszer fizetnénk ugyanazért a tartalomért? A legnagyobb kihívás az volt, hogy megakadályozzuk, hogy minden egyes frissítésnél ismételten elküldjük a teljes szöveget az Amazon Pollynak.

Műszaki megoldásunk

Minden alkalommal, amikor egy szerkesztő elment egy cikket, a cikk új verziója megjelenik egy SNS-témában. An AWS Lambda funkció feliratkozott erre a témára, és egy cikk minden új verziója esetén meghívásra kerül. Ez a funkció a következő lépéseket hajtja végre:

  1. Ellenőrizze, hogy a cikk új verzióját már teljesen szintetizálták-e. Ha igen, a funkció azonnal leáll (ez akkor fordulhat elő, ha csak a hangot nem befolyásoló metaadatok módosulnak).
  2. Konvertálja a cikket többszörössé SSML dokumentumok, nagyjából egy minden szöveges bekezdéshez.
  3. A függvény minden egyes SSML-dokumentum esetében ellenőrzi, hogy azt már szintetizálták-e hangra a számított hashek segítségével. Például:
    1. Ha egy cikket első alkalommal mentünk el, az összes SSML-dokumentumot szintetizálni kell.
    2. Ha egyetlen bekezdésben javítottak egy elírást, csak az ehhez a bekezdéshez tartozó SSML-dokumentumot kell újra szintetizálni.
    3. Ha új bekezdést adnak a cikkhez, akkor csak az új bekezdéshez tartozó SSML-dokumentumot kell szintetizálni.
  4. Az összes még nem szintetizált SSML-dokumentumot külön küldje el az Amazon Pollynak.

Ezek az ellenőrzések segítenek optimalizálni a teljesítményt és csökkenteni a költségeket azáltal, hogy többször is megakadályozzák a teljes cikk szintézisét. Elkerüljük a további költségeket az olyan apró változtatások miatt, mint például a címszerkesztés vagy a metaadatok SEO okokból történő módosítása.

A következő ábra a megoldás munkafolyamatát mutatja be.

Hogyan optimalizálta a Süddeutsche Zeitung hangos narrációs folyamatát az Amazon Polly PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Miután az Amazon Polly szintetizálja az SSML dokumentumokat, az audiofájlok egy kimeneti tárolóba kerülnek Amazon egyszerű tárolási szolgáltatás (Amazon S3). A második Lambda-függvény az objektum létrehozását figyeli az adott gyűjtőhelyen, megvárja a cikk összes hangrészletének befejezését, majd egyesíti őket egy végső hangfájlba a FFmpeg egy lambda rétegből. Ezt a végső hangot egy másik S3 tárolóba küldjük, amely forrásként szolgál a CloudFront-terjesztésünkben. A CloudFrontban újra felhasználunk egy meglévő fizetőfalat a megfelelő audioverzió prémium cikkeinek megjelenítéséhez.

Freemium modellünk alapján prémium cikkek rövidített hangos változatát biztosítjuk. A nem előfizetők ingyenesen meghallgathatják az első bekezdést, de a teljes cikk eléréséhez előfizetést kell vásárolniuk.

Következtetés

Az Amazon Polly integrálása meglévő infrastruktúránkba nagyon egyszerű volt. Tartalmunk minimális testreszabást igényel, mert csak bekezdéseket és néhány további törést adunk meg. A legnagyobb kihívást a teljesítmény- és költségoptimalizálás jelentette, amit úgy értünk el, hogy a cikket több, bekezdéseknek megfelelő SSML-dokumentumra bontottuk, minden egyes SSML-dokumentumban ellenőriztük a változásokat, és a töredékek egyesítésével felépítettük a teljes hangfájlt. Ezekkel az optimalizálásokkal a következőket tudjuk elérni:

  • Csökkentse a szintetizált karakterek számát legalább 50%-kal, ha csak valódi változásokat szintetizál.
  • Csökkentse azt az időt, amely alatt a cikk szövegének módosítása megjelenik a hanganyagban, mert kevesebb a szintetizálandó hanganyag.
  • Adjon hozzá tetszőleges hangfájlokat a bekezdések között a teljes cikk újraszintetizálása nélkül. Például beilleszthetünk egy hangfájlt a prémium cikkek rövidített audioverziójába, hogy elkülönítsük az első bekezdést az azt követő megjegyzéstől, amely szerint a teljes verzió meghallgatásához előfizetés szükséges.

Az SZ.de cikkeinkben található „cikk meghallgatása” funkció elindítása utáni első hónapban sok pozitív felhasználói visszajelzést kaptunk. Közel 30,000 2 felhasználót tudtunk elérni az indulást követő első 200 hónapban. Ezektől a felhasználóktól körülbelül XNUMX-an váltak fizetős előfizetéssé csak abból, hogy meghallgatták egy cikk előzetesét a fizetőfalunk mögött. A „cikk meghallgatása” funkció nem található a fizetőfalunk mögött, de a felhasználók csak akkor hallgathatják meg teljes mértékben a prémium cikkeket, ha előfizetéssel rendelkeznek. Weboldalunk ingyenes cikkeket is kínál fizetőfal nélkül. A jövőben kiterjesztjük a funkciót más SZ-platformokra, különösen a mobil híralkalmazásainkra.


A szerzőről

Hogyan optimalizálta a Süddeutsche Zeitung hangos narrációs folyamatát az Amazon Polly PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Jakob Kohl a Süddeutsche Zeitung szoftverfejlesztője, ahol szívesen dolgozik a modern technológiákkal egy agilis webhelycsapatban. Ő az egyik fő fejlesztője a „hallgatni egy SZ cikket” funkciónak. Szabadidejében szívesen épít fabútorokat, ahol a technikai és látványtervezés ugyanolyan fontos, mint a webfejlesztésben.

Időbélyeg:

Még több AWS gépi tanulás