Kuinka Süddeutsche Zeitung optimoi ääniselostusprosessinsa Amazon Polly PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Kuinka Süddeutsche Zeitung optimoi ääniselostusprosessinsa Amazon Pollyn avulla

Tämä on Süddeutsche Zeitungin ohjelmistokehittäjä Jakob Kohlin vieraspostaus. Süddeutsche Zeitung on yksi Saksan johtavista laatulehdistä maksullisten tilausten ja yksittäisten käyttäjien suhteen. Sen verkkosivu, SZ.de, tavoittaa yli 15 miljoonaa kuukausittaista yksittäistä käyttäjää lokakuusta 2021 lähtien.

Älykaiuttimien ja podcastien ansiosta ääniteollisuus on kokenut todellisen nousukauden viime vuosina. klo Süddeutsche Zeitung, etsimme jatkuvasti uusia tapoja tehdä monipuolisesta journalismistamme entistä helpompaa. Digitaalisen journalismin edelläkävijöinä haluamme avata lisää mahdollisuuksia Süddeutsche Zeitung lukijat voivat käyttää artikkeleita. Aloimme etsiä ratkaisuja, jotka voisivat tarjota korkealaatuista äänikerrontaa artikkeleihimme. Lopullinen tavoitteemme oli käynnistää "kuuntele artikkeli" -ominaisuus.

Tässä viestissä jaamme kuinka optimoimme äänikerronnan prosessimme Amazon Polly -palvelun kanssa, joka kääntyy tekstin eläväksi puheeksi käyttämällä kehittyneitä syväoppimistekniikoita.

Miksi Amazon Polly?

Uskomme, että Vicki, saksalainen hermo Amazon Pollyn ääni, on tällä hetkellä markkinoiden paras saksalainen ääni. Amazon Polly tarjoaa vaikuttavan ominaisuuden vaihtaa kieltä, ääntää oikein esimerkiksi englanninkieliset elokuvien nimet sekä henkilönimet eri kielillä (kuuntele esimerkiksi artikkeli Schall und Wahn verkkosivuillamme).

Suuri osa infrastruktuuristamme toimii jo AWS:llä, joten käyttämällä Amazon Pollya oli täydellinen istuvuus. Voimme yhdistää Amazon Pollyn seuraaviin komponentteihin:

- Amazon Polly API on helppokäyttöinen ja hyvin dokumentoitu. Kesti alle viikon saada konseptitodistus toimimaan.

Haaste

SZ.de:ssä julkaistaan ​​päivittäin satoja uusia artikkeleita. Alkujulkaisun jälkeen niitä voidaan päivittää useita kertoja eri syistä – uutisaiheisiin artikkeleihin lisätään uusia kappaleita, korjataan kirjoitusvirheitä, muutetaan teasereita tai metatiedot on optimoitu hakukoneita varten.

Puheen tuottaminen artikkelin alkujulkaisua varten on yksinkertaista, koska koko teksti on syntetisoitava. Mutta kuinka voimme luoda nopeasti äänen artikkeleiden päivitetyille versioille maksamatta kahdesti samasta sisällöstä? Suurin haasteemme oli estää koko tekstin lähettäminen Amazon Pollylle toistuvasti jokaisen päivityksen yhteydessä.

Tekninen ratkaisumme

Joka kerta kun toimittaja tallentaa artikkelin, artikkelin uusi versio julkaistaan ​​SNS-aiheeseen. An AWS Lambda toiminto on tilattu tähän aiheeseen ja sitä kutsutaan jokaista artikkelin uutta versiota varten. Tämä toiminto suorittaa seuraavat vaiheet:

  1. Tarkista, onko artikkelin uusi versio jo syntetisoitu kokonaan. Jos näin on, toiminto pysähtyy välittömästi (tämä voi tapahtua, kun vain metatietoja muutetaan, jotka eivät vaikuta ääneen).
  2. Muunna artikkeli useiksi SSML-asiakirjoja, suunnilleen yksi jokaiselle tekstikappaleelle.
  3. Jokaisen SSML-dokumentin kohdalla funktio tarkistaa, onko se jo syntetisoitu ääneksi laskettujen hajautusarvojen avulla. Esimerkiksi:
    1. Jos artikkeli tallennetaan ensimmäistä kertaa, kaikki SSML-asiakirjat on syntetisoitava.
    2. Jos kirjoitusvirhe on korjattu yhdessä kappaleessa, vain tämän kappaleen SSML-dokumentti on syntetisoitava uudelleen.
    3. Jos artikkeliin lisätään uusi kappale, vain tämän uuden kappaleen SSML-dokumentti on syntetisoitava.
  4. Lähetä kaikki vielä syntetisoimattomat SSML-asiakirjat erikseen Amazon Pollylle.

Nämä tarkistukset auttavat optimoimaan suorituskykyä ja vähentämään kustannuksia estämällä koko artikkelin synteesin useita kertoja. Vältämme ylimääräisiä kuluja pienistä muutoksista, kuten otsikon muokkauksesta tai hakukoneoptimoinnin syistä tehdyistä metatietojen muutoksista.

Seuraava kaavio kuvaa ratkaisun työnkulkua.

Kuinka Süddeutsche Zeitung optimoi ääniselostusprosessinsa Amazon Polly PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Kun Amazon Polly on syntetisoinut SSML-asiakirjat, äänitiedostot lähetetään lähtöämpäriin Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Toinen Lambda-toiminto kuuntelee objektin luomista kyseisessä säilössä, odottaa kaikkien artikkelin ääniosien valmistumista ja yhdistää ne lopulliseksi äänitiedostoksi käyttämällä FFmpeg lambda-kerroksesta. Tämä lopullinen ääni lähetetään toiseen S3-säihöön, jota käytetään CloudFront-jakelumme alkuperänä. CloudFrontissa käytämme uudelleen olemassa olevaa maksumuurin premium-artikkeleita vastaavalle ääniversiolle.

Freemium-mallimme perusteella tarjoamme lyhennetyn ääniversion premium-artikkeleista. Muut kuin tilaajat voivat kuunnella ensimmäisen kappaleen ilmaiseksi, mutta heidän on ostettava tilaus päästäkseen koko artikkeliin.

Yhteenveto

Amazon Pollyn integrointi olemassa olevaan infrastruktuuriimme oli erittäin yksinkertaista. Sisältömme vaatii vain vähän muokkausta, koska se sisältää vain kappaleita ja joitain lisäkatkoja. Haastavin osa oli suorituskyvyn ja kustannusten optimointi, jonka saimme jakamalla artikkelin useisiin kappaleita vastaaviin SSML-dokumentteihin, tarkistamalla kunkin SSML-dokumentin muutokset ja rakentamalla koko äänitiedoston yhdistämällä fragmentit. Näillä optimoinnilla voimme saavuttaa seuraavat:

  • Vähennä syntetisoitujen merkkien määrää vähintään 50 % syntetisoimalla vain todellisia muutoksia.
  • Lyhennä aikaa, joka kuluu artikkelin tekstin muutoksen ilmestymiseen äänessä, koska syntetisoitavaa ääntä on vähemmän.
  • Lisää mielivaltaisia ​​äänitiedostoja kappaleiden väliin syntetisoimatta koko artikkelia uudelleen. Voimme esimerkiksi sisällyttää äänitiedoston premium-artikkeleiden lyhennettyyn ääniversioon erottaaksemme ensimmäisen kappaleen sitä seuraavasta huomautuksesta, jonka mukaan täyden version kuunteleminen edellyttää tilausta.

Ensimmäisen kuukauden aikana "kuuntele artikkeli" -ominaisuuden julkaisun jälkeen SZ.de-artikkeleissamme saimme paljon positiivista palautetta käyttäjiltä. Pystyimme tavoittamaan lähes 30,000 2 käyttäjää kahden ensimmäisen kuukauden aikana julkaisun jälkeen. Näistä käyttäjistä noin 200 muuttui maksulliseksi tilaukseksi vain kuunnellessaan maksumuurin takana olevan artikkelin teaseria. "Kuuntele artikkeli" -ominaisuus ei ole maksumuurin takana, mutta käyttäjät voivat kuunnella premium-artikkeleita kokonaan vain, jos heillä on tilaus. Sivustomme tarjoaa myös ilmaisia ​​artikkeleita ilman maksumuuria. Tulevaisuudessa laajennamme ominaisuutta muille SZ-alustoille, erityisesti mobiiliuutissovelluksiimme.


kirjailijasta

Kuinka Süddeutsche Zeitung optimoi ääniselostusprosessinsa Amazon Polly PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Jakob Kohl on ohjelmistokehittäjä Süddeutsche Zeitungissa, jossa hän nauttii työskentelystä modernin teknologian parissa ketterässä verkkosivustotiimissä. Hän on yksi "kuuntele SZ-artikkelia" -ominaisuuden pääkehittäjistä. Vapaa-ajallaan hän pitää puuhuonekalujen rakentamisesta, jossa tekninen ja visuaalinen suunnittelu on yhtä tärkeää kuin verkkokehityksessä.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen