Wie die Süddeutsche Zeitung ihren Audio-Erzählprozess mit Amazon Polly PlatoBlockchain Data Intelligence optimierte. Vertikale Suche. Ai.

Wie die Süddeutsche Zeitung ihren Audio-Erzählprozess mit Amazon Polly optimierte

Dies ist ein Gastbeitrag von Jakob Kohl, Softwareentwickler bei der Süddeutschen Zeitung. Die Süddeutsche Zeitung ist eine der führenden Qualitätstageszeitungen in Deutschland, wenn es um kostenpflichtige Abonnements und Unique User geht. Seine Webseite, Sz.de, erreicht ab Oktober 15 mehr als 2021 Millionen Unique User pro Monat.

Dank Smart Speakers und Podcasts hat die Audiobranche in den letzten Jahren einen regelrechten Boom erlebt. Bei Süddeutsche Zeitungsuchen wir ständig nach neuen Wegen, unseren vielfältigen Journalismus noch zugänglicher zu machen. Als Pioniere im digitalen Journalismus wollen wir mehr Möglichkeiten für eröffnen Süddeutsche Zeitung Leser, um Artikel zu konsumieren. Wir begannen mit der Suche nach Lösungen, die qualitativ hochwertige Audiokommentare für unsere Artikel bieten könnten. Unser ultimatives Ziel war es, eine Funktion zum Anhören des Artikels zu starten.

In diesem Beitrag teilen wir mit, wie wir unseren Audiokommentarprozess mit Amazon Polly optimiert haben, einem Dienst, der sich dreht Text in lebensechte Sprache unter Verwendung fortschrittlicher Deep-Learning-Technologien.

Warum Amazon Polly?

Wir glauben, dass Vicki, die deutsche Neuralistin Stimme von Amazon Polly, ist derzeit die beste deutsche Stimme auf dem Markt. Amazon Polly bietet die beeindruckende Funktion an zwischen Sprachen wechseln, zum Beispiel englische Filmtitel sowie Personennamen in verschiedenen Sprachen richtig auszusprechen (zum Beispiel den Artikel anhören Schall und Wahn auf unserer Website).

Ein großer Teil unserer Infrastruktur läuft also bereits auf AWS mit Amazon Polly hat perfekt gepasst. Wir können Amazon Polly mit folgenden Komponenten kombinieren:

  • An Amazon Simple Notification Service (Amazon SNS) Thema, zu dem wir Artikel abonnieren können. Die Artikel werden vom CMS immer dann an dieses Thema gesendet, wenn sie von einem Redakteur gespeichert werden.
  • An Amazon CloudFront Verteilung mit Lambda@Edge zu Paywall-Premiumartikeln, die wir für Audioversionen von Artikeln wiederverwenden können.

Das Amazon Polly-API ist einfach zu bedienen und gut dokumentiert. Wir haben weniger als eine Woche gebraucht, um unseren Proof of Concept zum Laufen zu bringen.

Die Herausforderung

Auf SZ.de werden täglich Hunderte neuer Artikel veröffentlicht. Nach der Erstveröffentlichung können sie aus verschiedenen Gründen mehrmals aktualisiert werden – neue Absätze werden in nachrichtengesteuerten Artikeln hinzugefügt, Tippfehler werden behoben, Teaser werden geändert oder Metadaten werden für Suchmaschinen optimiert.

Das Generieren von Sprache für die Erstveröffentlichung eines Artikels ist unkompliziert, da der gesamte Text synthetisiert werden muss. Aber wie können wir schnell das Audio für aktualisierte Versionen von Artikeln generieren, ohne zweimal für denselben Inhalt zu bezahlen? Unsere größte Herausforderung bestand darin, zu verhindern, dass für jedes einzelne Update der gesamte Text wiederholt an Amazon Polly gesendet wird.

Unsere technische Lösung

Jedes Mal, wenn ein Redakteur einen Artikel speichert, wird die neue Version des Artikels in einem SNS-Thema veröffentlicht. Ein AWS Lambda Funktion wird auf dieses Thema abonniert und für jede neue Version eines Artikels aufgerufen. Diese Funktion führt die folgenden Schritte aus:

  1. Überprüfen Sie, ob die neue Version des Artikels bereits vollständig synthetisiert wurde. Wenn dies der Fall ist, stoppt die Funktion sofort (dies kann passieren, wenn nur Metadaten geändert werden, die sich nicht auf das Audio auswirken).
  2. Wandeln Sie den Artikel in mehrere um SSML-Dokumente, ungefähr eine für jeden Textabsatz.
  3. Die Funktion prüft für jedes SSML-Dokument, ob es bereits mithilfe berechneter Hashes zu Audio synthetisiert wurde. Zum Beispiel:
    1. Wenn ein Artikel zum ersten Mal gespeichert wird, müssen alle SSML-Dokumente synthetisiert werden.
    2. Wenn ein Tippfehler in einem einzelnen Absatz behoben wurde, muss nur das SSML-Dokument für diesen Absatz neu synthetisiert werden.
    3. Wenn dem Artikel ein neuer Absatz hinzugefügt wird, muss nur das SSML-Dokument für diesen neuen Absatz synthetisiert werden.
  4. Senden Sie alle noch nicht synthetisierten SSML-Dokumente separat an Amazon Polly.

Diese Prüfungen helfen, die Leistung zu optimieren und die Kosten zu senken, indem die mehrfache Synthese eines ganzen Artikels verhindert wird. Wir vermeiden zusätzliche Kosten durch geringfügige Änderungen wie eine Titelbearbeitung oder Metadatenanpassungen aus SEO-Gründen.

Das folgende Diagramm veranschaulicht den Lösungsworkflow.

Wie die Süddeutsche Zeitung ihren Audio-Erzählprozess mit Amazon Polly PlatoBlockchain Data Intelligence optimierte. Vertikale Suche. Ai.

Nachdem Amazon Polly die SSML-Dokumente synthetisiert hat, werden die Audiodateien an einen Ausgabe-Bucket in gesendet Amazon Simple Storage-Service (Amazon S3). Eine zweite Lambda-Funktion überwacht die Objekterstellung in diesem Bucket, wartet auf die Fertigstellung aller Audiofragmente eines Artikels und fügt sie mithilfe von zu einer endgültigen Audiodatei zusammen FFmpeg aus einer Lambda-Schicht. Dieses letzte Audio wird an einen anderen S3-Bucket gesendet, der als Ursprung in unserer CloudFront-Verteilung verwendet wird. In CloudFront verwenden wir eine bestehende Paywall für Premium-Artikel für die entsprechende Audioversion wieder.

Basierend auf unserem Freemium-Modell bieten wir eine gekürzte Audio-Version von Premium-Artikeln an. Nicht-Abonnenten können den ersten Absatz kostenlos anhören, müssen jedoch ein Abonnement erwerben, um auf den vollständigen Artikel zugreifen zu können.

Zusammenfassung

Die Integration von Amazon Polly in unsere bestehende Infrastruktur war sehr einfach. Unser Inhalt erfordert nur eine minimale Anpassung, da wir nur Absätze und einige zusätzliche Unterbrechungen einfügen. Der herausforderndste Teil war die Leistungs- und Kostenoptimierung, die wir erreichten, indem wir den Artikel in mehrere SSML-Dokumente entsprechend den Absätzen aufteilten, jedes SSML-Dokument auf Änderungen überprüften und die gesamte Audiodatei durch Zusammenführen der Fragmente erstellten. Mit diesen Optimierungen können wir Folgendes erreichen:

  • Reduzieren Sie die Menge der synthetisierten Zeichen um mindestens 50 %, indem Sie nur echte Änderungen synthetisieren.
  • Reduzieren Sie die Zeit, die es dauert, bis eine Änderung im Artikeltext im Audio erscheint, da weniger Audio synthetisiert werden muss.
  • Fügen Sie beliebige Audiodateien zwischen den Absätzen hinzu, ohne den gesamten Artikel neu zu synthetisieren. Beispielsweise können wir in die gekürzte Audioversion eines Premium-Artikels eine Tondatei einfügen, um den ersten Absatz von dem nachfolgenden Hinweis zu trennen, dass zum Anhören der Vollversion ein Abonnement erforderlich ist.

Im ersten Monat nach dem Start der „Artikel anhören“-Funktion in unseren SZ.de-Artikeln haben wir sehr viel positives Nutzer-Feedback erhalten. Wir konnten in den ersten 30,000 Monaten nach dem Start fast 2 Benutzer erreichen. Von diesen Benutzern wurden ungefähr 200 nur durch das Anhören des Teasers eines Artikels hinter unserer Paywall in ein kostenpflichtiges Abonnement umgewandelt. Die Funktion „Artikel anhören“ befindet sich nicht hinter unserer Paywall, aber Benutzer können Premium-Artikel nur vollständig anhören, wenn sie ein Abonnement haben. Unsere Website bietet auch kostenlose Artikel ohne Paywall an. In Zukunft werden wir das Feature auf andere SZ-Plattformen ausweiten, insbesondere auf unsere mobilen Nachrichten-Apps.


Über den Autor

Wie die Süddeutsche Zeitung ihren Audio-Erzählprozess mit Amazon Polly PlatoBlockchain Data Intelligence optimierte. Vertikale Suche. Ai.Jakob Kohl ist Softwareentwickler bei der Süddeutschen Zeitung, wo er gerne mit modernen Technologien in einem agilen Website-Team arbeitet. Er ist einer der Hauptentwickler der Funktion „SZ-Artikel anhören“. In seiner Freizeit baut er gerne Holzmöbel, wobei technisches und visuelles Design ebenso wichtig sind wie in der Webentwicklung.

Zeitstempel:

Mehr von AWS Maschinelles Lernen