Πώς η Süddeutsche Zeitung βελτιστοποίησε τη διαδικασία αφήγησης ήχου με το Amazon Polly PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Πώς η Süddeutsche Zeitung βελτιστοποίησε τη διαδικασία ακουστικής αφήγησης με το Amazon Polly

Αυτή είναι μια guest post από τον Jakob Kohl, έναν προγραμματιστή λογισμικού στη Süddeutsche Zeitung. Η Süddeutsche Zeitung είναι μία από τις κορυφαίες ποιοτικές καθημερινές εφημερίδες στη Γερμανία όσον αφορά τις συνδρομές επί πληρωμή και τους μοναδικούς χρήστες. Η ιστοσελίδα της, SZ.de, προσεγγίζει περισσότερους από 15 εκατομμύρια μηνιαίους μοναδικούς χρήστες από τον Οκτώβριο του 2021.

Χάρη στα έξυπνα ηχεία και τα podcast, η βιομηχανία ήχου γνώρισε πραγματική άνθηση τα τελευταία χρόνια. Στο Süddeutsche Zeitung, αναζητούμε συνεχώς νέους τρόπους για να κάνουμε την ποικιλόμορφη δημοσιογραφία μας ακόμα πιο προσιτή. Ως πρωτοπόροι στην ψηφιακή δημοσιογραφία, θέλουμε να ανοίξουμε περισσότερες ευκαιρίες Süddeutsche Zeitung αναγνώστες να καταναλώνουν άρθρα. Αρχίσαμε να αναζητούμε λύσεις που θα μπορούσαν να παρέχουν υψηλής ποιότητας ηχητική αφήγηση για τα άρθρα μας. Ο απώτερος στόχος μας ήταν να λανσάρουμε μια λειτουργία "ακρόαση του άρθρου".

Σε αυτήν την ανάρτηση, μοιραζόμαστε πώς βελτιστοποιήσαμε τη διαδικασία αφήγησης ήχου με το Amazon Polly, μια υπηρεσία που γυρίζει κείμενο σε ζωντανή ομιλία χρησιμοποιώντας προηγμένες τεχνολογίες βαθιάς μάθησης.

Γιατί Amazon Polly;

Πιστεύουμε ότι η Βίκυ, η γερμανική νευρική Φωνή Amazon Polly, είναι αυτή τη στιγμή η καλύτερη γερμανική φωνή στην αγορά. Το Amazon Polly προσφέρει την εντυπωσιακή δυνατότητα σε εναλλαγή μεταξύ γλωσσών, προφέροντας σωστά, για παράδειγμα, τίτλους αγγλικών ταινιών καθώς και προσωπικά ονόματα σε διαφορετικές γλώσσες (για παράδειγμα, ακούστε το άρθρο Schall und Wahn στην ιστοσελίδα μας).

Ένα μεγάλο μέρος της υποδομής μας λειτουργεί ήδη σε AWS, έτσι χρησιμοποιώντας το Amazon Polly ήταν τέλεια εφαρμογή. Μπορούμε να συνδυάσουμε το Amazon Polly με τα ακόλουθα στοιχεία:

  • An Υπηρεσία απλών ειδοποιήσεων Amazon (Amazon SNS) θέμα στο οποίο μπορούμε να εγγραφούμε για άρθρα. Τα άρθρα αποστέλλονται σε αυτό το θέμα από το CMS κάθε φορά που αποθηκεύονται από έναν συντάκτη.
  • An Amazon CloudFront διανομή με Lambda@Edge σε άρθρα premium paywall, τα οποία μπορούμε να χρησιμοποιήσουμε ξανά για ηχητικές εκδόσεις άρθρων.

Η Amazon Polly API είναι εύκολο στη χρήση και καλά τεκμηριωμένο. Μας πήρε λιγότερο από μια εβδομάδα για να λειτουργήσει η απόδειξη της ιδέας.

Η πρόκληση

Εκατοντάδες νέα άρθρα δημοσιεύονται καθημερινά στο SZ.de. Μετά την αρχική δημοσίευσή τους, ενδέχεται να ενημερωθούν πολλές φορές για διάφορους λόγους—προστίθενται νέες παράγραφοι σε άρθρα που βασίζονται σε ειδήσεις, διορθώνονται τυπογραφικά λάθη, αλλάζουν τα teaser ή βελτιστοποιούνται τα μεταδεδομένα για τις μηχανές αναζήτησης.

Η δημιουργία ομιλίας για την αρχική δημοσίευση ενός άρθρου είναι απλή, γιατί χρειάζεται σύνθεση ολόκληρου του κειμένου. Αλλά πώς μπορούμε να δημιουργήσουμε γρήγορα τον ήχο για ενημερωμένες εκδόσεις άρθρων χωρίς να πληρώσουμε δύο φορές για το ίδιο περιεχόμενο; Η μεγαλύτερη πρόκληση ήταν να αποτρέψουμε την επανειλημμένη αποστολή ολόκληρου του κειμένου στο Amazon Polly για κάθε ενημέρωση.

Η τεχνική μας λύση

Κάθε φορά που ένας συντάκτης αποθηκεύει ένα άρθρο, η νέα έκδοση του άρθρου δημοσιεύεται σε ένα θέμα SNS. Ενα AWS Lambda Η συνάρτηση είναι εγγεγραμμένη σε αυτό το θέμα και καλείται για κάθε νέα έκδοση ενός άρθρου. Αυτή η λειτουργία εκτελεί τα ακόλουθα βήματα:

  1. Ελέγξτε εάν η νέα έκδοση του άρθρου έχει ήδη συντεθεί πλήρως. Εάν ναι, η λειτουργία σταματά αμέσως (αυτό μπορεί να συμβεί όταν αλλάζουν μόνο μεταδεδομένα που δεν επηρεάζουν τον ήχο).
  2. Μετατρέψτε το άρθρο σε πολλαπλό Έγγραφα SSML, περίπου ένα για κάθε παράγραφο κειμένου.
  3. Για κάθε έγγραφο SSML, η συνάρτηση ελέγχει εάν έχει ήδη συντεθεί σε ήχο χρησιμοποιώντας υπολογισμένους κατακερματισμούς. Για παράδειγμα:
    1. Εάν ένα άρθρο αποθηκεύεται για πρώτη φορά, πρέπει να γίνει σύνθεση όλων των εγγράφων SSML.
    2. Εάν έχει επιδιορθωθεί ένα τυπογραφικό λάθος σε μία παράγραφο, μόνο το έγγραφο SSML για αυτήν την παράγραφο πρέπει να επανασυντεθεί.
    3. Εάν προστεθεί μια νέα παράγραφος στο άρθρο, πρέπει να συντεθεί μόνο το έγγραφο SSML για αυτήν τη νέα παράγραφο.
  4. Στείλτε όλα τα έγγραφα SSML που δεν έχουν ακόμη συντεθεί ξεχωριστά στο Amazon Polly.

Αυτοί οι έλεγχοι συμβάλλουν στη βελτιστοποίηση της απόδοσης και στη μείωση του κόστους αποτρέποντας τη σύνθεση ολόκληρου του αντικειμένου πολλές φορές. Αποφεύγουμε την επιβολή πρόσθετων χρεώσεων λόγω μικρών αλλαγών, όπως τροποποίηση τίτλου ή προσαρμογές μεταδεδομένων για λόγους SEO.

Το παρακάτω διάγραμμα απεικονίζει τη ροή εργασιών επίλυσης.

Πώς η Süddeutsche Zeitung βελτιστοποίησε τη διαδικασία αφήγησης ήχου με το Amazon Polly PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αφού το Amazon Polly συνθέσει τα έγγραφα SSML, τα αρχεία ήχου αποστέλλονται σε έναν κάδο εξόδου στο Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3). Μια δεύτερη συνάρτηση Lambda ακούει τη δημιουργία αντικειμένων σε αυτόν τον κάδο, περιμένει την ολοκλήρωση όλων των τμημάτων ήχου ενός άρθρου και τα συγχωνεύει σε ένα τελικό αρχείο ήχου χρησιμοποιώντας FFmpeg από ένα στρώμα λάμδα. Αυτός ο τελικός ήχος αποστέλλεται σε έναν άλλο κάδο S3, ο οποίος χρησιμοποιείται ως η αρχή στη διανομή μας στο CloudFront. Στο CloudFront, επαναχρησιμοποιούμε ένα υπάρχον paywall για premium άρθρα για την αντίστοιχη έκδοση ήχου.

Με βάση το μοντέλο freemium που διαθέτουμε, παρέχουμε μια συντομευμένη έκδοση ήχου άρθρων υψηλής ποιότητας. Οι μη συνδρομητές μπορούν να ακούσουν την πρώτη παράγραφο δωρεάν, αλλά απαιτείται να αγοράσουν μια συνδρομή για να έχουν πρόσβαση στο πλήρες άρθρο.

Συμπέρασμα

Η ενσωμάτωση του Amazon Polly στην υπάρχουσα υποδομή μας ήταν πολύ απλή. Το περιεχόμενό μας απαιτεί ελάχιστη προσαρμογή, επειδή συμπεριλαμβάνουμε μόνο παραγράφους και μερικά επιπλέον διαλείμματα. Το πιο δύσκολο κομμάτι ήταν η απόδοση και η βελτιστοποίηση κόστους, την οποία πετύχαμε χωρίζοντας το άρθρο σε πολλαπλά έγγραφα SSML που αντιστοιχούν σε παραγράφους, ελέγχοντας για αλλαγές σε κάθε έγγραφο SSML και δημιουργώντας ολόκληρο το αρχείο ήχου συγχωνεύοντας τα τμήματα. Με αυτές τις βελτιστοποιήσεις, είμαστε σε θέση να επιτύχουμε τα ακόλουθα:

  • Μειώστε την ποσότητα των χαρακτήρων που συντίθενται κατά τουλάχιστον 50% συνθέτοντας μόνο πραγματικές αλλαγές.
  • Μειώστε το χρόνο που χρειάζεται για να εμφανιστεί μια αλλαγή στο κείμενο του άρθρου στον ήχο επειδή υπάρχει λιγότερος ήχος για σύνθεση.
  • Προσθέστε αυθαίρετα αρχεία ήχου μεταξύ των παραγράφων χωρίς να συνθέσετε ξανά ολόκληρο το άρθρο. Για παράδειγμα, μπορούμε να συμπεριλάβουμε ένα αρχείο ήχου στη συντομευμένη έκδοση ήχου ενός premium άρθρων για να διαχωρίσουμε την πρώτη παράγραφο από τη σημείωση που ακολουθεί ότι απαιτείται συνδρομή για να ακούσετε την πλήρη έκδοση.

Τον πρώτο μήνα μετά την κυκλοφορία της δυνατότητας "ακούστε το άρθρο" στα άρθρα μας στο SZ.de, λάβαμε πολλά θετικά σχόλια από τους χρήστες. Καταφέραμε να προσεγγίσουμε σχεδόν 30,000 χρήστες τους πρώτους 2 μήνες μετά την κυκλοφορία. Από αυτούς τους χρήστες, περίπου 200 μετατράπηκαν σε συνδρομή επί πληρωμή μόνο από την ακρόαση του teaser ενός άρθρου πίσω από το paywall μας. Η δυνατότητα "ακρόαση του άρθρου" δεν βρίσκεται πίσω από το paywall μας, αλλά οι χρήστες μπορούν να ακούν πλήρως άρθρα premium μόνο εάν έχουν συνδρομή. Ο ιστότοπός μας προσφέρει επίσης δωρεάν άρθρα χωρίς paywall. Στο μέλλον, θα επεκτείνουμε τη δυνατότητα σε άλλες πλατφόρμες SZ, ειδικά στις εφαρμογές ειδήσεων για κινητά.


Σχετικά με το Συγγραφέας

Πώς η Süddeutsche Zeitung βελτιστοποίησε τη διαδικασία αφήγησης ήχου με το Amazon Polly PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Jakob Kohl είναι προγραμματιστής λογισμικού στη Süddeutsche Zeitung, όπου του αρέσει να εργάζεται με σύγχρονες τεχνολογίες σε μια ευέλικτη ομάδα ιστοτόπων. Είναι ένας από τους κύριους προγραμματιστές της δυνατότητας "ακρόαση άρθρου SZ". Στον ελεύθερο χρόνο του, του αρέσει να κατασκευάζει ξύλινα έπιπλα, όπου η τεχνική και οπτική σχεδίαση είναι εξίσου σημαντική με την ανάπτυξη ιστού.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS