Bagaimana Süddeutsche Zeitung Mengoptimalkan Proses Narasi Audio Mereka Dengan Amazon Polly

Diterbitkan Ulang Oleh Plato

Followers: 0

Ini adalah posting tamu oleh Jakob Kohl, Pengembang Perangkat Lunak di Süddeutsche Zeitung. Süddeutsche Zeitung adalah salah satu harian berkualitas terkemuka di Jerman dalam hal langganan berbayar dan pengguna unik. Situs webnya, SZ.de, menjangkau lebih dari 15 juta pengguna unik bulanan per Oktober 2021.

Berkat speaker pintar dan podcast, industri audio telah mengalami ledakan nyata dalam beberapa tahun terakhir. Pada Süddeutsche Zeitung, kami terus mencari cara baru untuk membuat jurnalisme kami yang beragam semakin mudah diakses. Sebagai pionir dalam jurnalisme digital, kami ingin membuka lebih banyak peluang untuk Süddeutsche Zeitung pembaca untuk mengkonsumsi artikel. Kami mulai mencari solusi yang dapat memberikan narasi audio berkualitas tinggi untuk artikel kami. Tujuan utama kami adalah meluncurkan fitur "dengarkan artikel".

Dalam posting ini, kami membagikan bagaimana kami mengoptimalkan proses narasi audio kami dengan Amazon Polly, layanan yang mengubah teks menjadi pidato yang hidup menggunakan teknologi pembelajaran mendalam yang canggih.

Mengapa Amazon Polly?

Kami percaya bahwa Vicki, saraf Jerman Suara Amazon Polly, saat ini suara Jerman terbaik di pasar. Amazon Polly menawarkan fitur yang mengesankan untuk beralih antar bahasa, mengucapkan dengan benar misalnya judul film bahasa Inggris serta nama pribadi dalam bahasa yang berbeda (misalnya, dengarkan artikelnya Schall dan Wahn di situs web kami).

Sebagian besar infrastruktur kami sudah berjalan di AWS, jadi menggunakan Amazon Polly sangat cocok. Kami dapat menggabungkan Amazon Polly dengan komponen berikut:

An Layanan Pemberitahuan Sederhana Amazon (Amazon SNS) topik tempat kita dapat berlangganan artikel. Artikel dikirim ke topik ini oleh CMS setiap kali disimpan oleh editor.
An Amazon CloudFront distribusi dengan Lambda@Edge ke artikel premium paywall, yang dapat kita gunakan kembali untuk artikel versi audio.

Grafik API Amazon Polly mudah digunakan dan didokumentasikan dengan baik. Kami membutuhkan waktu kurang dari seminggu untuk mendapatkan bukti konsep kami untuk bekerja.

Tantangan

Ratusan artikel baru diterbitkan setiap hari di SZ.de. Setelah publikasi awal, mereka mungkin diperbarui beberapa kali karena berbagai alasan—paragraf baru ditambahkan dalam artikel berbasis berita, kesalahan ketik diperbaiki, penggoda diubah, atau metadata dioptimalkan untuk mesin telusur.

Menghasilkan pidato untuk publikasi awal sebuah artikel sangat mudah, karena seluruh teks perlu disintesis. Tetapi bagaimana kita dapat dengan cepat menghasilkan audio untuk versi artikel yang diperbarui tanpa membayar dua kali untuk konten yang sama? Tantangan terbesar kami adalah mencegah pengiriman seluruh teks ke Amazon Polly berulang kali untuk setiap pembaruan.

Solusi teknis kami

Setiap kali editor menyimpan artikel, versi baru artikel tersebut akan dipublikasikan ke topik SNS. Sebuah AWS Lambda function berlangganan topik ini dan dipanggil untuk setiap versi baru artikel. Fungsi ini menjalankan langkah-langkah berikut:

Periksa apakah versi baru artikel telah sepenuhnya disintesis. Jika demikian, fungsi akan segera berhenti (ini mungkin terjadi jika hanya metadata yang diubah yang tidak memengaruhi audio).
Ubah artikel menjadi beberapa dokumen SSL, kira-kira satu untuk setiap paragraf teks.
Untuk setiap dokumen SSML, fungsi akan memeriksa apakah sudah disintesis ke audio menggunakan hash terhitung. Sebagai contoh:
1. Jika artikel disimpan untuk pertama kalinya, semua dokumen SSML harus disintesis.
2. Jika kesalahan ketik telah diperbaiki dalam satu paragraf, hanya dokumen SSML untuk paragraf ini yang harus disintesis ulang.
3. Jika paragraf baru ditambahkan ke artikel, hanya dokumen SSML untuk paragraf baru ini yang harus disintesis.
Kirim semua dokumen SSML yang belum disintesis secara terpisah ke Amazon Polly.

Pemeriksaan ini membantu mengoptimalkan kinerja dan mengurangi biaya dengan mencegah sintesis seluruh artikel beberapa kali. Kami menghindari dikenakan biaya tambahan karena perubahan kecil seperti pengeditan judul atau penyesuaian metadata untuk alasan SEO.

Diagram berikut mengilustrasikan alur kerja solusi.

Setelah Amazon Polly mensintesis dokumen SSML, file audio dikirim ke keranjang keluaran di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Fungsi Lambda kedua mendengarkan pembuatan objek pada bucket itu, menunggu penyelesaian semua fragmen audio artikel, dan menggabungkannya menjadi file audio akhir menggunakan FFmpeg dari lapisan Lambda. Audio terakhir ini dikirim ke bucket S3 lain, yang digunakan sebagai asal dalam distribusi CloudFront kami. Di CloudFront, kami menggunakan kembali paywall yang ada untuk artikel premium untuk versi audio yang sesuai.

Berdasarkan model freemium kami, kami menyediakan versi audio singkat dari artikel premium. Non-pelanggan dapat mendengarkan paragraf pertama secara gratis, tetapi diharuskan membeli langganan untuk mengakses artikel lengkap.

Kesimpulan

Integrasi Amazon Polly ke dalam infrastruktur kami yang ada sangat mudah. Konten kami memerlukan penyesuaian minimal karena kami hanya menyertakan paragraf dan beberapa jeda tambahan. Bagian yang paling menantang adalah optimalisasi kinerja dan biaya, yang kami capai dengan membagi artikel menjadi beberapa dokumen SSML yang sesuai dengan paragraf, memeriksa perubahan di setiap dokumen SSML, dan membangun seluruh file audio dengan menggabungkan fragmen. Dengan pengoptimalan ini, kami dapat mencapai hal berikut:

Kurangi jumlah karakter yang disintesis setidaknya 50% dengan hanya mensintesis perubahan nyata.
Kurangi waktu yang diperlukan agar perubahan teks artikel muncul di audio karena lebih sedikit audio yang akan disintesis.
Tambahkan file audio sewenang-wenang di antara paragraf tanpa mensintesis ulang seluruh artikel. Misalnya, kami dapat menyertakan file suara dalam versi audio singkat dari artikel premium untuk memisahkan paragraf pertama dari catatan berikutnya bahwa langganan diperlukan untuk mendengarkan versi lengkapnya.

Pada bulan pertama setelah peluncuran fitur "dengarkan artikel" di artikel SZ.de kami, kami menerima banyak umpan balik positif dari pengguna. Kami dapat menjangkau hampir 30,000 pengguna selama 2 bulan pertama setelah peluncuran. Dari pengguna ini, sekitar 200 dikonversi menjadi langganan berbayar hanya dari mendengarkan teaser artikel di balik paywall kami. Fitur "dengarkan artikel" tidak ada di balik paywall kami, tetapi pengguna hanya dapat mendengarkan artikel premium sepenuhnya jika mereka berlangganan. Situs web kami juga menawarkan artikel gratis tanpa paywall. Di masa mendatang, kami akan memperluas fitur ini ke platform SZ lainnya, terutama aplikasi berita seluler kami.

tentang Penulis

Jakob Kohl adalah Pengembang Perangkat Lunak di Süddeutsche Zeitung, tempat ia senang bekerja dengan teknologi modern di tim situs web yang gesit. Dia adalah salah satu pengembang utama fitur "mendengarkan artikel SZ". Di waktu senggangnya, ia suka membangun furnitur kayu, di mana desain teknis dan visual sama pentingnya dengan pengembangan web.

Stempel Waktu: Februari 11, 2022

Stempel Waktu: Oktober 23, 2023

Diterbitkan Ulang Oleh Plato

Cara memperluas fungsionalitas AWS Trainium dengan operator khusus

Memanfaatkan kecerdasan buatan dan pembelajaran mesin di Parsons dengan AWS DeepRacer

Memperkenalkan penyetelan popularitas untuk Item-Serupa di Amazon Personalize | Layanan Web Amazon

Segmentasi tumor otak dalam skala besar menggunakan AWS Inferentia

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun