كيف قامت Süddeutsche Zeitung بتحسين عملية السرد الصوتي باستخدام Amazon Polly PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

كيف حسَّنت Süddeutsche Zeitung عملية السرد الصوتي باستخدام Amazon Polly

هذا منشور ضيف بواسطة Jakob Kohl ، مطور برامج في Süddeutsche Zeitung. Süddeutsche Zeitung هي واحدة من الصحف اليومية الرائدة في ألمانيا عندما يتعلق الأمر بالاشتراكات المدفوعة والمستخدمين الفريدين. موقعها على شبكة الإنترنت ، SZ.de، تصل إلى أكثر من 15 مليون مستخدم فريد شهريًا اعتبارًا من أكتوبر 2021.

بفضل مكبرات الصوت والبودكاست الذكية ، شهدت صناعة الصوت طفرة حقيقية في السنوات الأخيرة. في زود دويتشه تسايتونغ، نحن نبحث باستمرار عن طرق جديدة لجعل صحافتنا المتنوعة أكثر سهولة. كرواد في الصحافة الرقمية ، نريد فتح المزيد من الفرص لـ زود دويتشه تسايتونغ القراء لاستهلاك المقالات. بدأنا في البحث عن حلول يمكن أن توفر سردًا صوتيًا عالي الجودة لمقالاتنا. كان هدفنا النهائي هو إطلاق ميزة "الاستماع إلى المقالة".

في هذا المنشور ، نشارك كيف قمنا بتحسين عملية السرد الصوتي مع Amazon Polly ، وهي خدمة تتحول تحويل النص إلى كلام نابض بالحياة باستخدام تقنيات التعلم العميق المتقدمة.

لماذا أمازون بولي؟

نعتقد أن فيكي ، الألماني العصبي صوت أمازون بولي، هو حاليًا أفضل صوت ألماني في السوق. يقدم Amazon Polly ميزة رائعة لـ التبديل بين اللغات، النطق الصحيح على سبيل المثال عناوين الأفلام الإنجليزية وكذلك الأسماء الشخصية بلغات مختلفة (على سبيل المثال ، الاستماع إلى المقالة شال وواهن على موقعنا).

يعمل جزء كبير من بنيتنا التحتية بالفعل على AWS ، لذلك باستخدام أمازون بولي كان مناسبًا تمامًا. يمكننا دمج Amazon Polly مع المكونات التالية:

  • An خدمة إعلام أمازون البسيطة (Amazon SNS) موضوع يمكننا الاشتراك فيه للحصول على مقالات. يتم إرسال المقالات إلى هذا الموضوع عن طريق نظام إدارة المحتوى متى تم حفظها بواسطة محرر.
  • An الأمازون CloudFront التوزيع مع لامدا @ الحافة لمقالات مدفوعة الأجر المدفوعة ، والتي يمكننا إعادة استخدامها للإصدارات الصوتية من المقالات.

أمازون بولي API سهل الاستخدام وموثق جيدًا. لقد استغرق الأمر منا أقل من أسبوع حتى يتم تفعيل إثبات المفهوم لدينا.

التحدي

يتم نشر مئات المقالات الجديدة كل يوم على موقع SZ.de. بعد النشر الأولي ، قد يتم تحديثها عدة مرات لأسباب مختلفة - تتم إضافة فقرات جديدة في المقالات التي تستند إلى الأخبار ، أو إصلاح الأخطاء الإملائية ، أو تغيير الجمل المحفزة ، أو تحسين البيانات الوصفية لمحركات البحث.

إن توليد الكلام للنشر الأولي لمقال ما هو أمر مباشر ، لأن النص بأكمله يحتاج إلى توليف. ولكن كيف يمكننا إنشاء الصوت بسرعة للإصدارات المحدثة من المقالات دون دفع مرتين مقابل نفس المحتوى؟ كان التحدي الأكبر الذي واجهناه هو منع إرسال النص بالكامل إلى Amazon Polly بشكل متكرر لكل تحديث.

الحل التقني لدينا

في كل مرة يحفظ فيها محرر مقالاً ، يتم نشر الإصدار الجديد من المقالة في موضوع على مواقع التواصل الاجتماعي. ان AWS لامدا وظيفة مشتركة في هذا الموضوع ويتم استدعاؤها لكل إصدار جديد من المقالة. تعمل هذه الوظيفة بالخطوات التالية:

  1. تحقق مما إذا كان الإصدار الجديد من المقالة قد تم توليفه بالكامل بالفعل. إذا كان الأمر كذلك ، تتوقف الوظيفة على الفور (قد يحدث هذا فقط عند تغيير البيانات الوصفية التي لا تؤثر على الصوت).
  2. تحويل المادة إلى متعددة مستندات SSML، واحد تقريبًا لكل فقرة نصية.
  3. لكل مستند SSML ، تتحقق الوظيفة مما إذا كان قد تم توليفها بالفعل مع الصوت باستخدام التجزئة المحسوبة. علي سبيل المثال:
    1. إذا تم حفظ مقال لأول مرة ، فيجب تركيب جميع مستندات SSML.
    2. إذا تم إصلاح خطأ مطبعي في فقرة واحدة ، فيجب إعادة تركيب مستند SSML لهذه الفقرة فقط.
    3. إذا تمت إضافة فقرة جديدة إلى المقالة ، فيجب تركيب مستند SSML لهذه الفقرة الجديدة فقط.
  4. أرسل جميع مستندات SSML التي لم يتم توليفها بعد بشكل منفصل إلى Amazon Polly.

تساعد عمليات التحقق هذه في تحسين الأداء وتقليل التكلفة عن طريق منع تركيب مقالة كاملة عدة مرات. نتجنب تكبد رسوم إضافية بسبب تغييرات طفيفة مثل تعديل العنوان أو تعديلات البيانات الوصفية لأسباب تحسين محركات البحث.

يوضح الرسم البياني التالي سير عمل الحل.

كيف قامت Süddeutsche Zeitung بتحسين عملية السرد الصوتي باستخدام Amazon Polly PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد أن يقوم Amazon Polly بتجميع مستندات SSML ، يتم إرسال الملفات الصوتية إلى حاوية الإخراج بتنسيق خدمة تخزين أمازون البسيطة (أمازون S3). وظيفة Lambda الثانية هي الاستماع لإنشاء كائن على ذلك الحاوية ، وتنتظر إكمال جميع الأجزاء الصوتية لمقال ما ، وتدمجها في ملف صوتي نهائي باستخدام FFmpeg من طبقة Lambda. يتم إرسال هذا الصوت النهائي إلى حاوية S3 أخرى ، والتي تُستخدم كأصل في توزيع CloudFront الخاص بنا. في CloudFront ، نعيد استخدام نظام حظر الاشتراك غير المدفوع حاليًا للمقالات المتميزة لإصدار الصوت المقابل.

استنادًا إلى نموذج freemium الخاص بنا ، نقدم نسخة صوتية مختصرة من المقالات المتميزة. يمكن لغير المشتركين الاستماع إلى الفقرة الأولى مجانًا ، ولكن يتعين عليهم شراء اشتراك للوصول إلى المقالة الكاملة.

وفي الختام

كان دمج Amazon Polly في بنيتنا التحتية الحالية أمرًا سهلاً للغاية. يتطلب المحتوى الخاص بنا الحد الأدنى من التخصيص لأننا نقوم فقط بتضمين الفقرات وبعض الفواصل الإضافية. كان الجزء الأكثر تحديًا هو تحسين الأداء والتكلفة ، والذي حققناه من خلال تقسيم المقالة إلى مستندات SSML متعددة تتوافق مع الفقرات ، والتحقق من التغييرات في كل مستند SSML ، وبناء ملف الصوت بالكامل عن طريق دمج الأجزاء. من خلال هذه التحسينات ، يمكننا تحقيق ما يلي:

  • قلل عدد الأحرف المركبة بنسبة 50٪ على الأقل عن طريق توليف التغييرات الحقيقية فقط.
  • قلل الوقت الذي يستغرقه ظهور تغيير في نص المقالة في الصوت نظرًا لوجود صوت أقل لتجميعه.
  • أضف ملفات صوتية عشوائية بين الفقرات دون إعادة تركيب المقالة بأكملها. على سبيل المثال ، يمكننا تضمين ملف صوتي في النسخة الصوتية المختصرة لمقالات متميزة لفصل الفقرة الأولى عن الملاحظة التالية التي تفيد بضرورة الاشتراك للاستماع إلى النسخة الكاملة.

في الشهر الأول بعد إطلاق ميزة "الاستماع إلى المقالة" في مقالات SZ.de ، تلقينا الكثير من تعليقات المستخدمين الإيجابية. تمكنا من الوصول إلى ما يقرب من 30,000 ألف مستخدم خلال أول شهرين بعد الإطلاق. من هؤلاء المستخدمين ، تم تحويل ما يقرب من 2 منهم إلى اشتراك مدفوع فقط من الاستماع إلى دعابة لمقال خلف نظام حظر الاشتراك غير المدفوع لدينا. ميزة "الاستماع إلى المقالة" ليست وراء نظام حظر الاشتراك غير المدفوع ، ولكن لا يمكن للمستخدمين الاستماع إلى المقالات المتميزة بشكل كامل إلا إذا كان لديهم اشتراك. يقدم موقعنا الإلكتروني أيضًا مقالات مجانية بدون نظام حظر الاشتراك غير المدفوع. في المستقبل ، سنقوم بتوسيع الميزة لتشمل منصات SZ الأخرى ، وخاصة تطبيقات الأخبار على الهاتف المحمول.


عن المؤلف

كيف قامت Süddeutsche Zeitung بتحسين عملية السرد الصوتي باستخدام Amazon Polly PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جاكوب كول هو مطور برامج في Süddeutsche Zeitung ، حيث يستمتع بالعمل مع التقنيات الحديثة في فريق موقع إلكتروني رشيق. إنه أحد المطورين الرئيسيين لميزة "الاستماع إلى مقالة SZ". في أوقات فراغه ، يحب بناء الأثاث الخشبي ، حيث يكون التصميم الفني والمرئي بنفس أهمية تطوير الويب.

الطابع الزمني:

اكثر من التعلم الآلي من AWS