कैसे Süddeutsche Zeitung ने Amazon Poly . के साथ अपनी ऑडियो वर्णन प्रक्रिया को अनुकूलित किया

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

यह Süddeutsche Zeitung के एक सॉफ़्टवेयर डेवलपर, जैकब कोहल की अतिथि पोस्ट है। Süddeutsche Zeitung जर्मनी में अग्रणी गुणवत्ता वाले दैनिक समाचार पत्रों में से एक है जब भुगतान सदस्यता और अद्वितीय उपयोगकर्ताओं की बात आती है। इसकी वेबसाइट, Sz.de, अक्टूबर 15 तक 2021 मिलियन से अधिक मासिक अद्वितीय उपयोगकर्ताओं तक पहुँचता है।

स्मार्ट स्पीकर और पॉडकास्ट के लिए धन्यवाद, ऑडियो उद्योग ने हाल के वर्षों में एक वास्तविक उछाल का अनुभव किया है। पर Süddeutsche Zeitung, हम अपनी विविध पत्रकारिता को और भी अधिक सुलभ बनाने के लिए लगातार नए तरीके खोज रहे हैं। डिजिटल पत्रकारिता में अग्रणी के रूप में, हम इसके लिए और अवसर खोलना चाहते हैं Süddeutsche Zeitung पाठकों को लेखों का उपभोग करने के लिए। हमने ऐसे समाधानों की तलाश शुरू की जो हमारे लेखों के लिए उच्च-गुणवत्ता वाले ऑडियो कथन प्रदान कर सकें। हमारा अंतिम लक्ष्य "लेख को सुनें" सुविधा शुरू करना था।

इस पोस्ट में, हम साझा करते हैं कि हमने अमेज़ॅन पोली के साथ अपनी ऑडियो वर्णन प्रक्रिया को कैसे अनुकूलित किया, एक सेवा जो बदल जाती है आजीवन भाषण में पाठ उन्नत गहन शिक्षण तकनीकों का उपयोग करना।

अमेज़न पोली क्यों?

हम मानते हैं कि विकी, जर्मन तंत्रिका अमेज़न पोली आवाज, वर्तमान में बाजार पर सबसे अच्छी जर्मन आवाज है। अमेज़ॅन पोली प्रभावशाली सुविधा प्रदान करता है भाषाओं के बीच स्विच करें, उदाहरण के लिए अंग्रेजी फिल्म के शीर्षक के साथ-साथ अलग-अलग भाषाओं में व्यक्तिगत नामों का सही उच्चारण करना (उदाहरण के लिए, लेख को सुनें) शाल अंड वाहनो हमारी वेबसाइट पर)।

हमारे बुनियादी ढांचे का एक बड़ा हिस्सा पहले से ही एडब्ल्यूएस पर चलता है, इसलिए अमेज़न पोली का उपयोग करना एकदम फिट था। हम अमेज़ॅन पोली को निम्नलिखित घटकों के साथ जोड़ सकते हैं:

An अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) विषय जिस पर हम लेखों के लिए सदस्यता ले सकते हैं। जब भी लेख किसी संपादक द्वारा सहेजे जाते हैं तो सीएमएस द्वारा इस विषय पर लेख भेजे जाते हैं।
An अमेज़न CloudFront के साथ वितरण लैम्ब्डा@एज प्रीमियम लेखों का भुगतान करने के लिए, जिन्हें हम लेखों के ऑडियो संस्करणों के लिए पुन: उपयोग कर सकते हैं।

RSI अमेज़न पोली एपीआई उपयोग में आसान और अच्छी तरह से प्रलेखित है। हमारी अवधारणा का प्रमाण काम करने में हमें एक सप्ताह से भी कम समय लगा।

चुनौती

SZ.de पर प्रतिदिन सैकड़ों नए लेख प्रकाशित होते हैं। प्रारंभिक प्रकाशन के बाद, वे विभिन्न कारणों से कई बार अपडेट हो सकते हैं- समाचार-संचालित लेखों में नए पैराग्राफ जोड़े जाते हैं, टाइपो को ठीक किया जाता है, टीज़र बदल दिए जाते हैं, या मेटाडेटा को खोज इंजन के लिए अनुकूलित किया जाता है।

किसी लेख के प्रारंभिक प्रकाशन के लिए भाषण तैयार करना सीधा है, क्योंकि पूरे पाठ को संश्लेषित करने की आवश्यकता होती है। लेकिन हम एक ही सामग्री के लिए दो बार भुगतान किए बिना लेखों के अद्यतन संस्करणों के लिए ऑडियो कैसे जल्दी से उत्पन्न कर सकते हैं? हमारी सबसे बड़ी चुनौती थी कि हर एक अपडेट के लिए पूरे टेक्स्ट को बार-बार अमेज़न पोली को भेजने से रोका जाए।

हमारा तकनीकी समाधान

जब भी कोई संपादक किसी लेख को सहेजता है, लेख का नया संस्करण किसी SNS विषय पर प्रकाशित किया जाता है। एक AWS लाम्बा फ़ंक्शन को इस विषय की सदस्यता दी गई है और एक लेख के हर नए संस्करण के लिए कहा जाता है। यह फ़ंक्शन निम्न चरणों को चलाता है:

जांचें कि क्या लेख का नया संस्करण पहले ही पूरी तरह से संश्लेषित किया जा चुका है। यदि ऐसा है, तो फ़ंक्शन तुरंत बंद हो जाता है (ऐसा तब हो सकता है जब केवल मेटाडेटा बदल दिया जाता है जो ऑडियो को प्रभावित नहीं करता है)।
लेख को एकाधिक में बदलें एसएसएमएल दस्तावेज, प्रत्येक पाठ अनुच्छेद के लिए मोटे तौर पर एक।
प्रत्येक SSML दस्तावेज़ के लिए, फ़ंक्शन जाँचता है कि क्या यह पहले से ही परिकलित हैश का उपयोग करके ऑडियो में संश्लेषित किया गया है। उदाहरण के लिए:
1. यदि कोई लेख पहली बार सहेजा जाता है, तो सभी SSML दस्तावेज़ों को संश्लेषित किया जाना चाहिए।
2. अगर एक पैराग्राफ में टाइपो को ठीक किया गया है, तो इस पैराग्राफ के लिए केवल एसएसएमएल दस्तावेज़ को फिर से संश्लेषित किया जाना चाहिए।
3. यदि लेख में एक नया अनुच्छेद जोड़ा जाता है, तो इस नए अनुच्छेद के लिए केवल SSML दस्तावेज़ को संश्लेषित किया जाना चाहिए।
सभी अभी तक संश्लेषित SSML दस्तावेज़ अलग से Amazon Poly को भेजें।

ये जांच प्रदर्शन को अनुकूलित करने में मदद करते हैं और एक पूरे लेख के संश्लेषण को कई बार रोककर लागत को कम करते हैं। हम एसईओ कारणों से शीर्षक संपादन या मेटाडेटा समायोजन जैसे मामूली परिवर्तनों के कारण अतिरिक्त शुल्क लेने से बचते हैं।

निम्न आरेख समाधान वर्कफ़्लो दिखाता है।

Amazon Poly द्वारा SSML दस्तावेज़ों को संश्लेषित करने के बाद, ऑडियो फ़ाइलों को आउटपुट बकेट में भेजा जाता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3)। दूसरा लैम्ब्डा फ़ंक्शन उस बाल्टी पर ऑब्जेक्ट निर्माण के लिए सुन रहा है, एक लेख के सभी ऑडियो अंशों के पूरा होने की प्रतीक्षा करता है, और उन्हें अंतिम ऑडियो फ़ाइल में विलय कर देता है लैम्ब्डा परत से FFmpeg. यह अंतिम ऑडियो दूसरे S3 बकेट में भेजा जाता है, जिसका उपयोग हमारे CloudFront वितरण में मूल के रूप में किया जाता है। क्लाउडफ्रंट में, हम संबंधित ऑडियो संस्करण के लिए प्रीमियम लेखों के लिए मौजूदा पेवॉल का पुन: उपयोग करते हैं।

हमारे फ्रीमियम मॉडल के आधार पर, हम प्रीमियम लेखों का संक्षिप्त ऑडियो संस्करण प्रदान करते हैं। गैर-सदस्य पहले पैराग्राफ को मुफ्त में सुनने में सक्षम हैं, लेकिन पूरे लेख तक पहुंचने के लिए सदस्यता खरीदने की आवश्यकता है।

निष्कर्ष

हमारे मौजूदा बुनियादी ढांचे में अमेज़ॅन पोली का एकीकरण बहुत सीधा था। हमारी सामग्री को न्यूनतम अनुकूलन की आवश्यकता है क्योंकि हम केवल पैराग्राफ और कुछ अतिरिक्त ब्रेक शामिल करते हैं। सबसे चुनौतीपूर्ण हिस्सा प्रदर्शन और लागत अनुकूलन था, जिसे हमने अनुच्छेदों के अनुरूप कई एसएसएमएल दस्तावेज़ों में विभाजित करके, प्रत्येक एसएसएमएल दस्तावेज़ में परिवर्तनों की जांच करके, और टुकड़ों को मर्ज करके संपूर्ण ऑडियो फ़ाइल का निर्माण करके हासिल किया। इन अनुकूलन के साथ, हम निम्नलिखित हासिल करने में सक्षम हैं:

केवल वास्तविक परिवर्तनों को संश्लेषित करके संश्लेषित वर्णों की मात्रा को कम से कम 50% तक कम करें।
लेख के पाठ में बदलाव के लिए ऑडियो में दिखने में लगने वाले समय को कम करें क्योंकि संश्लेषित करने के लिए कम ऑडियो है।
पूरे लेख को फिर से संश्लेषित किए बिना अनुच्छेदों के बीच मनमानी ऑडियो फ़ाइलें जोड़ें। उदाहरण के लिए, हम पहले पैराग्राफ को आगामी नोट से अलग करने के लिए एक प्रीमियम लेख के संक्षिप्त ऑडियो संस्करण में एक ध्वनि फ़ाइल शामिल कर सकते हैं कि पूर्ण संस्करण को सुनने के लिए सदस्यता की आवश्यकता है।

हमारे SZ.de लेखों में "लेख को सुनें" सुविधा के लॉन्च के बाद पहले महीने में, हमें बहुत सकारात्मक उपयोगकर्ता प्रतिक्रिया मिली। लॉन्च के बाद पहले 30,000 महीनों के दौरान हम लगभग 2 उपयोगकर्ताओं तक पहुंचने में सफल रहे। इन उपयोगकर्ताओं से, लगभग 200 केवल हमारे पेवॉल के पीछे एक लेख के टीज़र को सुनने से सशुल्क सदस्यता में परिवर्तित हो गए। "लेख को सुनें" सुविधा हमारे पेवॉल के पीछे नहीं है, लेकिन उपयोगकर्ता केवल प्रीमियम लेखों को पूरी तरह से सुन सकते हैं यदि उनके पास सदस्यता है। हमारी वेबसाइट पेवॉल के बिना भी मुफ्त लेख प्रदान करती है। भविष्य में, हम इस सुविधा का विस्तार अन्य SZ प्लेटफार्मों, विशेष रूप से हमारे मोबाइल समाचार ऐप में करेंगे।

लेखक के बारे में

जैकब कोहली Süddeutsche Zeitung में एक सॉफ्टवेयर डेवलपर हैं, जहां उन्हें एक चुस्त वेबसाइट टीम पर आधुनिक तकनीकों के साथ काम करने में आनंद आता है। वह "एक SZ लेख सुनें" सुविधा के मुख्य डेवलपर्स में से एक है। अपने ख़ाली समय में, वह लकड़ी के फ़र्नीचर का निर्माण करना पसंद करते हैं, जहाँ तकनीकी और दृश्य डिज़ाइन उतना ही महत्वपूर्ण है जितना कि वेब विकास में।

समय टिकट: फ़रवरी 11, 2022

समय टिकट: अक्टूबर 23, 2023

प्लेटो द्वारा पुनर्प्रकाशित

कस्टम ऑपरेटरों के साथ AWS ट्रेनियम की कार्यक्षमता को कैसे बढ़ाया जाए

AWS DeepRacer के साथ पार्सन्स में कृत्रिम बुद्धिमत्ता और मशीन लर्निंग का लाभ उठाना

अमेज़ॅन पर्सनलाइज़ में समान-आइटम के लिए लोकप्रियता ट्यूनिंग का परिचय | अमेज़न वेब सेवाएँ

एडब्ल्यूएस इन्फरेंटिया का उपयोग करके बड़े पैमाने पर ब्रेन ट्यूमर विभाजन

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा