अमेज़ॅन पोली, एक एआई जनरेटेड टेक्स्ट-टू-स्पीच सेवा, आपको उत्पादकता में सुधार और लागत कम करने में मदद करते हुए अपने इंटरैक्टिव वॉयस सॉल्यूशंस को स्वचालित और स्केल करने में सक्षम बनाती है।
जैसा कि हमारे ग्राहक अमेज़ॅन पोली का उपयोग इसकी समृद्ध सुविधाओं और उपयोग में आसानी के लिए करना जारी रखते हैं, हमने एक साथ दिए गए टेक्स्ट इनपुट के लिए सिंक्रनाइज़ ऑडियो और उपशीर्षक या बंद कैप्शन उत्पन्न करने की क्षमता की मांग देखी है। AWS में, हम अपने ग्राहक के अनुरोध से लगातार पीछे की ओर काम करते हैं, इसलिए इस पोस्ट में, हम किसी दिए गए पाठ के लिए एक ही समय में ऑडियो और उपशीर्षक उत्पन्न करने के लिए एक विधि की रूपरेखा तैयार करते हैं।
हालांकि उपशीर्षक और उपशीर्षक अक्सर एक दूसरे के स्थान पर उपयोग किए जाते हैं, जिसमें इस पोस्ट में शामिल हैं, उनके बीच सूक्ष्म अंतर हैं:
- मूवी - उपशीर्षक में, स्क्रीन पर प्रदर्शित टेक्स्ट भाषा ऑडियो भाषा से अलग होती है और महत्वपूर्ण ध्वनियों जैसी गैर-संवाद के लिए कुछ भी प्रदर्शित नहीं करती है। प्राथमिक उद्देश्य उन दर्शकों तक पहुंचना है जो वीडियो में ऑडियो भाषा नहीं बोलते हैं।
- कैप्शन (बंद/खुला) - कैप्शन ऑडियो में बोले जा रहे संवादों को उसी भाषा में प्रदर्शित करते हैं। इसका प्राथमिक उद्देश्य उन मामलों में पहुंच बढ़ाना है जहां कई मुद्दों के कारण अंतिम उपभोक्ता द्वारा ऑडियो नहीं सुना जा सकता है। बंद कैप्शन ऑडियो/वीडियो स्रोत की तुलना में एक अलग फ़ाइल का हिस्सा हैं और उपयोगकर्ता के विवेक पर बंद और चालू किया जा सकता है, जबकि खुले कैप्शन वीडियो फ़ाइल का हिस्सा हैं और उपयोगकर्ता द्वारा बंद नहीं किया जा सकता है।
उपशीर्षक या बंद कैप्शन के साथ ऑडियो उत्पन्न करने के लिए अमेज़ॅन पोली का उपयोग करने के लाभ
निम्नलिखित उपयोग के मामले की कल्पना करें: आप एक ऑनलाइन शिक्षण पोर्टल के लिए एक स्लाइड-आधारित प्रस्तुति तैयार करते हैं। प्रत्येक स्लाइड में ऑनस्क्रीन सामग्री और वर्णन शामिल है। ऑनस्क्रीन सामग्री एक बुनियादी रूपरेखा है, और विवरण विस्तार से जाता है। एक मानवीय आवाज रिकॉर्ड करने के बजाय, जो बोझिल और असंगत हो सकती है, आप वर्णन उत्पन्न करने के लिए अमेज़ॅन पोली का उपयोग कर सकते हैं। अमेज़ॅन पोली उच्च गुणवत्ता वाली, लगातार आवाजें पैदा करता है। पोस्ट-प्रोडक्शन की कोई जरूरत नहीं है। भविष्य में, यदि आपको प्रस्तुतिकरण के किसी भाग को अपडेट करने की आवश्यकता है, तो आपको केवल प्रभावित स्लाइड्स को अपडेट करना होगा। आवाज मूल स्लाइड से मेल खाती है। इसके अतिरिक्त, जब अमेज़ॅन पोली आपका ऑडियो बनाता है, तो कैप्शन शामिल होते हैं जो ऑडियो के साथ समय पर दिखाई देते हैं। आप समय बचाते हैं क्योंकि इसमें कोई मैन्युअल रिकॉर्डिंग शामिल नहीं है, और अपडेट की आवश्यकता होने पर अतिरिक्त समय बचाते हैं। आपकी प्रस्तुति भी अधिक महत्व देती है क्योंकि कैप्शन छात्रों को सामग्री का उपभोग करने में मदद करते हैं। यह एक जीत-जीत समाधान है।
कैप्शन के लिए उपयोग के कई मामले हैं, जैसे सामाजिक स्थानों, व्यायामशालाओं, कॉफी की दुकानों और अन्य स्थानों पर विज्ञापन जहां आमतौर पर टीवी पर कुछ ऐसा होता है जिसमें ऑडियो म्यूट होता है और पृष्ठभूमि में संगीत होता है; ऑनलाइन प्रशिक्षण और कक्षाएं; आभासी बैठकें; सार्वजनिक इलेक्ट्रॉनिक घोषणाएं; बिना हेडफ़ोन के यात्रा करते समय और सह-यात्रियों को परेशान किए बिना वीडियो देखना; और भी कई।
आवेदन के क्षेत्र के बावजूद, बंद कैप्शनिंग निम्नलिखित में मदद कर सकता है:
- अभिगम्यता - श्रवण बाधित लोग आपकी सामग्री का बेहतर उपभोग कर सकते हैं।
- प्रतिधारण - अधिक मानवीय संवेदनाओं के शामिल होने पर ई-शिक्षार्थियों के लिए ऑनलाइन शिक्षण को समझना और बनाए रखना आसान होता है।
- गम्यता - आपकी सामग्री उन लोगों तक पहुंच सकती है जिनकी प्रतिस्पर्धी प्राथमिकताएं हैं, जैसे गेमिंग और समाचार एक साथ देखना, या ऐसे लोग जिनकी मूल भाषा ऑडियो भाषा से भिन्न है।
- खोज योग्यता - सामग्री खोज इंजन द्वारा खोजी जा सकती है। जबकि अधिकांश खोज इंजनों द्वारा वीडियो को इष्टतम रूप से नहीं खोजा जा सकता, खोज इंजन कैप्शन टेक्स्ट फ़ाइलों का उपयोग कर सकते हैं और आपकी सामग्री को अधिक खोज योग्य बना सकते हैं।
- सामाजिक शिष्टाचार - कभी-कभी आपके आस-पास की वजह से ऑडियो चलाना असभ्य हो सकता है, या आपके वातावरण के शोर के कारण ऑडियो सुनना मुश्किल हो सकता है।
- समझ - वक्ता के उच्चारण, वक्ता की मूल भाषा या भाषण की गति के बावजूद सामग्री को समझना आसान है। आप एक ही सीन को बार-बार देखे बिना नोट्स भी ले सकते हैं।
समाधान अवलोकन
इस पोस्ट में प्रस्तुत पुस्तकालय एक इनपुट टेक्स्ट के लिए ध्वनि और बंद कैप्शन उत्पन्न करने के लिए अमेज़ॅन पोली का उपयोग करता है। आप इस लाइब्रेरी को अपने टेक्स्ट-टू-स्पीच एप्लिकेशन में आसानी से एकीकृत कर सकते हैं। यह कई ऑडियो प्रारूपों और वीटीटी और एसआरटी दोनों फ़ाइल स्वरूपों में कैप्शन का समर्थन करता है, जो कि पूरे उद्योग में सबसे अधिक उपयोग किया जाता है।
इस पोस्ट में, हम पर ध्यान केंद्रित करते हैं PollyVTT()
वाक्य रचना और विकल्प, और कुछ उदाहरण पेश करते हैं जो प्रदर्शित करते हैं कि पायथन का उपयोग कैसे करें SubtitleGeneratorForPolly
किसी दिए गए टेक्स्ट इनपुट के लिए एक साथ सिंक्रोनस ऑडियो और सबटाइटल फाइल जेनरेट करने के लिए। आउटपुट ऑडियो फ़ाइल स्वरूप PCM (wav), OGG, या MP3 हो सकता है, और उपशीर्षक फ़ाइल स्वरूप VTT या SRT हो सकता है। आगे, SubtitleGeneratorForPolly
सभी अमेज़ॅन पोली का समर्थन करता है synthesize_speech
पैरामीटर और समृद्ध अमेज़ॅन पोली फीचर सेट में जोड़ता है।
RSI polly-vtt
पुस्तकालय और इसकी निर्भरता पर उपलब्ध हैं GitHub.
फ़ंक्शन को स्थापित और उपयोग करें
इससे पहले कि हम उपयोग करने के कुछ उदाहरण देखें PollyVTT()
, वह कार्य जो शक्ति देता है SubtitleGeneratorForPolly
, आइए इसके इंस्टालेशन और सिंटैक्स को देखें।
निम्नलिखित कोड का उपयोग करके पुस्तकालय स्थापित करें:
कमांड लाइन से चलाने के लिए, आप बस दौड़ें polly-vtt
:
निम्नलिखित कोड आपके विकल्प दिखाता है:
आइए अब कुछ उदाहरण देखें।
उदाहरण 1
यह उदाहरण दो सरल वाक्यों के लिए एक एसआरटी कैप्शन फ़ाइल के साथ एक पीसीएम ऑडियो फ़ाइल उत्पन्न करता है:
उदाहरण 2
यह उदाहरण दर्शाता है कि टेक्स्ट के पैराग्राफ को इनपुट के रूप में कैसे उपयोग किया जाए। यह WAV, MP3 और OGG में ऑडियो फ़ाइलें और SRT और VTT में उपशीर्षक उत्पन्न करता है। निम्नलिखित उदाहरण दिए गए इनपुट टेक्स्ट के लिए छह फाइलें बनाता है:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
निम्नलिखित कोड देखें:
उदाहरण 3
हालांकि, ज्यादातर मामलों में, आप टेक्स्ट को इनपुट फ़ाइल के रूप में पास करना चाहते हैं। इसका एक पायथन उदाहरण निम्नलिखित है, पिछले उदाहरण के समान आउटपुट के साथ:
अमेज़ॅन पोली को बंद कैप्शन के साथ उपयोग करने की एडब्ल्यूएस आंतरिक प्रशिक्षण टीम से एक प्रशंसापत्र पोस्ट निम्नलिखित है:
निम्नलिखित वीडियो एक संक्षिप्त डेमो प्रस्तुत करता है कि AWS की आंतरिक प्रशिक्षण टीम कैसे उपयोग करती है PollyVTT()
:
निष्कर्ष
इस पोस्ट में, हमने किसी दिए गए टेक्स्ट के लिए एक ही समय में ऑडियो और सबटाइटल जेनरेट करने की एक विधि साझा की है। PollyVTT()
समारोह और SubtitleGeneratorForPolly
उपशीर्षक के लिए एक सामान्य आवश्यकता को एक कुशल और प्रभावी तरीके से संबोधित करें। अमेज़ॅन पोली टीम जटिल ग्राहकों की आवश्यकताओं के लिए सरलीकृत समाधानों का आविष्कार और पेशकश करना जारी रखे हुए है।
अमेज़ॅन पोली के बारे में अधिक ट्यूटोरियल और जानकारी के लिए, देखें एडब्ल्यूएस मशीन लर्निंग ब्लॉग.
लेखक के बारे में
अभिषेक सोनी AWS में पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। वह एडब्ल्यूएस पर कार्यभार के सर्वोत्तम परिणाम के लिए तकनीकी मार्गदर्शन प्रदान करने के लिए ग्राहकों के साथ काम करता है।
सज्जन मैककी लक्षित, मॉड्यूलर और संरचित पाठ्यक्रमों में सामग्री को डिस्टिल करने के लिए ऑडियो, वीडियो और कॉफी का उपयोग करता है। अमेज़ॅन वेब सर्विसेज में नेटसेक डोमेन के लिए पाठ्यचर्या डेवलपर प्रोजेक्ट मैनेजर के रूप में अपनी भूमिका में, वह डेटा सेंटर नेटवर्किंग में अपने अनुभव का लाभ उठाता है ताकि विषय विशेषज्ञों को विचारों को जीवन में लाने में मदद मिल सके।
ऑरलैंडो करामी अमेज़ॅन वेब सर्विसेज में एक तकनीकी पाठ्यचर्या डेवलपर है, जिसका अर्थ है कि उसे अच्छी नई तकनीकों के साथ खेलना है और फिर इसके बारे में बात करना है। कभी-कभी, वह अपने काम को आसान बनाने के लिए उन शांत तकनीकों का भी उपयोग करता है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़ॅन पोली
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट