अमेज़ॅन पोली सबटाइटल जेनरेटर का उपयोग करके सिंक्रोनाइज़्ड क्लोज्ड कैप्शन और ऑडियो जेनरेट करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़ॅन पोली, एक एआई जनरेटेड टेक्स्ट-टू-स्पीच सेवा, आपको उत्पादकता में सुधार और लागत कम करने में मदद करते हुए अपने इंटरैक्टिव वॉयस सॉल्यूशंस को स्वचालित और स्केल करने में सक्षम बनाती है।

जैसा कि हमारे ग्राहक अमेज़ॅन पोली का उपयोग इसकी समृद्ध सुविधाओं और उपयोग में आसानी के लिए करना जारी रखते हैं, हमने एक साथ दिए गए टेक्स्ट इनपुट के लिए सिंक्रनाइज़ ऑडियो और उपशीर्षक या बंद कैप्शन उत्पन्न करने की क्षमता की मांग देखी है। AWS में, हम अपने ग्राहक के अनुरोध से लगातार पीछे की ओर काम करते हैं, इसलिए इस पोस्ट में, हम किसी दिए गए पाठ के लिए एक ही समय में ऑडियो और उपशीर्षक उत्पन्न करने के लिए एक विधि की रूपरेखा तैयार करते हैं।

हालांकि उपशीर्षक और उपशीर्षक अक्सर एक दूसरे के स्थान पर उपयोग किए जाते हैं, जिसमें इस पोस्ट में शामिल हैं, उनके बीच सूक्ष्म अंतर हैं:

मूवी - उपशीर्षक में, स्क्रीन पर प्रदर्शित टेक्स्ट भाषा ऑडियो भाषा से अलग होती है और महत्वपूर्ण ध्वनियों जैसी गैर-संवाद के लिए कुछ भी प्रदर्शित नहीं करती है। प्राथमिक उद्देश्य उन दर्शकों तक पहुंचना है जो वीडियो में ऑडियो भाषा नहीं बोलते हैं।
कैप्शन (बंद/खुला) - कैप्शन ऑडियो में बोले जा रहे संवादों को उसी भाषा में प्रदर्शित करते हैं। इसका प्राथमिक उद्देश्य उन मामलों में पहुंच बढ़ाना है जहां कई मुद्दों के कारण अंतिम उपभोक्ता द्वारा ऑडियो नहीं सुना जा सकता है। बंद कैप्शन ऑडियो/वीडियो स्रोत की तुलना में एक अलग फ़ाइल का हिस्सा हैं और उपयोगकर्ता के विवेक पर बंद और चालू किया जा सकता है, जबकि खुले कैप्शन वीडियो फ़ाइल का हिस्सा हैं और उपयोगकर्ता द्वारा बंद नहीं किया जा सकता है।

उपशीर्षक या बंद कैप्शन के साथ ऑडियो उत्पन्न करने के लिए अमेज़ॅन पोली का उपयोग करने के लाभ

निम्नलिखित उपयोग के मामले की कल्पना करें: आप एक ऑनलाइन शिक्षण पोर्टल के लिए एक स्लाइड-आधारित प्रस्तुति तैयार करते हैं। प्रत्येक स्लाइड में ऑनस्क्रीन सामग्री और वर्णन शामिल है। ऑनस्क्रीन सामग्री एक बुनियादी रूपरेखा है, और विवरण विस्तार से जाता है। एक मानवीय आवाज रिकॉर्ड करने के बजाय, जो बोझिल और असंगत हो सकती है, आप वर्णन उत्पन्न करने के लिए अमेज़ॅन पोली का उपयोग कर सकते हैं। अमेज़ॅन पोली उच्च गुणवत्ता वाली, लगातार आवाजें पैदा करता है। पोस्ट-प्रोडक्शन की कोई जरूरत नहीं है। भविष्य में, यदि आपको प्रस्तुतिकरण के किसी भाग को अपडेट करने की आवश्यकता है, तो आपको केवल प्रभावित स्लाइड्स को अपडेट करना होगा। आवाज मूल स्लाइड से मेल खाती है। इसके अतिरिक्त, जब अमेज़ॅन पोली आपका ऑडियो बनाता है, तो कैप्शन शामिल होते हैं जो ऑडियो के साथ समय पर दिखाई देते हैं। आप समय बचाते हैं क्योंकि इसमें कोई मैन्युअल रिकॉर्डिंग शामिल नहीं है, और अपडेट की आवश्यकता होने पर अतिरिक्त समय बचाते हैं। आपकी प्रस्तुति भी अधिक महत्व देती है क्योंकि कैप्शन छात्रों को सामग्री का उपभोग करने में मदद करते हैं। यह एक जीत-जीत समाधान है।

कैप्शन के लिए उपयोग के कई मामले हैं, जैसे सामाजिक स्थानों, व्यायामशालाओं, कॉफी की दुकानों और अन्य स्थानों पर विज्ञापन जहां आमतौर पर टीवी पर कुछ ऐसा होता है जिसमें ऑडियो म्यूट होता है और पृष्ठभूमि में संगीत होता है; ऑनलाइन प्रशिक्षण और कक्षाएं; आभासी बैठकें; सार्वजनिक इलेक्ट्रॉनिक घोषणाएं; बिना हेडफ़ोन के यात्रा करते समय और सह-यात्रियों को परेशान किए बिना वीडियो देखना; और भी कई।

आवेदन के क्षेत्र के बावजूद, बंद कैप्शनिंग निम्नलिखित में मदद कर सकता है:

अभिगम्यता - श्रवण बाधित लोग आपकी सामग्री का बेहतर उपभोग कर सकते हैं।
प्रतिधारण - अधिक मानवीय संवेदनाओं के शामिल होने पर ई-शिक्षार्थियों के लिए ऑनलाइन शिक्षण को समझना और बनाए रखना आसान होता है।
गम्यता - आपकी सामग्री उन लोगों तक पहुंच सकती है जिनकी प्रतिस्पर्धी प्राथमिकताएं हैं, जैसे गेमिंग और समाचार एक साथ देखना, या ऐसे लोग जिनकी मूल भाषा ऑडियो भाषा से भिन्न है।
खोज योग्यता - सामग्री खोज इंजन द्वारा खोजी जा सकती है। जबकि अधिकांश खोज इंजनों द्वारा वीडियो को इष्टतम रूप से नहीं खोजा जा सकता, खोज इंजन कैप्शन टेक्स्ट फ़ाइलों का उपयोग कर सकते हैं और आपकी सामग्री को अधिक खोज योग्य बना सकते हैं।
सामाजिक शिष्टाचार - कभी-कभी आपके आस-पास की वजह से ऑडियो चलाना असभ्य हो सकता है, या आपके वातावरण के शोर के कारण ऑडियो सुनना मुश्किल हो सकता है।
समझ - वक्ता के उच्चारण, वक्ता की मूल भाषा या भाषण की गति के बावजूद सामग्री को समझना आसान है। आप एक ही सीन को बार-बार देखे बिना नोट्स भी ले सकते हैं।

समाधान अवलोकन

इस पोस्ट में प्रस्तुत पुस्तकालय एक इनपुट टेक्स्ट के लिए ध्वनि और बंद कैप्शन उत्पन्न करने के लिए अमेज़ॅन पोली का उपयोग करता है। आप इस लाइब्रेरी को अपने टेक्स्ट-टू-स्पीच एप्लिकेशन में आसानी से एकीकृत कर सकते हैं। यह कई ऑडियो प्रारूपों और वीटीटी और एसआरटी दोनों फ़ाइल स्वरूपों में कैप्शन का समर्थन करता है, जो कि पूरे उद्योग में सबसे अधिक उपयोग किया जाता है।

इस पोस्ट में, हम पर ध्यान केंद्रित करते हैं PollyVTT() वाक्य रचना और विकल्प, और कुछ उदाहरण पेश करते हैं जो प्रदर्शित करते हैं कि पायथन का उपयोग कैसे करें SubtitleGeneratorForPolly किसी दिए गए टेक्स्ट इनपुट के लिए एक साथ सिंक्रोनस ऑडियो और सबटाइटल फाइल जेनरेट करने के लिए। आउटपुट ऑडियो फ़ाइल स्वरूप PCM (wav), OGG, या MP3 हो सकता है, और उपशीर्षक फ़ाइल स्वरूप VTT या SRT हो सकता है। आगे, SubtitleGeneratorForPolly सभी अमेज़ॅन पोली का समर्थन करता है synthesize_speech पैरामीटर और समृद्ध अमेज़ॅन पोली फीचर सेट में जोड़ता है।

RSI polly-vtt पुस्तकालय और इसकी निर्भरता पर उपलब्ध हैं GitHub.

फ़ंक्शन को स्थापित और उपयोग करें

इससे पहले कि हम उपयोग करने के कुछ उदाहरण देखें PollyVTT(), वह कार्य जो शक्ति देता है SubtitleGeneratorForPolly, आइए इसके इंस्टालेशन और सिंटैक्स को देखें।

निम्नलिखित कोड का उपयोग करके पुस्तकालय स्थापित करें:

pip install

कमांड लाइन से चलाने के लिए, आप बस दौड़ें polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

निम्नलिखित कोड आपके विकल्प दिखाता है:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

आइए अब कुछ उदाहरण देखें।

उदाहरण 1

यह उदाहरण दो सरल वाक्यों के लिए एक एसआरटी कैप्शन फ़ाइल के साथ एक पीसीएम ऑडियो फ़ाइल उत्पन्न करता है:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

उदाहरण 2

यह उदाहरण दर्शाता है कि टेक्स्ट के पैराग्राफ को इनपुट के रूप में कैसे उपयोग किया जाए। यह WAV, MP3 और OGG में ऑडियो फ़ाइलें और SRT और VTT में उपशीर्षक उत्पन्न करता है। निम्नलिखित उदाहरण दिए गए इनपुट टेक्स्ट के लिए छह फाइलें बनाता है:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

निम्नलिखित कोड देखें:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

उदाहरण 3

हालांकि, ज्यादातर मामलों में, आप टेक्स्ट को इनपुट फ़ाइल के रूप में पास करना चाहते हैं। इसका एक पायथन उदाहरण निम्नलिखित है, पिछले उदाहरण के समान आउटपुट के साथ:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

अमेज़ॅन पोली को बंद कैप्शन के साथ उपयोग करने की एडब्ल्यूएस आंतरिक प्रशिक्षण टीम से एक प्रशंसापत्र पोस्ट निम्नलिखित है:

निम्नलिखित वीडियो एक संक्षिप्त डेमो प्रस्तुत करता है कि AWS की आंतरिक प्रशिक्षण टीम कैसे उपयोग करती है PollyVTT():

निष्कर्ष

इस पोस्ट में, हमने किसी दिए गए टेक्स्ट के लिए एक ही समय में ऑडियो और सबटाइटल जेनरेट करने की एक विधि साझा की है। PollyVTT() समारोह और SubtitleGeneratorForPolly उपशीर्षक के लिए एक सामान्य आवश्यकता को एक कुशल और प्रभावी तरीके से संबोधित करें। अमेज़ॅन पोली टीम जटिल ग्राहकों की आवश्यकताओं के लिए सरलीकृत समाधानों का आविष्कार और पेशकश करना जारी रखे हुए है।

अमेज़ॅन पोली के बारे में अधिक ट्यूटोरियल और जानकारी के लिए, देखें एडब्ल्यूएस मशीन लर्निंग ब्लॉग.

लेखक के बारे में

अभिषेक सोनी AWS में पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। वह एडब्ल्यूएस पर कार्यभार के सर्वोत्तम परिणाम के लिए तकनीकी मार्गदर्शन प्रदान करने के लिए ग्राहकों के साथ काम करता है।

सज्जन मैककी लक्षित, मॉड्यूलर और संरचित पाठ्यक्रमों में सामग्री को डिस्टिल करने के लिए ऑडियो, वीडियो और कॉफी का उपयोग करता है। अमेज़ॅन वेब सर्विसेज में नेटसेक डोमेन के लिए पाठ्यचर्या डेवलपर प्रोजेक्ट मैनेजर के रूप में अपनी भूमिका में, वह डेटा सेंटर नेटवर्किंग में अपने अनुभव का लाभ उठाता है ताकि विषय विशेषज्ञों को विचारों को जीवन में लाने में मदद मिल सके।

ऑरलैंडो करामी अमेज़ॅन वेब सर्विसेज में एक तकनीकी पाठ्यचर्या डेवलपर है, जिसका अर्थ है कि उसे अच्छी नई तकनीकों के साथ खेलना है और फिर इसके बारे में बात करना है। कभी-कभी, वह अपने काम को आसान बनाने के लिए उन शांत तकनीकों का भी उपयोग करता है।