AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.

AWS मशीन लर्निंग सेवाओं का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें

पिछले कुछ वर्षों में, ऑनलाइन शिक्षा प्लेटफार्मों ने वीडियो-आधारित शिक्षा को अपनाने और मांग में वृद्धि देखी है क्योंकि यह शिक्षार्थियों को संलग्न करने के लिए एक प्रभावी माध्यम प्रदान करता है। अंतरराष्ट्रीय बाजारों में विस्तार करने और सांस्कृतिक और भाषाई रूप से विविध आबादी को संबोधित करने के लिए, व्यवसाय भी कई भाषाओं में सामग्री को स्थानीयकृत करके अपने सीखने की पेशकश में विविधता लाने पर विचार कर रहे हैं। ये व्यवसाय अपने स्थानीयकरण उपयोग के मामलों को हल करने के लिए विश्वसनीय और लागत प्रभावी तरीकों की तलाश कर रहे हैं।

सामग्री को स्थानीयकृत करने में मुख्य रूप से मूल आवाज़ों का नई भाषाओं में अनुवाद करना और उपशीर्षक जैसे दृश्य एड्स जोड़ना शामिल है। परंपरागत रूप से, यह प्रक्रिया लागत-निषेधात्मक, मैनुअल है, और स्थानीयकरण विशेषज्ञों के साथ काम करने सहित, इसमें बहुत समय लगता है। एडब्ल्यूएस मशीन लर्निंग (एमएल) सेवाओं की शक्ति के साथ जैसे Amazon Transcribe, अमेज़न अनुवाद, तथा अमेज़ॅन पोली, आप एक व्यवहार्य और लागत प्रभावी स्थानीयकरण समाधान बना सकते हैं। आप अपने मौजूदा ऑडियो और वीडियो स्ट्रीम का ट्रांसक्रिप्ट बनाने के लिए Amazon Transcribe का उपयोग कर सकते हैं, और फिर Amazon Translate का उपयोग करके इस ट्रांसक्रिप्ट का कई भाषाओं में अनुवाद कर सकते हैं। फिर आप अनूदित पाठ को प्राकृतिक-ध्वनि वाले मानव भाषण में बदलने के लिए, टेक्स्ट-टू-स्पीच सेवा अमेज़ॅन पोली का उपयोग कर सकते हैं।

स्थानीयकरण का अगला चरण सामग्री में उपशीर्षक जोड़ना है, जो पहुंच और समझ में सुधार कर सकता है, और दर्शकों को वीडियो को बेहतर ढंग से समझने में मदद कर सकता है। वीडियो सामग्री पर उपशीर्षक बनाना चुनौतीपूर्ण हो सकता है क्योंकि अनुवादित भाषण मूल भाषण समय से मेल नहीं खाता है। ऑडियो और उपशीर्षक के बीच यह सिंक्रनाइज़ेशन विचार करने के लिए एक महत्वपूर्ण कार्य है क्योंकि यह दर्शकों को आपकी सामग्री से डिस्कनेक्ट कर सकता है यदि वे सिंक में नहीं हैं। अमेज़ॅन पोली सक्षम करके इस चुनौती का समाधान प्रदान करता है भाषण चिह्न, जिसका उपयोग आप एक उपशीर्षक फ़ाइल बनाने के लिए कर सकते हैं जिसे उत्पन्न भाषण आउटपुट के साथ समन्वयित किया जा सकता है।

इस पोस्ट में, हम AWS ML सेवाओं का उपयोग करते हुए एक स्थानीयकरण समाधान की समीक्षा करते हैं जहां हम एक मूल अंग्रेजी वीडियो का उपयोग करते हैं और इसे स्पेनिश में परिवर्तित करते हैं। हम स्पैनिश में एक सिंक की गई उपशीर्षक फ़ाइल बनाने के लिए वाक् चिह्नों का उपयोग करने पर भी ध्यान केंद्रित करते हैं।

समाधान अवलोकन

निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।

समाधान इनपुट के रूप में एक वीडियो फ़ाइल और लक्ष्य भाषा सेटिंग्स लेता है और वीडियो का ट्रांसक्रिप्शन बनाने के लिए Amazon Transcribe का उपयोग करता है। फिर हम ट्रांसक्रिप्ट को लक्षित भाषा में अनुवाद करने के लिए अमेज़ॅन ट्रांसलेट का उपयोग करते हैं। अनूदित पाठ लक्ष्य भाषा में ऑडियो स्ट्रीम और भाषण चिह्न उत्पन्न करने के लिए अमेज़ॅन पोली को इनपुट के रूप में प्रदान किया जाता है। अमेज़न पोली रिटर्न भाषण चिह्न आउटपुट एक लाइन-सीमांकित JSON स्ट्रीम में, जिसमें समय, प्रकार, प्रारंभ, अंत और मान जैसे फ़ील्ड शामिल हैं। इनपुट में अनुरोधित वाक् चिह्न के प्रकार के आधार पर मान भिन्न हो सकता है, जैसे एसएसएमएल, विसेमे, शब्द या वाक्य। हमारे उदाहरण के प्रयोजन के लिए, हमने अनुरोध किया था भाषण चिह्न प्रकार as word. इस विकल्प के साथ, अमेज़ॅन पोली वाक्य में एक वाक्य को उसके अलग-अलग शब्दों में और ऑडियो स्ट्रीम में उनके प्रारंभ और समाप्ति समय में तोड़ देता है। इस मेटाडेटा के साथ, अमेज़ॅन पोली द्वारा उत्पन्न संबंधित ऑडियो स्ट्रीम के लिए उपशीर्षक उत्पन्न करने के लिए भाषण चिह्नों को संसाधित किया जाता है।

अंत में, हम उपयोग करते हैं एडब्ल्यूएस मौलिक मीडिया कन्वर्ट अंतिम वीडियो को अनुवादित ऑडियो और संबंधित उपशीर्षक के साथ प्रस्तुत करने के लिए।

निम्नलिखित वीडियो समाधान के अंतिम परिणाम को प्रदर्शित करता है:

AWS स्टेप फंक्शन्स वर्कफ़्लो

हम का उपयोग करें AWS स्टेप फ़ंक्शंस इस प्रक्रिया को व्यवस्थित करने के लिए। निम्न आंकड़ा चरण कार्य वर्कफ़्लो का एक उच्च-स्तरीय दृश्य दिखाता है (बेहतर स्पष्टता के लिए आरेख से कुछ चरण छोड़े गए हैं)।

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.

वर्कफ़्लो चरण इस प्रकार हैं:

  1. एक उपयोगकर्ता स्रोत वीडियो फ़ाइल को a . पर अपलोड करता है अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
  2. RSI S3 घटना सूचना ट्रिगर करता है AWS लाम्बा समारोह State_machine.py (आरेख में नहीं दिखाया गया है), जो स्टेप फंक्शंस स्टेट मशीन को आमंत्रित करता है।
  3. पहला कदम, ऑडियो ट्रांसक्राइब करें, लैम्ब्डा फ़ंक्शन को आमंत्रित करता है लिप्यंतरण.py, जो स्रोत वीडियो से ऑडियो की प्रतिलिपि बनाने के लिए Amazon Transcribe का उपयोग करता है।

निम्नलिखित नमूना कोड दर्शाता है कि अमेज़ॅन ट्रांसक्राइब का उपयोग करके ट्रांसक्रिप्शन जॉब कैसे बनाया जाए बोटो3 पायथन एसडीके:

response = transcribe.start_transcription_job(
    TranscriptionJobName = jobName,
    MediaFormat=media_format,
    Media = {"MediaFileUri": "s3://"+bucket+"/"+mediaconvert_video_filename},
    OutputBucketName=bucket,
    OutputKey=outputKey,
    IdentifyLanguage=True
)

कार्य पूरा होने के बाद, आउटपुट फ़ाइलें S3 बकेट में सहेजी जाती हैं और यह प्रक्रिया सामग्री के अनुवाद के अगले चरण तक जारी रहती है।

  1. RSI ट्रांसक्रिप्शन का अनुवाद करें चरण लैम्ब्डा फ़ंक्शन को आमंत्रित करता है translation.py जो ट्रांसक्रिप्ट को लक्षित भाषा में अनुवाद करने के लिए अमेज़ॅन ट्रांसलेट का उपयोग करता है। यहां, हम सिंक्रोनस/रीयल-टाइम अनुवाद का उपयोग करते हैं अनुवाद_पाठ समारोह:
    # Real-time translation
    response = translate.translate_text(
        Text=transcribe_text,
        SourceLanguageCode=source_language_code,
        TargetLanguageCode=target_language_code,
    )
    

    सिंक्रोनस अनुवाद में उस दस्तावेज़ के आकार की सीमा होती है जिसका वह अनुवाद कर सकता है; इस लेखन के अनुसार, यह 5,000 बाइट्स पर सेट है। बड़े दस्तावेज़ आकारों के लिए, का उपयोग करके नौकरी बनाने के एक अतुल्यकालिक मार्ग का उपयोग करने पर विचार करें प्रारंभ_पाठ_अनुवाद_कार्य और के माध्यम से स्थिति की जांच कर रहा है वर्णन_पाठ_अनुवाद_नौकरी.

  2. अगला चरण एक चरण कार्य है समानांतर राज्य, जहां हम अपने राज्य मशीन में समानांतर शाखाएं बनाते हैं।
    1. पहली शाखा में, हम लैम्ब्डा फ़ंक्शन को लैम्ब्डा फ़ंक्शन कहते हैं जनरेट_पोली_ऑडियो.py हमारे अमेज़न पोली ऑडियो स्ट्रीम उत्पन्न करने के लिए:
      # Set up the polly and translate services
      client = boto3.client('polly')
      
      # Use the translated text to create the synthesized speech
      response = client.start_speech_synthesis_task(
                   Engine="standard", LanguageCode="es", OutputFormat="mp3",
                   SampleRate="22050", Text=polly_text, VoiceId="Miguel",
                   TextType="text",
                   OutputS3BucketName="S3-bucket-name",
                   OutputS3KeyPrefix="-polly-recording")
      audio_task_id = response['SynthesisTask']['TaskId']

      यहां हम का उपयोग करते हैं प्रारंभ_भाषण_संश्लेषण_कार्य अमेज़ॅन पॉली पायथन एसडीके की विधि भाषण संश्लेषण कार्य को ट्रिगर करने के लिए जो अमेज़ॅन पोली ऑडियो बनाता है। हम सेट करते हैं OutputFormat सेवा मेरे mp3, जो अमेज़ॅन पोली को इस एपीआई कॉल के लिए एक ऑडियो स्ट्रीम उत्पन्न करने के लिए कहता है।

    2. दूसरी शाखा में, हम लैम्ब्डा फ़ंक्शन का आह्वान करते हैं Generate_speech_marks.py भाषण चिह्न आउटपुट उत्पन्न करने के लिए:
      ....
      # Use the translated text to create the speech marks
      response = client.start_speech_synthesis_task(
                   Engine="standard", LanguageCode="es", OutputFormat="json",
                   SampleRate="22050", Text=polly_text, VoiceId="Miguel",
                   TextType="text", SpeechMarkTypes=['word'],
                   OutputS3BucketName="S3-bucket-name", 
                   OutputS3KeyPrefix="-polly-speech-marks")
      speechmarks_task_id = response['SynthesisTask']['TaskId']

  • हम फिर से उपयोग करते हैं प्रारंभ_भाषण_संश्लेषण_कार्य विधि लेकिन निर्दिष्ट करें OutputFormat सेवा मेरे json, जो अमेज़ॅन पोली को इस एपीआई कॉल के लिए भाषण चिह्न उत्पन्न करने के लिए कहता है।

दूसरी शाखा के अगले चरण में, हम लैम्ब्डा फ़ंक्शन को लागू करते हैं Generate_subtitles.py, जो स्पीच मार्क्स आउटपुट से सबटाइटल फाइल जेनरेट करने के लिए लॉजिक को लागू करता है।

यह फ़ाइल में पायथन मॉड्यूल का उपयोग करता है webvtt_utils.py. उपशीर्षक फ़ाइल बनाने के लिए इस मॉड्यूल में कई उपयोगिता कार्य हैं; ऐसा ही एक तरीका get_phrases_from_speechmarks स्पीच मार्क्स फाइल को पार्स करने के लिए जिम्मेदार है। भाषण चिह्न JSON संरचना प्रत्येक शब्द के लिए व्यक्तिगत रूप से केवल प्रारंभ समय प्रदान करती है। SRT फ़ाइल के लिए आवश्यक उपशीर्षक समय बनाने के लिए, हम पहले स्पीच मार्क्स फ़ाइल में शब्दों की सूची से लगभग n (जहाँ n = 10) शब्दों के वाक्यांश बनाते हैं। फिर हम उन्हें एसआरटी फ़ाइल प्रारूप में लिखते हैं, वाक्यांश में पहले शब्द से प्रारंभ समय लेते हैं, और अंत समय के लिए हम (एन + 1) शब्द के प्रारंभ समय का उपयोग करते हैं और अनुक्रमित प्रविष्टि बनाने के लिए इसे 1 से घटाते हैं . निम्नलिखित फ़ंक्शन वाक्यांशों को SRT फ़ाइल में लिखने की तैयारी में बनाता है:

def get_phrases_from_speechmarks(words, transcript):
.....

    for item in items:
        # if it is a new phrase, then get the start_time of the first item
        if n_phrase:
            phrase["start_time"] = get_time_code(words[c]["start_time"])
            n_phrase = False

        else:
            if c == len(words) - 1:
                phrase["end_time"] = get_time_code(words[c]["start_time"])
            else:
                phrase["end_time"] = get_time_code(words[c + 1]["start_time"] - 1)

        # in either case, append the word to the phrase...
        phrase["words"].append(item)
        x += 1

        # now add the phrase to the phrases, generate a new phrase, etc.
        if x == 10 or c == (len(items) - 1):
            # print c, phrase
            if c == (len(items) - 1):
                if phrase["end_time"] == '':
                    start_time = words[c]["start_time"]
                    end_time = int(start_time) + 500
                    phrase["end_time"] = get_time_code(end_time)

            phrases.append(phrase)
            phrase = new_phrase()
            n_phrase = True
            x = 0

        .....

    return phrases

  1. अंतिम चरण, मीडिया कन्वर्ट, लैम्ब्डा फ़ंक्शन को आमंत्रित करता है create_mediaconvert_job.py अमेज़ॅन पोली और उपशीर्षक फ़ाइल से ऑडियो स्ट्रीम को अंतिम आउटपुट फ़ाइल उत्पन्न करने के लिए स्रोत वीडियो फ़ाइल के साथ संयोजित करने के लिए, जिसे बाद में S3 बाल्टी में संग्रहीत किया जाता है। यह कदम उपयोग करता है MediaConvert, प्रसारण-ग्रेड सुविधाओं के साथ एक फ़ाइल-आधारित वीडियो ट्रांसकोडिंग सेवा। यह आपको आसानी से वीडियो-ऑन-डिमांड सामग्री बनाने की अनुमति देता है और एक साधारण वेब इंटरफ़ेस के साथ उन्नत वीडियो और ऑडियो क्षमताओं को जोड़ता है। यहां हम फिर से पायथन का उपयोग करते हैं बोटो3 एसडीके एक बनाने के लिए MediaConvert काम:
    ……
    job_metadata = {'asset_id': asset_id, 'application': "createMediaConvertJob"}
    mc_client = boto3.client('mediaconvert', region_name=region)
    endpoints = mc_client.describe_endpoints()
    mc_endpoint_url = endpoints['Endpoints'][0]['Url']
    
    mc = boto3.client('mediaconvert', region_name=region, endpoint_url=mc_endpoint_url, verify=True)
    
    mc.create_job(Role=mediaconvert_role_arn, UserMetadata=job_metadata, Settings=mc_data["Settings"])

.. पूर्वापेक्षाएँ

आरंभ करने से पहले, आपके पास निम्नलिखित पूर्वापेक्षाएँ होनी चाहिए:

समाधान तैनात करें

AWS CDK का उपयोग करके समाधान परिनियोजित करने के लिए, निम्न चरणों को पूरा करें:

  1. क्लोन किया गया कोष:
    git clone https://github.com/aws-samples/localize-content-using-aws-ml-services.git 

  2. यह सुनिश्चित करने के लिए कि एडब्ल्यूएस सीडीके है बूटस्ट्रैप, कमांड चलाएँ cdk bootstrap भंडार की जड़ से:
    $ cdk bootstrap
    ⏳ Bootstrapping environment aws://<acct#>/<region>...
    Trusted accounts for deployment: (none)
    Trusted accounts for lookup: (none)
    Using default execution policy of 'arn:aws:iam::aws:policy/AdministratorAccess'. Pass '--cloudformation-execution-policies' to customize.
    ✅ Environment aws://<acct#>/<region> bootstrapped (no changes).

  3. वर्किंग डायरेक्टरी को रिपॉजिटरी के रूट में बदलें और निम्न कमांड चलाएँ:
    cdk deploy

डिफ़ॉल्ट रूप से, लक्ष्य ऑडियो सेटिंग्स यूएस स्पैनिश पर सेट होती हैं (es-US) यदि आप इसे किसी भिन्न लक्ष्य भाषा के साथ परीक्षण करने की योजना बनाते हैं, तो निम्न आदेश का उपयोग करें:

cdk deploy --parameters pollyLanguageCode=<pollyLanguageCode> 
           --parameters pollyVoiceId=<pollyVoiceId>
           --parameters pollyEngine=<pollyEngine> 
           --parameters mediaConvertLangShort=<mediaConvertLangShort>
           --parameters mediaConvertLangLong=<mediaConvertLangLong>
           --parameters targetLanguageCode=<targetLanguageCode>

प्रक्रिया को पूरा होने में कुछ मिनट लगते हैं, जिसके बाद यह एक लिंक प्रदर्शित करता है जिसका उपयोग आप अनुवादित ऑडियो और अनुवादित उपशीर्षक के साथ लक्षित वीडियो फ़ाइल देखने के लिए कर सकते हैं।

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.

समाधान का परीक्षण करें

इस समाधान का परीक्षण करने के लिए, हमने निम्नलिखित के एक छोटे से हिस्से का इस्तेमाल किया एडब्ल्यूएस पुन: आविष्कार 2017 वीडियो YouTube से, जहां Amazon Transcribe को पहली बार पेश किया गया था। आप अपने स्वयं के वीडियो के साथ समाधान का परीक्षण भी कर सकते हैं। हमारे परीक्षण वीडियो की मूल भाषा अंग्रेजी है। जब आप इस समाधान को परिनियोजित करते हैं, तो आप लक्ष्य ऑडियो सेटिंग्स निर्दिष्ट कर सकते हैं या आप डिफ़ॉल्ट लक्ष्य ऑडियो सेटिंग्स का उपयोग कर सकते हैं, जो ऑडियो और उपशीर्षक उत्पन्न करने के लिए स्पेनिश का उपयोग करता है। समाधान एक S3 बकेट बनाता है जिसका उपयोग वीडियो फ़ाइल को अपलोड करने के लिए किया जा सकता है।

  1. Amazon S3 कंसोल पर, बकेट पर नेविगेट करें PollyBlogBucket.
    AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.
  2. बाल्टी चुनें, नेविगेट करें /inputVideo निर्देशिका, और वीडियो फ़ाइल अपलोड करें (समाधान का परीक्षण mp4 प्रकार के वीडियो के साथ किया जाता है)। इस बिंदु पर, एक S3 घटना अधिसूचना लैम्ब्डा फ़ंक्शन को ट्रिगर करती है, जो राज्य मशीन शुरू करती है।
  3. स्टेप फंक्शंस कंसोल पर, स्टेट मशीन पर ब्राउज़ करें (ProcessAudioWithSubtitles).
  4. पता लगाने के लिए राज्य मशीन के रनों में से एक चुनें ग्राफ इंस्पेक्टर.

यह प्रत्येक राज्य के लिए रन परिणाम दिखाता है। चरण कार्य वर्कफ़्लो को पूरा होने में कुछ मिनट लगते हैं, जिसके बाद आप सत्यापित कर सकते हैं कि सभी चरण सफलतापूर्वक पूरे हुए हैं या नहीं।

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.

आउटपुट की समीक्षा करें

आउटपुट की समीक्षा करने के लिए, Amazon S3 कंसोल खोलें और जांचें कि ऑडियो फ़ाइल (.mp3) और स्पीच मार्क फ़ाइल (.marks) S3 बकेट में संग्रहीत हैं या नहीं <ROOT_S3_BUCKET>/<UID>/synthesisOutput/.

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.

अनुवादित पाठ से उत्पन्न वाक् चिह्न फ़ाइल का एक नमूना निम्नलिखित है:

{"time":6,"type":"word","start":2,"end":6,"value":"Qué"}
{"time":109,"type":"word","start":7,"end":10,"value":"tal"}
{"time":347,"type":"word","start":11,"end":13,"value":"el"}
{"time":453,"type":"word","start":14,"end":20,"value":"idioma"}
{"time":1351,"type":"word","start":22,"end":24,"value":"Ya"}
{"time":1517,"type":"word","start":25,"end":30,"value":"sabes"}
{"time":2240,"type":"word","start":32,"end":38,"value":"hablé"}
{"time":2495,"type":"word","start":39,"end":44,"value":"antes"}
{"time":2832,"type":"word","start":45,"end":50,"value":"sobre"}
{"time":3125,"type":"word","start":51,"end":53,"value":"el"}
{"time":3227,"type":"word","start":54,"end":59,"value":"hecho"}
{"time":3464,"type":"word","start":60,"end":62,"value":"de"}

इस आउटपुट में, पाठ के प्रत्येक भाग को वाक् चिह्नों के रूप में विभाजित किया गया है:

  • पहर - संबंधित ऑडियो स्ट्रीम की शुरुआत से मिलीसेकंड में टाइमस्टैम्प
  • टाइप - वाक् चिह्न का प्रकार (वाक्य, शब्द, शब्द, या SSML)
  • प्रारंभ - इनपुट टेक्स्ट में ऑब्जेक्ट की शुरुआत के बाइट्स (अक्षर नहीं) में ऑफसेट (विसेम चिह्नों को शामिल नहीं)
  • समाप्त - इनपुट टेक्स्ट में ऑब्जेक्ट के अंत के बाइट्स (अक्षर नहीं) में ऑफसेट (विसेम चिह्नों को शामिल नहीं)
  • मूल्य - वाक्य में अलग-अलग शब्द

उत्पन्न उपशीर्षक फ़ाइल वापस S3 बकेट में लिखी जाती है। आप फ़ाइल को नीचे पा सकते हैं <ROOT_S3_BUCKET>/<UID>/subtitlesOutput/. उपशीर्षक फ़ाइल का निरीक्षण करें; सामग्री निम्न पाठ के समान होनी चाहिए:

1
00:00:00,006 --> 00:00:03,226
¿Qué tal el idioma? Ya sabes, hablé antes sobre el

2
00:00:03,227 --> 00:00:06,065
hecho de que el año pasado lanzamos Polly y Lex,

3
00:00:06,066 --> 00:00:09,263
pero hay muchas otras cosas que los constructores quieren hacer

4
00:00:09,264 --> 00:00:11,642
con el lenguaje. Y una de las cosas que ha

5
00:00:11,643 --> 00:00:14,549
sido interesante es que ahora hay tantos datos que están

उपशीर्षक फ़ाइल और ऑडियो फ़ाइल उत्पन्न होने के बाद, MediaConvert का उपयोग करके अंतिम स्रोत वीडियो फ़ाइल बनाई जाती है। यह सत्यापित करने के लिए कि क्या कार्य की स्थिति है, MediaConvert कंसोल की जाँच करें COMPLETE.

जब MediaConvert का काम पूरा हो जाता है, तो अंतिम वीडियो फ़ाइल उत्पन्न होती है और वापस S3 बकेट में सहेजी जाती है, जिसे नीचे पाया जा सकता है <ROOT_S3_BUCKET>/<UID>/convertedAV/.

इस परिनियोजन के भाग के रूप में, अंतिम वीडियो एक . के माध्यम से वितरित किया जाता है अमेज़न CloudFront (सीडीएन) लिंक और टर्मिनल में या में प्रदर्शित किया जाता है एडब्ल्यूएस CloudFormation सांत्वना.

ऑडियो और उपशीर्षक के अतिरिक्त विकल्पों के साथ मूल वीडियो देखने के लिए ब्राउज़र में URL खोलें। आप सत्यापित कर सकते हैं कि अनुवादित ऑडियो और उपशीर्षक समन्वयित हैं।

निष्कर्ष

इस पोस्ट में, हमने चर्चा की कि बिना मैनुअल हस्तक्षेप की आवश्यकता के वीडियो फ़ाइलों के नए भाषा संस्करण कैसे बनाएं। सामग्री निर्माता इस प्रक्रिया का उपयोग अपने वीडियो के ऑडियो और उपशीर्षक को सिंक्रनाइज़ करने और वैश्विक दर्शकों तक पहुंचने के लिए कर सकते हैं।

आप अपनी आवश्यकताओं के अनुसार बड़ी मात्रा और पैमाने को संभालने के लिए इस दृष्टिकोण को अपनी खुद की उत्पादन पाइपलाइनों में आसानी से एकीकृत कर सकते हैं। अमेज़ॅन पोली का उपयोग करता है तंत्रिका टीटीएस (एनटीटीएस) प्राकृतिक और मानव जैसी टेक्स्ट-टू-स्पीच आवाजें उत्पन्न करने के लिए। यह भी समर्थन करता है SSML से भाषण उत्पन्न करना, जो आपको इस बात पर अतिरिक्त नियंत्रण देता है कि Amazon Poly प्रदान किए गए पाठ से भाषण कैसे उत्पन्न करता है। अमेज़ॅन पोली भी प्रदान करता है विभिन्न आवाजों की विविधता आपकी आवश्यकताओं का समर्थन करने के लिए कई भाषाओं में।

पर जाकर AWS मशीन लर्निंग सेवाओं के साथ शुरुआत करें उत्पाद पृष्ठ, या देखें अमेज़न मशीन लर्निंग सॉल्यूशंस लैब पेज जहां आप अपने संगठन में मशीन लर्निंग सॉल्यूशंस लाने के लिए विशेषज्ञों के साथ सहयोग कर सकते हैं।

अतिरिक्त संसाधन

इस समाधान में प्रयुक्त सेवाओं के बारे में अधिक जानकारी के लिए, निम्नलिखित का संदर्भ लें:


लेखक के बारे में

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ. रीगन रोसारियो शिक्षा प्रौद्योगिकी कंपनियों पर ध्यान केंद्रित करते हुए AWS में समाधान वास्तुकार के रूप में काम करता है। वह ग्राहकों को एडब्ल्यूएस क्लाउड में स्केलेबल, अत्यधिक उपलब्ध और सुरक्षित समाधान बनाने में मदद करना पसंद करता है। सॉफ्टवेयर इंजीनियरिंग और वास्तुकला पर ध्यान देने के साथ, उनके पास विभिन्न प्रकार की प्रौद्योगिकी भूमिकाओं में काम करने का एक दशक से अधिक का अनुभव है।

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.अनिल कोडाली अमेज़ॅन वेब सेवाओं के साथ एक समाधान वास्तुकार है। वह एडब्ल्यूएस एडटेक ग्राहकों के साथ काम करता है, मौजूदा वर्कलोड को क्लाउड पर माइग्रेट करने और क्लाउड-फर्स्ट दृष्टिकोण के साथ नए वर्कलोड को डिजाइन करने के लिए आर्किटेक्चरल सर्वोत्तम प्रथाओं के साथ उनका मार्गदर्शन करता है। AWS में शामिल होने से पहले, उन्होंने बड़े खुदरा विक्रेताओं के साथ उनके क्लाउड माइग्रेशन में मदद करने के लिए काम किया।

AWS मशीन लर्निंग सेवाओं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके सामग्री को कई भाषाओं में स्थानीयकृत करें। लंबवत खोज. ऐ.प्रसन्ना सरस्वती कृष्णन एडटेक ग्राहकों के साथ काम करने वाली अमेज़ॅन वेब सेवाओं के साथ एक समाधान वास्तुकार है। वह उन्हें सर्वोत्तम प्रथाओं का उपयोग करके अपने क्लाउड आर्किटेक्चर और डेटा रणनीति को चलाने में मदद करता है। उनकी पृष्ठभूमि वितरित कंप्यूटिंग, बिग डेटा एनालिटिक्स और डेटा इंजीनियरिंग में है। उन्हें मशीन लर्निंग और नेचुरल लैंग्वेज प्रोसेसिंग का शौक है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

एमएल प्रशिक्षण को अनुकूलित करने और प्रदर्शन और लागत का अनुमान लगाने के लिए अमेज़ॅन म्यूजिक एनवीआईडीआईए के साथ सेजमेकर का उपयोग कैसे करता है | अमेज़न वेब सेवाएँ

स्रोत नोड: 1916113
समय टिकट: नवम्बर 21, 2023