अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.

Amazon Transcribe का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें

यदि आप एक से अधिक आधिकारिक भाषाओं वाले देश में या एक से अधिक क्षेत्रों में काम करते हैं, तो आपकी ऑडियो फ़ाइलों में विभिन्न भाषाएँ हो सकती हैं। प्रतिभागी पूरी तरह से अलग भाषा बोल सकते हैं या भाषाओं के बीच स्विच कर सकते हैं। पर्याप्त बहुभाषी आबादी वाले क्षेत्र में समस्या की रिपोर्ट करने के लिए ग्राहक सेवा कॉल पर विचार करें। हालाँकि बातचीत एक भाषा में शुरू हो सकती है, यह संभव है कि ग्राहक समस्या का वर्णन करने के लिए दूसरी भाषा में बदल सकता है, जो आराम के स्तर या अन्य भाषाओं के उपयोग की प्राथमिकताओं पर निर्भर करता है। इसी तरह, ग्राहक सेवा प्रतिनिधि ऑपरेटिंग या समस्या निवारण निर्देशों को संप्रेषित करते समय भाषाओं के बीच संक्रमण कर सकता है।

कम से कम 3 सेकंड के ऑडियो के साथ, Amazon Transcribe ऑडियो में बोली जाने वाली भाषाओं की स्वचालित रूप से पहचान कर सकता है और कुशलता से ट्रांसक्रिप्ट उत्पन्न कर सकता है और इसके लिए मनुष्यों को भाषा निर्दिष्ट करने की आवश्यकता नहीं होती है। यह विभिन्न उपयोग मामलों पर लागू होता है जैसे कि ग्राहक कॉल को ट्रांसक्रिप्ट करना, वॉयसमेल को टेक्स्ट में कनवर्ट करना, मीटिंग इंटरैक्शन कैप्चर करना, उपयोगकर्ता फोरम संचार ट्रैक करना, या मीडिया सामग्री उत्पादन और स्थानीयकरण वर्कफ्लो की निगरानी करना।

यह पोस्ट Amazon Transcribe का उपयोग करके एक बहु-भाषा ऑडियो फ़ाइल को ट्रांसक्राइब करने के चरणों के बारे में बताती है। हम चर्चा करते हैं कि Amazon Transcribe को ऑडियो फाइल कैसे उपलब्ध कराएं और Amazon Transcribe API को कॉल करते समय बहुभाषी ऑडियो फाइलों के ट्रांसक्रिप्शन को कैसे सक्षम करें।

समाधान अवलोकन

Amazon Transcribe एक AWS सेवा है जो आपके लिए बोली को टेक्स्ट में बदलना आसान बनाती है। किसी भी एप्लिकेशन में पाठ कार्यक्षमता में वाक् जोड़ना Amazon Transcribe, एक स्वचालित वाक् पहचान (ASR) सेवा की मदद से सरल है। आप Amazon Transcribe का उपयोग करके ऑडियो इनपुट ग्रहण कर सकते हैं, स्पष्ट ट्रांस्क्रिप्ट बना सकते हैं जो पढ़ने और समीक्षा करने में आसान हैं, अनुकूलन के साथ सटीकता बढ़ा सकते हैं, और क्लाइंट गोपनीयता की रक्षा के लिए जानकारी फ़िल्टर कर सकते हैं।

समाधान भी उपयोग करता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3), एक वस्तु भंडारण सेवा जिसे कहीं से भी किसी भी मात्रा में डेटा को संग्रहीत करने और पुनः प्राप्त करने के लिए बनाया गया है। यह एक साधारण भंडारण सेवा है जो बहुत कम लागत पर उद्योग-अग्रणी स्थायित्व, उपलब्धता, प्रदर्शन, सुरक्षा और वस्तुतः असीमित मापनीयता प्रदान करती है। जब आप Amazon S3 में डेटा स्टोर करते हैं, तो आप संसाधनों के साथ काम करते हैं जिन्हें जाना जाता है बाल्टी और वस्तुओं. बाल्टी वस्तुओं के लिए एक कंटेनर है। एक वस्तु एक फाइल है और कोई भी मेटाडेटा जो फ़ाइल का वर्णन करता है।

इस पोस्ट में, हम आपको एक बहु-बहुभाषी ऑडियो ट्रांसक्रिप्शन समाधान को लागू करने के लिए निम्नलिखित चरणों के बारे में बताते हैं:

  1. एक S3 बाल्टी बनाएँ।
  2. बकेट में अपनी ऑडियो फ़ाइल अपलोड करें।
  3. ट्रांसक्रिप्शन जॉब बनाएं।
  4. जॉब आउटपुट की समीक्षा करें।

.. पूर्वापेक्षाएँ

इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:

Amazon Transcribe ट्रांसक्राइब्ड आउटपुट को प्रबंधित सेवा या ग्राहक प्रबंधित S3 बकेट में स्टोर करने का विकल्प प्रदान करता है। इस पोस्ट के लिए, हमारे पास Amazon Transcribe है जो सेवा प्रबंधित S3 बकेट में परिणाम लिखता है।

ध्यान दें कि Amazon Transcribe एक क्षेत्रीय सेवा है और Amazon Transcribe API एंडपॉइंट्स को S3 बकेट के समान क्षेत्र में होने की आवश्यकता है।

अपनी ऑडियो इनपुट फ़ाइलों को संग्रहीत करने के लिए एक S3 बकेट बनाएँ

अपनी S3 बकेट बनाने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. अमेज़न S3 कंसोल पर, चुनें बाल्टी बनाएँ.
  2. के लिए बकेट नाम, बकेट के लिए विश्व स्तर पर अद्वितीय नाम दर्ज करें।
  3. के लिए AWS क्षेत्र, अपने Amazon Transcribe API एंडपॉइंट के समान क्षेत्र चुनें।
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  4. सभी डिफॉल्ट्स को ऐसे ही रहने दें।
  5. चुनें बाल्टी बनाएँ.
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.

अपनी ऑडियो फाइल को S3 बकेट में अपलोड करें

अपने AWS खाते में अपनी बहुभाषी ऑडियो फ़ाइल को S3 बकेट में अपलोड करें। इस अभ्यास के प्रयोजन के लिए, हम निम्नलिखित नमूने का उपयोग करते हैं बहुभाषी ऑडियो फ़ाइल. यह अंग्रेजी और स्पेनिश भाषाओं से जुड़े ग्राहक सहायता कॉल को कैप्चर करता है.

  1. अमेज़न S3 कंसोल पर, चुनें बाल्टी नेविगेशन फलक में
  2. इनपुट ऑडियो फ़ाइलों को संग्रहीत करने के लिए आपके द्वारा पहले बनाई गई बकेट चुनें।
  3. चुनें अपलोड.
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  4. चुनें फाइलें जोड़ो.
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  5. वह ऑडियो फ़ाइल चुनें जिसे आप अपने स्थानीय कंप्यूटर से लिप्यंतरित करना चाहते हैं।
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  6. चुनें अपलोड.
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.

आपकी ऑडियो फ़ाइल शीघ्र ही S3 बकेट में उपलब्ध होगी।

ट्रांसक्रिप्शन जॉब बनाएं

ऑडियो फ़ाइल अपलोड होने के साथ, अब हम ट्रांसक्रिप्शन जॉब बनाते हैं।

  1. Amazon Transcribe कंसोल पर, चुनें ट्रांसक्रिप्शन नौकरियों नेविगेशन फलक में
  2. चुनें नौकरी पैदा करो.
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  3. के लिए नाम, कार्य के लिए अद्वितीय नाम दर्ज करें.
    यह आउटपुट ट्रांसक्रिप्ट फ़ाइल का नाम भी होगा।
  4. के लिए भाषा सेटिंग, चुनते हैं स्वचालित एकाधिक भाषाओं की पहचान.
    यह सुविधा Amazon Transcribe को ऑडियो फ़ाइल में बोली जाने वाली सभी भाषाओं की स्वचालित रूप से पहचान करने और उनका लिप्यंतरण करने में सक्षम बनाती है।
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  5. के लिए स्वचालित भाषा पहचान के लिए भाषा विकल्प, इसे अचयनित रहने दें।
    Amazon Transcribe ऑडियो में बोली जाने वाली सभी भाषाओं की अपने आप पहचान करता है और उन्हें ट्रांसक्राइब करता है। प्रतिलेखन सटीकता में सुधार करने के लिए, आप वैकल्पिक रूप से ऐसी दो या अधिक भाषाओं का चयन कर सकते हैं जिन्हें आप जानते हैं कि ऑडियो में बोली गई थी।
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  6. के लिए मॉडल प्रकार, सिर्फ सामान्य मॉडल विकल्प इस पोस्ट को लिखने के समय उपलब्ध है।
  7. के लिए इनपुट डेटा, चुनें S3 ब्राउज़ करें.
  8. हमारे द्वारा पहले अपलोड की गई ऑडियो स्रोत फ़ाइल चुनें।
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  9. के लिए उत्पादित आंकड़े, आप या तो चुन सकते हैं सेवा-प्रबंधित S3 बकेट or ग्राहक निर्दिष्ट S3 बाल्टी. इस पद के लिए चयन करें सेवा-प्रबंधित S3 बकेट।
    अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.
  10. चुनें अगला.
  11. चुनें नौकरी पैदा करो.

जॉब आउटपुट की समीक्षा करें

जब ट्रांसक्रिप्शन का काम पूरा हो जाए, तो ट्रांसक्रिप्शन जॉब खोलें।
अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.

नीचे स्क्रॉल करें ट्रांसक्रिप्शन पूर्वावलोकन खंड। ऑडियो ट्रांसक्रिप्शन पर प्रदर्शित होता है टेक्स्ट टैब। ट्रांसक्रिप्शन में बातचीत के अंग्रेजी और स्पेनिश दोनों हिस्से शामिल हैं।
अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.

आप वैकल्पिक रूप से एक JSON फ़ाइल के रूप में प्रतिलेख की एक प्रति डाउनलोड कर सकते हैं, जिसे आप आगे के लिए उपयोग कर सकते हैं पोस्ट-कॉल एनालिटिक्स.

क्लीन अप

भविष्य के शुल्कों से बचने के लिए, इनपुट ऑडियो स्रोत फ़ाइल को संग्रहीत करने के लिए आपके द्वारा बनाए गए S3 बकेट को खाली करें और हटाएं। सुनिश्चित करें कि आपके पास फ़ाइलें कहीं और संग्रहीत हैं क्योंकि यह बाल्टी के भीतर मौजूद सभी वस्तुओं को स्थायी रूप से हटा देगा। Amazon Transcribe कंसोल पर, ट्रांसक्रिप्शन के लिए पहले बनाए गए जॉब को चुनें और डिलीट करें।

निष्कर्ष

इस पोस्ट में, हमने बिना कोई कोड लिखे, बहुभाषी ऑडियो फाइलों की पहचान और ट्रांसक्रिप्शन को स्वचालित करने के लिए एंड-टू-एंड वर्कफ्लो बनाया है। हमने अमेज़ॅन ट्रांसक्राइब में नई कार्यक्षमता का उपयोग एक ऑडियो फ़ाइल में स्वचालित रूप से विभिन्न भाषाओं की पहचान करने और प्रत्येक भाषा को सही ढंग से लिखने के लिए किया।

अधिक जानकारी के लिए, देखें बैच ट्रांसक्रिप्शन नौकरियों के साथ भाषा की पहचान.


लेखक के बारे में

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.मुर्तुजा बूटवाला एआई/एमएल प्रौद्योगिकियों में रुचि के साथ एडब्ल्यूएस में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें अपने ग्राहकों के साथ काम करने में आनंद आता है ताकि वे अपने व्यावसायिक परिणाम हासिल कर सकें। काम के बाहर, वह बाहरी गतिविधियों और परिवार के साथ समय बिताने का आनंद लेता है।

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.विक्टर रोजो एआई/एमएल और सॉफ्टवेयर विकास के बारे में भावुक है। उन्होंने Amazon Alexa को US और मैक्सिको में चलाने में मदद की। उन्होंने AWS पार्टनर्स के लिए Amazon टेक्स्टट्रैक्ट भी लाया और AWS कॉन्टैक्ट सेंटर इंटेलिजेंस (CCI) को धरातल पर उतार दिया। वह वर्तमान में कन्वर्सेशनल एआई पार्टनर्स के लिए ग्लोबल टेक लीडर हैं।

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें। लंबवत खोज. ऐ.बाबू श्रीनिवासन शिकागो में स्थित एक एडब्ल्यूएस सीनियर स्पेशलिस्ट एसए (लैंग्वेज एआई सर्विसेज) हैं। वह अमेज़ॅन ट्रांसक्राइब (भाषण से पाठ) पर ध्यान केंद्रित करता है, हमारे ग्राहकों को व्यावसायिक समस्याओं को हल करने के लिए एआई सेवाओं का उपयोग करने में मदद करता है। काम के बाहर, वह लकड़ी के काम और जादू के शो का आनंद लेता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सेजमेकर नोटबुक नौकरियों को शेड्यूल करें और एपीआई का उपयोग करके मल्टी-स्टेप नोटबुक वर्कफ़्लो प्रबंधित करें अमेज़न वेब सेवाएँ

स्रोत नोड: 1919097
समय टिकट: नवम्बर 29, 2023

पहचान दस्तावेजों पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर

स्रोत नोड: 1587681
समय टिकट: जुलाई 8, 2022