अमेज़ॅन ट्रांसक्राइब का उपयोग करके बहुभाषी ऑडियो में भाषाओं को स्वचालित रूप से पहचानें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

यदि आप एक से अधिक आधिकारिक भाषाओं वाले देश में या एक से अधिक क्षेत्रों में काम करते हैं, तो आपकी ऑडियो फ़ाइलों में विभिन्न भाषाएँ हो सकती हैं। प्रतिभागी पूरी तरह से अलग भाषा बोल सकते हैं या भाषाओं के बीच स्विच कर सकते हैं। पर्याप्त बहुभाषी आबादी वाले क्षेत्र में समस्या की रिपोर्ट करने के लिए ग्राहक सेवा कॉल पर विचार करें। हालाँकि बातचीत एक भाषा में शुरू हो सकती है, यह संभव है कि ग्राहक समस्या का वर्णन करने के लिए दूसरी भाषा में बदल सकता है, जो आराम के स्तर या अन्य भाषाओं के उपयोग की प्राथमिकताओं पर निर्भर करता है। इसी तरह, ग्राहक सेवा प्रतिनिधि ऑपरेटिंग या समस्या निवारण निर्देशों को संप्रेषित करते समय भाषाओं के बीच संक्रमण कर सकता है।

कम से कम 3 सेकंड के ऑडियो के साथ, Amazon Transcribe ऑडियो में बोली जाने वाली भाषाओं की स्वचालित रूप से पहचान कर सकता है और कुशलता से ट्रांसक्रिप्ट उत्पन्न कर सकता है और इसके लिए मनुष्यों को भाषा निर्दिष्ट करने की आवश्यकता नहीं होती है। यह विभिन्न उपयोग मामलों पर लागू होता है जैसे कि ग्राहक कॉल को ट्रांसक्रिप्ट करना, वॉयसमेल को टेक्स्ट में कनवर्ट करना, मीटिंग इंटरैक्शन कैप्चर करना, उपयोगकर्ता फोरम संचार ट्रैक करना, या मीडिया सामग्री उत्पादन और स्थानीयकरण वर्कफ्लो की निगरानी करना।

यह पोस्ट Amazon Transcribe का उपयोग करके एक बहु-भाषा ऑडियो फ़ाइल को ट्रांसक्राइब करने के चरणों के बारे में बताती है। हम चर्चा करते हैं कि Amazon Transcribe को ऑडियो फाइल कैसे उपलब्ध कराएं और Amazon Transcribe API को कॉल करते समय बहुभाषी ऑडियो फाइलों के ट्रांसक्रिप्शन को कैसे सक्षम करें।

समाधान अवलोकन

Amazon Transcribe एक AWS सेवा है जो आपके लिए बोली को टेक्स्ट में बदलना आसान बनाती है। किसी भी एप्लिकेशन में पाठ कार्यक्षमता में वाक् जोड़ना Amazon Transcribe, एक स्वचालित वाक् पहचान (ASR) सेवा की मदद से सरल है। आप Amazon Transcribe का उपयोग करके ऑडियो इनपुट ग्रहण कर सकते हैं, स्पष्ट ट्रांस्क्रिप्ट बना सकते हैं जो पढ़ने और समीक्षा करने में आसान हैं, अनुकूलन के साथ सटीकता बढ़ा सकते हैं, और क्लाइंट गोपनीयता की रक्षा के लिए जानकारी फ़िल्टर कर सकते हैं।

समाधान भी उपयोग करता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3), एक वस्तु भंडारण सेवा जिसे कहीं से भी किसी भी मात्रा में डेटा को संग्रहीत करने और पुनः प्राप्त करने के लिए बनाया गया है। यह एक साधारण भंडारण सेवा है जो बहुत कम लागत पर उद्योग-अग्रणी स्थायित्व, उपलब्धता, प्रदर्शन, सुरक्षा और वस्तुतः असीमित मापनीयता प्रदान करती है। जब आप Amazon S3 में डेटा स्टोर करते हैं, तो आप संसाधनों के साथ काम करते हैं जिन्हें जाना जाता है बाल्टी और वस्तुओं. बाल्टी वस्तुओं के लिए एक कंटेनर है। एक वस्तु एक फाइल है और कोई भी मेटाडेटा जो फ़ाइल का वर्णन करता है।

इस पोस्ट में, हम आपको एक बहु-बहुभाषी ऑडियो ट्रांसक्रिप्शन समाधान को लागू करने के लिए निम्नलिखित चरणों के बारे में बताते हैं:

एक S3 बाल्टी बनाएँ।
बकेट में अपनी ऑडियो फ़ाइल अपलोड करें।
ट्रांसक्रिप्शन जॉब बनाएं।
जॉब आउटपुट की समीक्षा करें।

.. पूर्वापेक्षाएँ

इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:

Amazon Transcribe ट्रांसक्राइब्ड आउटपुट को प्रबंधित सेवा या ग्राहक प्रबंधित S3 बकेट में स्टोर करने का विकल्प प्रदान करता है। इस पोस्ट के लिए, हमारे पास Amazon Transcribe है जो सेवा प्रबंधित S3 बकेट में परिणाम लिखता है।

ध्यान दें कि Amazon Transcribe एक क्षेत्रीय सेवा है और Amazon Transcribe API एंडपॉइंट्स को S3 बकेट के समान क्षेत्र में होने की आवश्यकता है।

अपनी ऑडियो इनपुट फ़ाइलों को संग्रहीत करने के लिए एक S3 बकेट बनाएँ

अपनी S3 बकेट बनाने के लिए, निम्नलिखित चरणों को पूरा करें:

अमेज़न S3 कंसोल पर, चुनें बाल्टी बनाएँ.
के लिए बकेट नाम, बकेट के लिए विश्व स्तर पर अद्वितीय नाम दर्ज करें।
के लिए AWS क्षेत्र, अपने Amazon Transcribe API एंडपॉइंट के समान क्षेत्र चुनें।
सभी डिफॉल्ट्स को ऐसे ही रहने दें।
चुनें बाल्टी बनाएँ.

अपनी ऑडियो फाइल को S3 बकेट में अपलोड करें

अपने AWS खाते में अपनी बहुभाषी ऑडियो फ़ाइल को S3 बकेट में अपलोड करें। इस अभ्यास के प्रयोजन के लिए, हम निम्नलिखित नमूने का उपयोग करते हैं बहुभाषी ऑडियो फ़ाइल. यह अंग्रेजी और स्पेनिश भाषाओं से जुड़े ग्राहक सहायता कॉल को कैप्चर करता है.

अमेज़न S3 कंसोल पर, चुनें बाल्टी नेविगेशन फलक में
इनपुट ऑडियो फ़ाइलों को संग्रहीत करने के लिए आपके द्वारा पहले बनाई गई बकेट चुनें।
चुनें अपलोड.
चुनें फाइलें जोड़ो.
वह ऑडियो फ़ाइल चुनें जिसे आप अपने स्थानीय कंप्यूटर से लिप्यंतरित करना चाहते हैं।
चुनें अपलोड.

आपकी ऑडियो फ़ाइल शीघ्र ही S3 बकेट में उपलब्ध होगी।

ट्रांसक्रिप्शन जॉब बनाएं

ऑडियो फ़ाइल अपलोड होने के साथ, अब हम ट्रांसक्रिप्शन जॉब बनाते हैं।

Amazon Transcribe कंसोल पर, चुनें ट्रांसक्रिप्शन नौकरियों नेविगेशन फलक में
चुनें नौकरी पैदा करो.
के लिए नाम, कार्य के लिए अद्वितीय नाम दर्ज करें.
यह आउटपुट ट्रांसक्रिप्ट फ़ाइल का नाम भी होगा।
के लिए भाषा सेटिंग, चुनते हैं स्वचालित एकाधिक भाषाओं की पहचान.
यह सुविधा Amazon Transcribe को ऑडियो फ़ाइल में बोली जाने वाली सभी भाषाओं की स्वचालित रूप से पहचान करने और उनका लिप्यंतरण करने में सक्षम बनाती है।
के लिए स्वचालित भाषा पहचान के लिए भाषा विकल्प, इसे अचयनित रहने दें।
Amazon Transcribe ऑडियो में बोली जाने वाली सभी भाषाओं की अपने आप पहचान करता है और उन्हें ट्रांसक्राइब करता है। प्रतिलेखन सटीकता में सुधार करने के लिए, आप वैकल्पिक रूप से ऐसी दो या अधिक भाषाओं का चयन कर सकते हैं जिन्हें आप जानते हैं कि ऑडियो में बोली गई थी।
के लिए मॉडल प्रकार, सिर्फ सामान्य मॉडल विकल्प इस पोस्ट को लिखने के समय उपलब्ध है।
के लिए इनपुट डेटा, चुनें S3 ब्राउज़ करें.
हमारे द्वारा पहले अपलोड की गई ऑडियो स्रोत फ़ाइल चुनें।
के लिए उत्पादित आंकड़े, आप या तो चुन सकते हैं सेवा-प्रबंधित S3 बकेट or ग्राहक निर्दिष्ट S3 बाल्टी. इस पद के लिए चयन करें सेवा-प्रबंधित S3 बकेट।
चुनें अगला.
चुनें नौकरी पैदा करो.

जॉब आउटपुट की समीक्षा करें

जब ट्रांसक्रिप्शन का काम पूरा हो जाए, तो ट्रांसक्रिप्शन जॉब खोलें।

नीचे स्क्रॉल करें ट्रांसक्रिप्शन पूर्वावलोकन खंड। ऑडियो ट्रांसक्रिप्शन पर प्रदर्शित होता है टेक्स्ट टैब। ट्रांसक्रिप्शन में बातचीत के अंग्रेजी और स्पेनिश दोनों हिस्से शामिल हैं।

आप वैकल्पिक रूप से एक JSON फ़ाइल के रूप में प्रतिलेख की एक प्रति डाउनलोड कर सकते हैं, जिसे आप आगे के लिए उपयोग कर सकते हैं पोस्ट-कॉल एनालिटिक्स.

क्लीन अप

भविष्य के शुल्कों से बचने के लिए, इनपुट ऑडियो स्रोत फ़ाइल को संग्रहीत करने के लिए आपके द्वारा बनाए गए S3 बकेट को खाली करें और हटाएं। सुनिश्चित करें कि आपके पास फ़ाइलें कहीं और संग्रहीत हैं क्योंकि यह बाल्टी के भीतर मौजूद सभी वस्तुओं को स्थायी रूप से हटा देगा। Amazon Transcribe कंसोल पर, ट्रांसक्रिप्शन के लिए पहले बनाए गए जॉब को चुनें और डिलीट करें।

निष्कर्ष

इस पोस्ट में, हमने बिना कोई कोड लिखे, बहुभाषी ऑडियो फाइलों की पहचान और ट्रांसक्रिप्शन को स्वचालित करने के लिए एंड-टू-एंड वर्कफ्लो बनाया है। हमने अमेज़ॅन ट्रांसक्राइब में नई कार्यक्षमता का उपयोग एक ऑडियो फ़ाइल में स्वचालित रूप से विभिन्न भाषाओं की पहचान करने और प्रत्येक भाषा को सही ढंग से लिखने के लिए किया।

अधिक जानकारी के लिए, देखें बैच ट्रांसक्रिप्शन नौकरियों के साथ भाषा की पहचान.

लेखक के बारे में

मुर्तुजा बूटवाला एआई/एमएल प्रौद्योगिकियों में रुचि के साथ एडब्ल्यूएस में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें अपने ग्राहकों के साथ काम करने में आनंद आता है ताकि वे अपने व्यावसायिक परिणाम हासिल कर सकें। काम के बाहर, वह बाहरी गतिविधियों और परिवार के साथ समय बिताने का आनंद लेता है।

विक्टर रोजो एआई/एमएल और सॉफ्टवेयर विकास के बारे में भावुक है। उन्होंने Amazon Alexa को US और मैक्सिको में चलाने में मदद की। उन्होंने AWS पार्टनर्स के लिए Amazon टेक्स्टट्रैक्ट भी लाया और AWS कॉन्टैक्ट सेंटर इंटेलिजेंस (CCI) को धरातल पर उतार दिया। वह वर्तमान में कन्वर्सेशनल एआई पार्टनर्स के लिए ग्लोबल टेक लीडर हैं।

बाबू श्रीनिवासन शिकागो में स्थित एक एडब्ल्यूएस सीनियर स्पेशलिस्ट एसए (लैंग्वेज एआई सर्विसेज) हैं। वह अमेज़ॅन ट्रांसक्राइब (भाषण से पाठ) पर ध्यान केंद्रित करता है, हमारे ग्राहकों को व्यावसायिक समस्याओं को हल करने के लिए एआई सेवाओं का उपयोग करने में मदद करता है। काम के बाहर, वह लकड़ी के काम और जादू के शो का आनंद लेता है।

समय टिकट: दिसम्बर 14/2022दिसम्बर 14/2022

समय टिकट: जुलाई 8, 2022

Amazon SageMaker में TensorFlow छवि वर्गीकरण मॉडल के लिए स्थानांतरण सीखना

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1655641

समय टिकट: सितम्बर 7, 2022

Amazon SageMaker बिल्ट-इन LightGBM अब Dask का उपयोग करके वितरित प्रशिक्षण प्रदान करता है

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1797416

समय टिकट: जनवरी 30, 2023

Amazon Transcribe का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

.. पूर्वापेक्षाएँ

अपनी ऑडियो इनपुट फ़ाइलों को संग्रहीत करने के लिए एक S3 बकेट बनाएँ

अपनी ऑडियो फाइल को S3 बकेट में अपलोड करें

ट्रांसक्रिप्शन जॉब बनाएं

जॉब आउटपुट की समीक्षा करें

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon Kinesis, AWS Glue और Amazon SageMaker के साथ भविष्य कहनेवाला रखरखाव समाधान बनाएं

दृष्टिबाधित लोगों को Amazon Textract और Amazon Poly का उपयोग करके दस्तावेज़ सुनने में सक्षम करें

अमेज़ॅन सेजमेकर के साथ हजारों एमएल मॉडलों का स्केल प्रशिक्षण और अनुमान | अमेज़न वेब सेवाएँ

Amazon SageMaker में TensorFlow छवि वर्गीकरण मॉडल के लिए स्थानांतरण सीखना

Amazon SageMaker बिल्ट-इन LightGBM अब Dask का उपयोग करके वितरित प्रशिक्षण प्रदान करता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा