अमेज़ॅन ट्रांसक्राइब में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

कई एडब्ल्यूएस ग्राहकों सफलतापूर्वक उपयोग कर रहे हैं Amazon Transcribe अपने ग्राहक ऑडियो वार्तालापों को टेक्स्ट में सटीक, कुशलतापूर्वक और स्वचालित रूप से परिवर्तित करने के लिए, और उनसे कार्रवाई योग्य अंतर्दृष्टि निकालने के लिए। ये अंतर्दृष्टि आपको उन प्रक्रियाओं और उत्पादों को लगातार बढ़ाने में मदद कर सकती हैं जो सीधे आपके ग्राहकों के लिए गुणवत्ता और अनुभव में सुधार करती हैं।

भारत जैसे कई देशों में, अंग्रेजी संचार की प्राथमिक भाषा नहीं है। भारतीय ग्राहक बातचीत में हिंदी जैसी क्षेत्रीय भाषाएं होती हैं, जिसमें अंग्रेजी शब्द और वाक्यांश पूरे कॉल के दौरान बेतरतीब ढंग से बोले जाते हैं। स्रोत मीडिया फ़ाइलों में, उचित संज्ञाएं, डोमेन-विशिष्ट परिवर्णी शब्द, शब्द या वाक्यांश हो सकते हैं जिनके बारे में डिफ़ॉल्ट अमेज़ॅन ट्रांसक्राइब मॉडल को पता नहीं है। ऐसी मीडिया फ़ाइलों के ट्रांसक्रिप्शन में उन शब्दों के लिए गलत वर्तनी हो सकती है।

इस पोस्ट में, हम प्रदर्शित करते हैं कि आप Amazon Transcribe को अधिक जानकारी कैसे प्रदान कर सकते हैं कस्टम शब्दसंग्रह Amazon Transcribe व्यवसाय-विशिष्ट शब्दावली के साथ आपकी ऑडियो फ़ाइलों के ट्रांसक्रिप्शन को प्रबंधित करने के तरीके को अपडेट करने के लिए। हम हिंग्लिश कॉल के लिए ट्रांसक्रिप्शन की सटीकता में सुधार करने के लिए कदम दिखाते हैं (भारतीय हिंदी कॉल जिसमें भारतीय अंग्रेजी शब्द और वाक्यांश शामिल हैं)। आप ऑडियो कॉल को किसी के साथ ट्रांसक्रिप्ट करने के लिए उसी प्रक्रिया का उपयोग कर सकते हैं भाषा समर्थित अमेज़ॅन ट्रांसक्राइब द्वारा। कस्टम शब्दावली बनाने के बाद, आप हमारे . का उपयोग करके सटीकता और पैमाने पर ऑडियो कॉल को ट्रांसक्राइब कर सकते हैं पोस्ट कॉल एनालिटिक्स समाधान, जिसके बारे में हम इस पोस्ट में बाद में चर्चा करेंगे।

समाधान अवलोकन

हम निम्नलिखित भारतीय हिंदी ऑडियो कॉल का उपयोग करते हैं (SampleAudio.wav) प्रक्रिया को प्रदर्शित करने के लिए यादृच्छिक अंग्रेजी शब्दों के साथ।

फिर हम आपको निम्न उच्च-स्तरीय चरणों के बारे में बताते हैं:

डिफ़ॉल्ट अमेज़ॅन ट्रांसक्राइब हिंदी मॉडल का उपयोग करके ऑडियो फ़ाइल को ट्रांसक्राइब करें।
मॉडल सटीकता को मापें।
कस्टम शब्दावली के साथ मॉडल को प्रशिक्षित करें।
प्रशिक्षित मॉडल की सटीकता को मापें।

.. पूर्वापेक्षाएँ

आरंभ करने से पहले, हमें यह पुष्टि करने की आवश्यकता है कि इनपुट ऑडियो फ़ाइल निम्न से मिलती है डेटा इनपुट आवश्यकताओं को स्थानांतरित करें.

A मोनोफोनिक रिकॉर्डिंग, जिसे के रूप में भी जाना जाता है मोनो, में एक ऑडियो सिग्नल होता है, जिसमें एजेंट और ग्राहक के सभी ऑडियो तत्व एक चैनल में संयुक्त होते हैं। ए स्टीरियोफोनिक रिकॉर्डिंग, जिसे के रूप में भी जाना जाता है स्टीरियो, में एजेंट और ग्राहक के ऑडियो तत्वों को दो अलग-अलग चैनलों में कैप्चर करने के लिए दो ऑडियो सिग्नल होते हैं। प्रत्येक एजेंट-ग्राहक रिकॉर्डिंग फ़ाइल में दो ऑडियो चैनल होते हैं, एक एजेंट के लिए और दूसरा ग्राहक के लिए।

कम-निष्ठा ऑडियो रिकॉर्डिंग, जैसे कि टेलीफोन रिकॉर्डिंग, आमतौर पर 8,000 हर्ट्ज नमूना दरों का उपयोग करती हैं। अमेज़ॅन ट्रांसक्राइब 16,000-48,000 हर्ट्ज के बीच नमूना दरों के साथ मोनो रिकॉर्डेड और उच्च-निष्ठा ऑडियो फ़ाइलों को संसाधित करने का समर्थन करता है।

बेहतर ट्रांसक्रिप्शन परिणामों के लिए और एजेंट और ग्राहक द्वारा बोले गए शब्दों को स्पष्ट रूप से अलग करने के लिए, हम 8,000 हर्ट्ज नमूना दर पर रिकॉर्ड की गई ऑडियो फाइलों का उपयोग करने की सलाह देते हैं और स्टीरियो चैनल से अलग होते हैं।

आप जैसे टूल का उपयोग कर सकते हैं ffmpeg कमांड लाइन से अपनी इनपुट ऑडियो फाइलों को सत्यापित करने के लिए:

ffmpeg -i SampleAudio.wav

लौटाई गई प्रतिक्रिया में, इनपुट अनुभाग में स्ट्रीम से शुरू होने वाली लाइन की जांच करें, और पुष्टि करें कि ऑडियो फ़ाइलें 8,000 हर्ट्ज और स्टीरियो चैनल अलग हैं:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

जब आप बड़ी संख्या में ऑडियो फ़ाइलों को संसाधित करने के लिए एक पाइपलाइन बनाते हैं, तो आप उन फ़ाइलों को फ़िल्टर करने के लिए इस चरण को स्वचालित कर सकते हैं जो आवश्यकताओं को पूरा नहीं करती हैं।

एक अतिरिक्त पूर्वापेक्षा चरण के रूप में, लिखित की जाने वाली ऑडियो फ़ाइलों को होस्ट करने के लिए Amazon Simple Storage Service (Amazon S3) बकेट बनाएं। निर्देशों के लिए, देखें अपना पहला S3 बकेट बनाएं।फिर ऑडियो फ़ाइल अपलोड करें S3 बाल्टी के लिए।

ऑडियो फ़ाइल को डिफ़ॉल्ट मॉडल के साथ ट्रांसक्राइब करें

अब हम कर सकते हैं एक अमेज़ॅन ट्रांसक्राइब शुरू करें हमारे द्वारा अपलोड की गई ऑडियो फ़ाइल का उपयोग करके कॉल एनालिटिक्स जॉब। इस उदाहरण में, हम इसका उपयोग करते हैं एडब्ल्यूएस प्रबंधन कंसोल ऑडियो फ़ाइल को ट्रांसक्राइब करने के लिए। आप इसका उपयोग भी कर सकते हैं AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई) या एडब्ल्यूएस एसडीके।

Amazon Transcribe कंसोल पर, चुनें कॉल एनालिटिक्स नेविगेशन फलक में
चुनें कॉल एनालिटिक्स जॉब.
चुनें नौकरी पैदा करो.
के लिए नाम, नाम डालें।
के लिए भाषा सेटिंग, चुनते हैं विशिष्ट भाषा.
के लिए भाषा, चुनें हिंदी, IN (हाय-इन).
के लिए मॉडल प्रकार, चुनते हैं सामान्य मॉडल.
के लिए S3 पर इनपुट फ़ाइल स्थान, अपलोड की गई ऑडियो फ़ाइल वाली S3 बकेट में ब्राउज़ करें।
में उत्पादित आंकड़े अनुभाग, डिफ़ॉल्ट छोड़ दें।
में पहुंच की अनुमति अनुभाग चुनें एक IAM भूमिका बनाएँ.
कोई नया बनाएं AWS पहचान और अभिगम प्रबंधन (IAM) भूमिका जिसका नाम हिंदी ट्रांसक्रिप्शन है, जो S3 बकेट से ऑडियो फाइलों को पढ़ने और उपयोग करने के लिए Amazon Transcribe सेवा की अनुमति प्रदान करती है। AWS प्रमुख प्रबंधन सेवा (एडब्ल्यूएस केएमएस) डिक्रिप्ट करने के लिए कुंजी।
में कार्य कॉन्फ़िगर करें अनुभाग, डिफ़ॉल्ट को छोड़ दें, जिसमें शामिल हैं कस्टम शब्दावली अचयनित
चुनें नौकरी पैदा करो ऑडियो फ़ाइल को ट्रांसक्रिप्ट करने के लिए।

जब कार्य की स्थिति पूर्ण हो जाती है, तो आप कार्य (नमूनाऑडियो) को चुनकर प्रतिलेखन की समीक्षा कर सकते हैं।

ग्राहक और एजेंट वाक्य स्पष्ट रूप से अलग हो गए हैं, जो हमें यह पहचानने में मदद करता है कि ग्राहक या एजेंट ने कोई विशिष्ट शब्द या वाक्यांश बोला है या नहीं।

मॉडल सटीकता को मापें

स्वचालित वाक् पहचान (एएसआर) सिस्टम की सटीकता का मूल्यांकन करने के लिए शब्द त्रुटि दर (डब्ल्यूईआर) अनुशंसित और सबसे अधिक इस्तेमाल किया जाने वाला मीट्रिक है। लक्ष्य ASR प्रणाली की सटीकता में सुधार करने के लिए WER को यथासंभव कम करना है।

WER की गणना करने के लिए, निम्न चरणों को पूरा करें। यह पोस्ट ओपन-सोर्स का उपयोग करता है ASR मूल्यांकन मूल्यांकन उपकरण WER की गणना करने के लिए, लेकिन अन्य उपकरण जैसे जीएसओ or जीवर भी उपलब्ध हैं।

स्थापित करें la asr-evaluation टूल, जो आपके कमांड लाइन पर wer स्क्रिप्ट उपलब्ध कराता है।
पोस्ट में बाद में दिखाए गए wer कमांड को चलाने के लिए macOS या Linux प्लेटफॉर्म पर कमांड लाइन का उपयोग करें।
अमेज़ॅन ट्रांसक्रिप्ट जॉब विवरण पृष्ठ से ट्रांसक्रिप्ट को नाम की टेक्स्ट फ़ाइल में कॉपी करें hypothesis.txt.
जब आप कंसोल से ट्रांसक्रिप्शन को कॉपी करते हैं, तो आपको शब्दों के बीच एक नया लाइन कैरेक्टर दिखाई देगा Agent :, Customer :, और हिंदी लिपि।
इस पोस्ट में जगह बचाने के लिए नए लाइन कैरेक्टर हटा दिए गए हैं। यदि आप कंसोल से टेक्स्ट का उपयोग करना चुनते हैं, तो सुनिश्चित करें कि आपके द्वारा बनाई गई संदर्भ टेक्स्ट फ़ाइल में भी नए लाइन वर्ण हैं, क्योंकि wer टूल लाइन से लाइन की तुलना करता है।
संपूर्ण प्रतिलेख की समीक्षा करें और ऐसे किसी भी शब्द या वाक्यांश की पहचान करें जिसे ठीक करने की आवश्यकता है:
ग्राहक :,
एजेंट : गुड्डिनग इंडिया त्रवेल सेम है। लंबे समय तक ठीक रहें I
ग्राहक : मैं घरेलू सिकंदराबाद ट्रे के बारे में सोच रहा था। क्या आप कुछ बच सकते हैं?
एजेंट : हाँ सिकंदराबाद निर्वाचन से चार गोल मंथ कुण्डा फोर सालार जंग rautun r औ rurasaura प rir प
ग्राहक : हिंदुस्तानी
एजेंट : एक सजेशन वीकेंड में वृद्धि गुणा के चांसेज है।
ग्राहक : प्रीन्यूली एक शेर
एजेंट : आप टैक्सी यूज़ कर लो रायब और समाचार प्रकाशित नहीं होगा।
ग्राहक : ग्रेट थॉट अनुरोध सो मा। हाइलाइट किए गए शब्द वे हैं जो डिफ़ॉल्ट अमेज़ॅन ट्रांसक्राइब मॉडल ने सही ढंग से प्रस्तुत नहीं किया था।
नाम की एक और टेक्स्ट फ़ाइल बनाएँ reference.txt, हाइलाइट किए गए शब्दों को वांछित शब्दों से बदलना, जिन्हें आप ट्रांसक्रिप्शन में देखना चाहते हैं:
ग्राहक :,
एजेंट : गुड संक्रमित सौथ इंडिया ट्रेवेल से मैं । लंबे समय तक ठीक रहें I
ग्राहक : मैं वेसे सिकंदराबाद ट्रे के बारे में सोच रहा था। क्या आप कुछ बच सकते हैं?
एजेंट : इंडियन टेक्सटाइल। सिकंदराबाद निर्वाचन से चार मिनार गोलको जंग rautun r औ rurasaura प rir प
ग्राहक : हिंदुस्तानी
एजेंट : एक सजेशन वीकेंड में वृद्धि गुणा के चांसेज है।
ग्राहक : प्रीन्यूली यू केन शेर
एजेंट : आप टैक्सी यूज़ कर लो दृष्टिकोणव और समाचार प्रकाशित नहीं होगा।
ग्राहक : ग्रेट

आपके द्वारा बनाई गई संदर्भ और परिकल्पना पाठ फ़ाइलों की तुलना करने के लिए निम्न आदेश का उपयोग करें:

wer -i reference.txt hypothesis.txt

आपको निम्न आउटपुट मिलते हैं:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 92.9% 13 ( 14)

Errors = 7.1% 1 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 9.848% ( 13 / 132)

WRR: 90.909% ( 120 / 132)

SER: 55.556% ( 5 / 9)

wer कमांड फाइलों से टेक्स्ट की तुलना करता है reference.txt और hypothesis.txt. यह प्रत्येक वाक्य के लिए त्रुटियों की रिपोर्ट करता है और त्रुटियों की कुल संख्या (WER: 9.848% (13/132 .))) संपूर्ण प्रतिलेख में।

पिछले आउटपुट से, प्रतिलेख में 13 शब्दों में से 132 त्रुटियों की सूचना मिली थी। ये त्रुटियाँ तीन प्रकार की हो सकती हैं:

प्रतिस्थापन त्रुटियां - ये तब होते हैं जब Amazon Transcribe दूसरे की जगह एक शब्द लिखता है। उदाहरण के लिए, हमारे प्रतिलेख में, शब्द "मंथ (Mahina)” के स्थान पर लिखा गया थामीनार (मीनार)” वाक्य 4 में।
हटाने की त्रुटियां - ये तब होते हैं जब Amazon Transcribe ट्रांसक्रिप्ट में एक शब्द पूरी तरह से छूट जाता है। हमारे ट्रांसक्रिप्ट में, शब्द "सौठ (दक्षिण)” वाक्य 2 में छूट गया था।
प्रविष्टि त्रुटियां - ये तब होते हैं जब Amazon Transcribe एक ऐसा शब्द सम्मिलित करता है जो बोला नहीं गया था। हमें अपनी प्रतिलेख में कोई प्रविष्टि त्रुटि नहीं दिखाई देती है।

डिफ़ॉल्ट मॉडल द्वारा बनाए गए प्रतिलेख से अवलोकन

हम प्रतिलेख के आधार पर निम्नलिखित अवलोकन कर सकते हैं:

कुल WER 9.848% है, जिसका अर्थ है 90.152% शब्द सटीक रूप से लिखे गए हैं।
डिफ़ॉल्ट हिंदी मॉडल ने अधिकांश अंग्रेजी शब्दों का सटीक रूप से अनुवाद किया। ऐसा इसलिए है क्योंकि डिफ़ॉल्ट मॉडल को सबसे सामान्य अंग्रेजी शब्दों को बॉक्स से बाहर पहचानने के लिए प्रशिक्षित किया जाता है। मॉडल को हिंग्लिश भाषा को पहचानने के लिए भी प्रशिक्षित किया जाता है, जहां अंग्रेजी शब्द हिंदी बातचीत में बेतरतीब ढंग से दिखाई देते हैं। उदाहरण के लिए:
- गुड मॉर्निंग (वाक्य 2)।
- त्रवल पहला - ट्रैवल एजेंसी (वाक्य 2)।
- महान विचार, बहुत-बहुत धन्यवाद (वाक्य 9)।
वाक्य 4 में सबसे अधिक त्रुटियाँ हैं, जो भारतीय शहर हैदराबाद में स्थानों के नाम हैं:
- अच्छा। सिकंदराबाद चुनाव आयोग गोल कुंडा फोर मंथ सालार जंग rautun r औ rurasaura प rir प

अगले चरण में, हम प्रदर्शित करते हैं कि Amazon Transcribe में कस्टम शब्दावली का उपयोग करके पिछले वाक्य में हाइलाइट किए गए शब्दों को कैसे ठीक किया जाए:

चार मंथ (चारो महीना) चारण होना चाहिए मीनार (चारो मीनार)
गोलकुंआदा फ़ोर (गोलोcuएनडीए एफओur) गोल होना चाहिएकोनोदा फ़ोतुर (गोलोcoएनडीए एफओrt)
सलेर जंग (Saलार जंग) होना चाहिए सालेर जंग (सालार जंग)

कस्टम शब्दावली के साथ डिफ़ॉल्ट मॉडल को प्रशिक्षित करें

सेवा मेरे एक कस्टम शब्दावली बनाएं, आपको डिफ़ॉल्ट Amazon Transcribe मॉडल को प्रशिक्षित करने के लिए शब्दों और वाक्यांशों के साथ एक सारणीबद्ध प्रारूप में एक टेक्स्ट फ़ाइल बनाने की आवश्यकता है। आपकी तालिका में सभी चार कॉलम होने चाहिए (Phrase, SoundsLike, IPA, तथा DisplayAs), लेकिन वो Phrase कॉलम एकमात्र ऐसा है जिसमें प्रत्येक पंक्ति पर एक प्रविष्टि होनी चाहिए। आप अन्य कॉलम खाली छोड़ सकते हैं। प्रत्येक कॉलम को एक टैब कैरेक्टर से अलग किया जाना चाहिए, भले ही कुछ कॉलम खाली रह गए हों। उदाहरण के लिए, यदि आप छोड़ देते हैं IPA और SoundsLike एक पंक्ति के लिए खाली कॉलम, the Phrase और DisplaysAs उस पंक्ति के स्तंभों को तीन टैब वर्णों से अलग किया जाना चाहिए (बीच Phrase और IPA, IPA और SoundsLike, तथा SoundsLike और DisplaysAs).

एक कस्टम शब्दावली के साथ मॉडल को प्रशिक्षित करने के लिए, निम्नलिखित चरणों को पूरा करें:

नाम से एक फ़ाइल बनाएँ HindiCustomVocabulary.txt निम्नलिखित सामग्री के साथ।
```
वाक्यांश आईपीए ध्वनि की तरह प्रदर्शन के रूप में गोल कुंडा-महीना चाणर
```
आप केवल उन्हीं वर्णों का उपयोग कर सकते हैं जो आपकी भाषा के लिए समर्थित हैं। अपनी भाषा का संदर्भ लें अक्षरों का समूह ब्योरा हेतु।

कॉलम में निम्नलिखित जानकारी होती है:
1. Phrase - उन शब्दों या वाक्यांशों को शामिल करता है जिन्हें आप सटीक रूप से लिखना चाहते हैं। डिफ़ॉल्ट Amazon Transcribe मॉडल द्वारा बनाए गए ट्रांसक्रिप्ट में हाइलाइट किए गए शब्द या वाक्यांश इस कॉलम में दिखाई देते हैं। ये शब्द आम तौर पर परिवर्णी शब्द, उचित संज्ञा या डोमेन-विशिष्ट शब्द और वाक्यांश होते हैं जिनके बारे में डिफ़ॉल्ट मॉडल को जानकारी नहीं होती है। कस्टम शब्दावली तालिका में प्रत्येक पंक्ति के लिए यह एक अनिवार्य फ़ील्ड है। हमारे प्रतिलेख में, वाक्य 4 से "गोलकुंडा फोर (गोलकुंडा चार)" को सही करने के लिए, इस कॉलम में "गोलकुंडा- फेर (गोलकुंडा-चार)" का प्रयोग करें। यदि आपकी प्रविष्टि में कई शब्द हैं, तो प्रत्येक शब्द को एक हाइफ़न (-) से अलग करें; रिक्त स्थान का उपयोग न करें।
2. IPA - लिखित रूप में भाषण ध्वनियों का प्रतिनिधित्व करने वाले शब्द या वाक्यांश शामिल हैं। कॉलम वैकल्पिक है; आप इसकी पंक्तियों को खाली छोड़ सकते हैं। यह कॉलम अंतर्राष्ट्रीय ध्वन्यात्मक वर्णमाला (आईपीए) में केवल वर्णों का उपयोग करके ध्वन्यात्मक वर्तनी के लिए अभिप्रेत है। हिंदी भाषा के लिए अनुमत IPA वर्णों के लिए निर्धारित हिंदी वर्ण देखें। हमारे उदाहरण में, हम IPA का उपयोग नहीं कर रहे हैं। यदि आपके पास इस कॉलम में कोई प्रविष्टि है, तो आपका SoundsLike कॉलम खाली होना चाहिए।
3. SoundsLike - इसमें शब्दों या वाक्यांशों को छोटे टुकड़ों में विभाजित किया जाता है (आमतौर पर शब्दांश या सामान्य शब्दों के आधार पर) प्रत्येक टुकड़े के लिए एक उच्चारण प्रदान करने के लिए कि वह टुकड़ा कैसा लगता है। यह कॉलम वैकल्पिक है; आप पंक्तियों को खाली छोड़ सकते हैं। इस कॉलम में केवल तभी सामग्री जोड़ें जब आपकी प्रविष्टि में एक गैर-मानक शब्द शामिल हो, जैसे कि एक ब्रांड नाम, या किसी ऐसे शब्द को सही करने के लिए जिसे गलत तरीके से लिखा जा रहा हो। हमारे प्रतिलेख में, वाक्य 4 से "सालार जंग (सालार जंग)" को सही करने के लिए, इस कॉलम में "सा-लार-जंग (सा-लार-जंग)" का प्रयोग करें। इस कॉलम में रिक्त स्थान का प्रयोग न करें। यदि इस कॉलम में आपकी कोई प्रविष्टि है, तो आपका IPA कॉलम खाली होना चाहिए।
4. DisplaysAs - उन शब्दों या वाक्यांशों को शामिल करता है जिनकी वर्तनी आप ट्रांसक्रिप्शन आउटपुट में शब्दों या वाक्यांशों के लिए देखना चाहते हैं Phrase खेत। यह कॉलम वैकल्पिक है; आप पंक्तियों को खाली छोड़ सकते हैं। यदि आप इस फ़ील्ड को निर्दिष्ट नहीं करते हैं, तो Amazon Transcribe की सामग्री का उपयोग करता है Phrase आउटपुट फ़ाइल में फ़ील्ड। उदाहरण के लिए, हमारे प्रतिलेख में, वाक्य 4 से "गोलकुंडा फोर (गोलकुंडा चार)" को सही करने के लिए, इस कॉलम में "गोलकोंडा फोर्ट (गोलकुंडा किला)" का प्रयोग करें।
अपलोड पाठ फ़ाइल (HindiCustomVocabulary.txt) एक S3 बकेट के लिए। अब हम Amazon Transcribe में एक कस्टम शब्दावली बनाते हैं।
Amazon Transcribe कंसोल पर, चुनें कस्टम शब्दावली नेविगेशन फलक में
के लिए नाम, नाम डालें।
के लिए भाषा, चुनें हिंदी, IN (हाय-इन).
के लिए शब्दावली इनपुट स्रोत, चुनते हैं S3 स्थान.
के लिए S3 . पर शब्दावली फ़ाइल स्थान, के S3 पथ में प्रवेश करें HindiCustomVocabulary.txt फ़ाइल.
चुनें शब्दावली बनाएं.
ट्रांसक्राइब करें SampleAudio.wav निम्नलिखित मापदंडों के साथ कस्टम शब्दावली के साथ फाइल करें:
1. के लिए कार्य नाम , दर्ज SampleAudioCustomVocabulary.
2. के लिए भाषा, चुनें हिंदी, IN (हाय-इन).
3. के लिए S3 पर इनपुट फ़ाइल स्थान, के स्थान पर ब्राउज़ करें SampleAudio.wav.
4. के लिए IAM भूमिका, चुनते हैं मौजूदा IAM भूमिका का उपयोग करें और वह भूमिका चुनें जिसे आपने पहले बनाया था।
5. में कार्य कॉन्फ़िगर करें अनुभाग चुनें कस्टम शब्दावली और कस्टम शब्दावली चुनें HindiCustomVocabulary.
चुनें नौकरी पैदा करो.

कस्टम शब्दावली का उपयोग करने के बाद मॉडल सटीकता को मापें

अमेज़ॅन ट्रांसक्रिप्ट जॉब विवरण पृष्ठ से ट्रांसक्रिप्ट को नाम की टेक्स्ट फ़ाइल में कॉपी करें hypothesis-custom-vocabulary.txt:

ग्राहक :,

एजेंट : गुड्डनग इंडिया ट्रवेल सेम है। लंबे समय तक ठीक रहें I

ग्राहक : क्या आप कुछ बच सकते हैं?

एजेंट : इंडियन टेक्सटाइल। सिकंदराबाद चुनाव आयोग मिनार गोलको जंग rautun r औ rurasaura प rir प

ग्राहक : हिंदुस्तानी

एजेंट : एक सजेशन वीकेंड में वृद्धि गुणा के चांसेज है।

ग्राहक : सिरीउली

एजेंट : आप टेल्स अपडेट कर सकते हैं और अपडेट कर सकते हैं।

ग्राहक : ग्रेट

ध्यान दें कि हाइलाइट किए गए शब्द वांछित के रूप में लिखे गए हैं।

चलाएं wer नए प्रतिलेख के साथ फिर से आदेश दें:

wer -i reference.txt hypothesis-custom-vocabulary.txt

आपको निम्न आउटपुट मिलते हैं:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

कस्टम शब्दावली के साथ बनाई गई प्रतिलेख से टिप्पणियां

कुल WER 6.061% है, जिसका अर्थ है 93.939% शब्द सटीक रूप से लिखे गए हैं।

आइए कस्टम शब्दावली के साथ और बिना वाक्य 4 के लिए wer आउटपुट की तुलना करें। निम्नलिखित कस्टम शब्दावली के बिना है:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

निम्नलिखित कस्टम शब्दावली के साथ है:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

वाक्य 4 में कोई त्रुटि नहीं है। कस्टम शब्दावली की मदद से स्थानों के नाम सटीक रूप से लिखे गए हैं, जिससे इस ऑडियो फ़ाइल के लिए समग्र WER को 9.848% से घटाकर 6.061% कर दिया गया है। इसका मतलब है कि प्रतिलेखन की सटीकता में लगभग 4% का सुधार हुआ है।

कैसे कस्टम शब्दावली ने सटीकता में सुधार किया

हमने निम्नलिखित कस्टम शब्दावली का उपयोग किया:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe जाँचता है कि क्या ऑडियो फ़ाइल में कोई शब्द है जो इसमें उल्लिखित शब्दों की तरह लगता है Phrase कॉलम। तब मॉडल में प्रविष्टियों का उपयोग करता है IPA, SoundsLike, तथा DisplaysAs कॉलम उन विशिष्ट शब्दों के लिए वांछित वर्तनी के साथ प्रतिलेखित करने के लिए।

इस कस्टम शब्दावली के साथ, जब अमेज़ॅन ट्रांसक्राइब एक शब्द की पहचान करता है जो "गोलकुंडा- फोर (गोलकुंडा-चार)" जैसा लगता है, तो यह उस शब्द को "गोलकोंडा फोर्ट (गोलकुंडा किला)" के रूप में ट्रांसक्रिप्ट करता है।

अनुशंसाएँ

ट्रांसक्रिप्शन की सटीकता स्पीकर के उच्चारण, ओवरलैपिंग स्पीकर, बोलने की गति और पृष्ठभूमि के शोर जैसे मापदंडों पर भी निर्भर करती है। इसलिए, हम अनुशंसा करते हैं कि आप विभिन्न प्रकार की कॉल (विभिन्न ग्राहकों, एजेंटों, रुकावटों, आदि के साथ) के साथ प्रक्रिया का पालन करें, जो आपके लिए एक व्यापक कस्टम शब्दावली बनाने के लिए सबसे अधिक उपयोग किए जाने वाले डोमेन-विशिष्ट शब्दों को कवर करते हैं।

इस पोस्ट में, हमने कस्टम शब्दावली का उपयोग करके एक ऑडियो कॉल को ट्रांसक्रिप्ट करने की सटीकता में सुधार करने की प्रक्रिया सीखी। अपने हजारों संपर्क केंद्र कॉल रिकॉर्डिंग को प्रतिदिन संसाधित करने के लिए, आप इसका उपयोग कर सकते हैं पोस्ट कॉल एनालिटिक्स, एक पूरी तरह से स्वचालित, स्केलेबल, और लागत प्रभावी एंड-टू-एंड समाधान जो अधिकांश भारी भारोत्तोलन का ख्याल रखता है। आप बस अपनी ऑडियो फाइलों को एक S3 बकेट में अपलोड करते हैं, और मिनटों के भीतर, समाधान वेब UI में कॉल एनालिटिक्स जैसे सेंटिमेंट प्रदान करता है। पोस्ट कॉल एनालिटिक्स उभरते रुझानों को पहचानने, एजेंट कोचिंग के अवसरों की पहचान करने और कॉल की सामान्य भावना का आकलन करने के लिए कार्रवाई योग्य अंतर्दृष्टि प्रदान करता है। पोस्ट कॉल एनालिटिक्स एक है खुला स्रोत समाधान कि आप का उपयोग कर तैनात कर सकते हैं एडब्ल्यूएस CloudFormation.

ध्यान दें कि कस्टम शब्दसंग्रह उस संदर्भ का उपयोग नहीं करते हैं जिसमें शब्द बोले गए थे, वे केवल आपके द्वारा प्रदान किए गए व्यक्तिगत शब्दों पर ध्यान केंद्रित करते हैं। सटीकता को और बेहतर बनाने के लिए, आप इसका उपयोग कर सकते हैं कस्टम भाषा मॉडल. कस्टम शब्दावली के विपरीत, जो उच्चारण को वर्तनी के साथ जोड़ते हैं, कस्टम भाषा मॉडल किसी दिए गए शब्द से जुड़े संदर्भ को सीखते हैं। इसमें शामिल है कि कैसे और कब एक शब्द का उपयोग किया जाता है, और एक शब्द का दूसरे शब्दों के साथ संबंध होता है। एक कस्टम भाषा मॉडल बनाने के लिए, आप विभिन्न कॉलों के लिए हमारे द्वारा सीखी गई प्रक्रिया से प्राप्त ट्रांसक्रिप्शन का उपयोग कर सकते हैं, और उन्हें अपनी वेबसाइट या उपयोगकर्ता मैनुअल की सामग्री के साथ जोड़ सकते हैं जिसमें डोमेन-विशिष्ट शब्द और वाक्यांश शामिल हैं।

बैच ट्रांसक्रिप्शन के साथ उच्चतम ट्रांसक्रिप्शन सटीकता प्राप्त करने के लिए, आप अपने कस्टम भाषा मॉडल के संयोजन के साथ कस्टम शब्दावली का उपयोग कर सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने Amazon Transcribe में कॉल एनालिटिक्स और कस्टम शब्दावली का उपयोग करके अंग्रेजी शब्दों वाली हिंदी ऑडियो फाइलों को सटीक रूप से संसाधित करने के लिए विस्तृत कदम प्रदान किए हैं। आप किसी के साथ ऑडियो कॉल संसाधित करने के लिए इन्हीं चरणों का उपयोग कर सकते हैं भाषा समर्थित अमेज़ॅन ट्रांसक्राइब द्वारा।

अपनी वांछित सटीकता के साथ ट्रांसक्रिप्शन प्राप्त करने के बाद, आप अपने एजेंटों को प्रशिक्षित करके अपने एजेंट-ग्राहक वार्तालाप को बेहतर बना सकते हैं। आप अपने ग्राहकों की भावनाओं और रुझानों को भी समझ सकते हैं। कॉल एनालिटिक्स में स्पीकर डायराइज़ेशन, लाउडनेस डिटेक्शन और शब्दावली फ़िल्टरिंग सुविधाओं की मदद से, आप यह पहचान सकते हैं कि यह एजेंट या ग्राहक था जिसने अपना स्वर बढ़ाया या कोई विशिष्ट शब्द बोला। आप डोमेन-विशिष्ट शब्दों के आधार पर कॉल को वर्गीकृत कर सकते हैं, कार्रवाई योग्य जानकारी प्राप्त कर सकते हैं और अपने उत्पादों को बेहतर बनाने के लिए विश्लेषण चला सकते हैं। अंत में, आप अपने ट्रांसक्रिप्ट का अंग्रेजी या अपनी पसंद की अन्य समर्थित भाषाओं में अनुवाद कर सकते हैं अमेज़न अनुवाद.

लेखक के बारे में

शरत गुट्टीकोंडा एडब्ल्यूएस वर्ल्ड वाइड पब्लिक सेक्टर में सीनियर सॉल्यूशंस आर्किटेक्ट हैं। सरत को ग्राहकों की व्यावसायिक चपलता का त्याग किए बिना अपने क्लाउड संसाधनों को स्वचालित, प्रबंधित और नियंत्रित करने में मदद करने में आनंद आता है। अपने खाली समय में, उन्हें अपने बेटे के साथ लेगो बनाना और टेबल टेनिस खेलना पसंद है।

लावण्या सूद नई दिल्ली, भारत में स्थित एडब्ल्यूएस वर्ल्ड वाइड पब्लिक सेक्टर में एक समाधान वास्तुकार है। Lavanya को नई तकनीकों को सीखने और ग्राहकों को उनकी क्लाउड अपनाने की यात्रा में मदद करने में मज़ा आता है। अपने खाली समय में, वह यात्रा करना और विभिन्न खाद्य पदार्थों को आजमाना पसंद करती हैं।

समय टिकट: सितम्बर 7, 2022सितम्बर 8, 2022

समय टिकट: नवम्बर 22, 2023

Amazon Transcribe में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

.. पूर्वापेक्षाएँ

ऑडियो फ़ाइल को डिफ़ॉल्ट मॉडल के साथ ट्रांसक्राइब करें

मॉडल सटीकता को मापें

डिफ़ॉल्ट मॉडल द्वारा बनाए गए प्रतिलेख से अवलोकन

कस्टम शब्दावली के साथ डिफ़ॉल्ट मॉडल को प्रशिक्षित करें

कस्टम शब्दावली का उपयोग करने के बाद मॉडल सटीकता को मापें

कस्टम शब्दावली के साथ बनाई गई प्रतिलेख से टिप्पणियां

कैसे कस्टम शब्दावली ने सटीकता में सुधार किया

अनुशंसाएँ

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

सुरक्षित, रीयल-टाइम अनुमान लगाने के लिए Amazon SageMaker एंडपॉइंट के साथ पूरी तरह से होमोमॉर्फिक एन्क्रिप्शन सक्षम करें

दृष्टिबाधित लोगों को Amazon Textract और Amazon Poly का उपयोग करके दस्तावेज़ सुनने में सक्षम करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा