अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.

Amazon Transcribe में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें

कई एडब्ल्यूएस ग्राहकों सफलतापूर्वक उपयोग कर रहे हैं Amazon Transcribe अपने ग्राहक ऑडियो वार्तालापों को टेक्स्ट में सटीक, कुशलतापूर्वक और स्वचालित रूप से परिवर्तित करने के लिए, और उनसे कार्रवाई योग्य अंतर्दृष्टि निकालने के लिए। ये अंतर्दृष्टि आपको उन प्रक्रियाओं और उत्पादों को लगातार बढ़ाने में मदद कर सकती हैं जो सीधे आपके ग्राहकों के लिए गुणवत्ता और अनुभव में सुधार करती हैं।

भारत जैसे कई देशों में, अंग्रेजी संचार की प्राथमिक भाषा नहीं है। भारतीय ग्राहक बातचीत में हिंदी जैसी क्षेत्रीय भाषाएं होती हैं, जिसमें अंग्रेजी शब्द और वाक्यांश पूरे कॉल के दौरान बेतरतीब ढंग से बोले जाते हैं। स्रोत मीडिया फ़ाइलों में, उचित संज्ञाएं, डोमेन-विशिष्ट परिवर्णी शब्द, शब्द या वाक्यांश हो सकते हैं जिनके बारे में डिफ़ॉल्ट अमेज़ॅन ट्रांसक्राइब मॉडल को पता नहीं है। ऐसी मीडिया फ़ाइलों के ट्रांसक्रिप्शन में उन शब्दों के लिए गलत वर्तनी हो सकती है।

इस पोस्ट में, हम प्रदर्शित करते हैं कि आप Amazon Transcribe को अधिक जानकारी कैसे प्रदान कर सकते हैं कस्टम शब्दसंग्रह Amazon Transcribe व्यवसाय-विशिष्ट शब्दावली के साथ आपकी ऑडियो फ़ाइलों के ट्रांसक्रिप्शन को प्रबंधित करने के तरीके को अपडेट करने के लिए। हम हिंग्लिश कॉल के लिए ट्रांसक्रिप्शन की सटीकता में सुधार करने के लिए कदम दिखाते हैं (भारतीय हिंदी कॉल जिसमें भारतीय अंग्रेजी शब्द और वाक्यांश शामिल हैं)। आप ऑडियो कॉल को किसी के साथ ट्रांसक्रिप्ट करने के लिए उसी प्रक्रिया का उपयोग कर सकते हैं भाषा समर्थित अमेज़ॅन ट्रांसक्राइब द्वारा। कस्टम शब्दावली बनाने के बाद, आप हमारे . का उपयोग करके सटीकता और पैमाने पर ऑडियो कॉल को ट्रांसक्राइब कर सकते हैं पोस्ट कॉल एनालिटिक्स समाधान, जिसके बारे में हम इस पोस्ट में बाद में चर्चा करेंगे।

समाधान अवलोकन

हम निम्नलिखित भारतीय हिंदी ऑडियो कॉल का उपयोग करते हैं (SampleAudio.wav) प्रक्रिया को प्रदर्शित करने के लिए यादृच्छिक अंग्रेजी शब्दों के साथ।

फिर हम आपको निम्न उच्च-स्तरीय चरणों के बारे में बताते हैं:

  1. डिफ़ॉल्ट अमेज़ॅन ट्रांसक्राइब हिंदी मॉडल का उपयोग करके ऑडियो फ़ाइल को ट्रांसक्राइब करें।
  2. मॉडल सटीकता को मापें।
  3. कस्टम शब्दावली के साथ मॉडल को प्रशिक्षित करें।
  4. प्रशिक्षित मॉडल की सटीकता को मापें।

.. पूर्वापेक्षाएँ

आरंभ करने से पहले, हमें यह पुष्टि करने की आवश्यकता है कि इनपुट ऑडियो फ़ाइल निम्न से मिलती है डेटा इनपुट आवश्यकताओं को स्थानांतरित करें.

A मोनोफोनिक रिकॉर्डिंग, जिसे के रूप में भी जाना जाता है मोनो, में एक ऑडियो सिग्नल होता है, जिसमें एजेंट और ग्राहक के सभी ऑडियो तत्व एक चैनल में संयुक्त होते हैं। ए स्टीरियोफोनिक रिकॉर्डिंग, जिसे के रूप में भी जाना जाता है स्टीरियो, में एजेंट और ग्राहक के ऑडियो तत्वों को दो अलग-अलग चैनलों में कैप्चर करने के लिए दो ऑडियो सिग्नल होते हैं। प्रत्येक एजेंट-ग्राहक रिकॉर्डिंग फ़ाइल में दो ऑडियो चैनल होते हैं, एक एजेंट के लिए और दूसरा ग्राहक के लिए।

कम-निष्ठा ऑडियो रिकॉर्डिंग, जैसे कि टेलीफोन रिकॉर्डिंग, आमतौर पर 8,000 हर्ट्ज नमूना दरों का उपयोग करती हैं। अमेज़ॅन ट्रांसक्राइब 16,000-48,000 हर्ट्ज के बीच नमूना दरों के साथ मोनो रिकॉर्डेड और उच्च-निष्ठा ऑडियो फ़ाइलों को संसाधित करने का समर्थन करता है।

बेहतर ट्रांसक्रिप्शन परिणामों के लिए और एजेंट और ग्राहक द्वारा बोले गए शब्दों को स्पष्ट रूप से अलग करने के लिए, हम 8,000 हर्ट्ज नमूना दर पर रिकॉर्ड की गई ऑडियो फाइलों का उपयोग करने की सलाह देते हैं और स्टीरियो चैनल से अलग होते हैं।

आप जैसे टूल का उपयोग कर सकते हैं ffmpeg कमांड लाइन से अपनी इनपुट ऑडियो फाइलों को सत्यापित करने के लिए:

ffmpeg -i SampleAudio.wav

लौटाई गई प्रतिक्रिया में, इनपुट अनुभाग में स्ट्रीम से शुरू होने वाली लाइन की जांच करें, और पुष्टि करें कि ऑडियो फ़ाइलें 8,000 हर्ट्ज और स्टीरियो चैनल अलग हैं:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

जब आप बड़ी संख्या में ऑडियो फ़ाइलों को संसाधित करने के लिए एक पाइपलाइन बनाते हैं, तो आप उन फ़ाइलों को फ़िल्टर करने के लिए इस चरण को स्वचालित कर सकते हैं जो आवश्यकताओं को पूरा नहीं करती हैं।

एक अतिरिक्त पूर्वापेक्षा चरण के रूप में, लिखित की जाने वाली ऑडियो फ़ाइलों को होस्ट करने के लिए Amazon Simple Storage Service (Amazon S3) बकेट बनाएं। निर्देशों के लिए, देखें अपना पहला S3 बकेट बनाएं।फिर ऑडियो फ़ाइल अपलोड करें S3 बाल्टी के लिए।

ऑडियो फ़ाइल को डिफ़ॉल्ट मॉडल के साथ ट्रांसक्राइब करें

अब हम कर सकते हैं एक अमेज़ॅन ट्रांसक्राइब शुरू करें हमारे द्वारा अपलोड की गई ऑडियो फ़ाइल का उपयोग करके कॉल एनालिटिक्स जॉब। इस उदाहरण में, हम इसका उपयोग करते हैं एडब्ल्यूएस प्रबंधन कंसोल ऑडियो फ़ाइल को ट्रांसक्राइब करने के लिए। आप इसका उपयोग भी कर सकते हैं AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई) या एडब्ल्यूएस एसडीके।

  1. Amazon Transcribe कंसोल पर, चुनें कॉल एनालिटिक्स नेविगेशन फलक में
  2. चुनें कॉल एनालिटिक्स जॉब.
  3. चुनें नौकरी पैदा करो.
  4. के लिए नाम, नाम डालें।
  5. के लिए भाषा सेटिंग, चुनते हैं विशिष्ट भाषा.
  6. के लिए भाषा, चुनें हिंदी, IN (हाय-इन).
  7. के लिए मॉडल प्रकार, चुनते हैं सामान्य मॉडल.
  8. के लिए S3 पर इनपुट फ़ाइल स्थान, अपलोड की गई ऑडियो फ़ाइल वाली S3 बकेट में ब्राउज़ करें।अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.
  9. में उत्पादित आंकड़े अनुभाग, डिफ़ॉल्ट छोड़ दें।
  10. में पहुंच की अनुमति अनुभाग चुनें एक IAM भूमिका बनाएँ.
  11. कोई नया बनाएं AWS पहचान और अभिगम प्रबंधन (IAM) भूमिका जिसका नाम हिंदी ट्रांसक्रिप्शन है, जो S3 बकेट से ऑडियो फाइलों को पढ़ने और उपयोग करने के लिए Amazon Transcribe सेवा की अनुमति प्रदान करती है। AWS प्रमुख प्रबंधन सेवा (एडब्ल्यूएस केएमएस) डिक्रिप्ट करने के लिए कुंजी।अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.
  12. में कार्य कॉन्फ़िगर करें अनुभाग, डिफ़ॉल्ट को छोड़ दें, जिसमें शामिल हैं कस्टम शब्दावली अचयनित
  13. चुनें नौकरी पैदा करो ऑडियो फ़ाइल को ट्रांसक्रिप्ट करने के लिए।

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.

जब कार्य की स्थिति पूर्ण हो जाती है, तो आप कार्य (नमूनाऑडियो) को चुनकर प्रतिलेखन की समीक्षा कर सकते हैं।

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.

ग्राहक और एजेंट वाक्य स्पष्ट रूप से अलग हो गए हैं, जो हमें यह पहचानने में मदद करता है कि ग्राहक या एजेंट ने कोई विशिष्ट शब्द या वाक्यांश बोला है या नहीं।

मॉडल सटीकता को मापें

स्वचालित वाक् पहचान (एएसआर) सिस्टम की सटीकता का मूल्यांकन करने के लिए शब्द त्रुटि दर (डब्ल्यूईआर) अनुशंसित और सबसे अधिक इस्तेमाल किया जाने वाला मीट्रिक है। लक्ष्य ASR प्रणाली की सटीकता में सुधार करने के लिए WER को यथासंभव कम करना है।

WER की गणना करने के लिए, निम्न चरणों को पूरा करें। यह पोस्ट ओपन-सोर्स का उपयोग करता है ASR मूल्यांकन मूल्यांकन उपकरण WER की गणना करने के लिए, लेकिन अन्य उपकरण जैसे जीएसओ or जीवर भी उपलब्ध हैं।

  1. स्थापित करें la asr-evaluation टूल, जो आपके कमांड लाइन पर wer स्क्रिप्ट उपलब्ध कराता है।
    पोस्ट में बाद में दिखाए गए wer कमांड को चलाने के लिए macOS या Linux प्लेटफॉर्म पर कमांड लाइन का उपयोग करें।
  2. अमेज़ॅन ट्रांसक्रिप्ट जॉब विवरण पृष्ठ से ट्रांसक्रिप्ट को नाम की टेक्स्ट फ़ाइल में कॉपी करें hypothesis.txt.
    जब आप कंसोल से ट्रांसक्रिप्शन को कॉपी करते हैं, तो आपको शब्दों के बीच एक नया लाइन कैरेक्टर दिखाई देगा Agent :, Customer :, और हिंदी लिपि।
    इस पोस्ट में जगह बचाने के लिए नए लाइन कैरेक्टर हटा दिए गए हैं। यदि आप कंसोल से टेक्स्ट का उपयोग करना चुनते हैं, तो सुनिश्चित करें कि आपके द्वारा बनाई गई संदर्भ टेक्स्ट फ़ाइल में भी नए लाइन वर्ण हैं, क्योंकि wer टूल लाइन से लाइन की तुलना करता है।
  3. संपूर्ण प्रतिलेख की समीक्षा करें और ऐसे किसी भी शब्द या वाक्यांश की पहचान करें जिसे ठीक करने की आवश्यकता है:
    ग्राहक :,
    एजेंट : गुड्डिनग इंडिया त्रवेल सेम है। लंबे समय तक ठीक रहें I
    ग्राहक : मैं घरेलू सिकंदराबाद ट्रे के बारे में सोच रहा था। क्या आप कुछ बच सकते हैं?
    एजेंट : हाँ सिकंदराबाद निर्वाचन से चार गोल मंथ कुण्डा फोर सालार जंग rautun r औ rurasaura प rir प
    ग्राहक : हिंदुस्तानी
    एजेंट : एक सजेशन वीकेंड में वृद्धि गुणा के चांसेज है।
    ग्राहक : प्रीन्यूली एक शेर
    एजेंट : आप टैक्सी यूज़ कर लो रायब और समाचार प्रकाशित नहीं होगा।
    ग्राहक : ग्रेट थॉट अनुरोध सो मा। हाइलाइट किए गए शब्द वे हैं जो डिफ़ॉल्ट अमेज़ॅन ट्रांसक्राइब मॉडल ने सही ढंग से प्रस्तुत नहीं किया था।
  4. नाम की एक और टेक्स्ट फ़ाइल बनाएँ reference.txt, हाइलाइट किए गए शब्दों को वांछित शब्दों से बदलना, जिन्हें आप ट्रांसक्रिप्शन में देखना चाहते हैं:
    ग्राहक :,
    एजेंट : गुड संक्रमित सौथ इंडिया ट्रेवेल से मैं । लंबे समय तक ठीक रहें I
    ग्राहक : मैं वेसे सिकंदराबाद ट्रे के बारे में सोच रहा था। क्या आप कुछ बच सकते हैं?
    एजेंट : इंडियन टेक्सटाइल। सिकंदराबाद निर्वाचन से चार मिनार गोलको जंग rautun r औ rurasaura प rir प
    ग्राहक : हिंदुस्तानी
    एजेंट : एक सजेशन वीकेंड में वृद्धि गुणा के चांसेज है।
    ग्राहक : प्रीन्यूली यू केन शेर
    एजेंट : आप टैक्सी यूज़ कर लो दृष्टिकोणव और समाचार प्रकाशित नहीं होगा।
    ग्राहक : ग्रेट
  5. आपके द्वारा बनाई गई संदर्भ और परिकल्पना पाठ फ़ाइलों की तुलना करने के लिए निम्न आदेश का उपयोग करें:
    wer -i reference.txt hypothesis.txt

    आपको निम्न आउटपुट मिलते हैं:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

wer कमांड फाइलों से टेक्स्ट की तुलना करता है reference.txt और hypothesis.txt. यह प्रत्येक वाक्य के लिए त्रुटियों की रिपोर्ट करता है और त्रुटियों की कुल संख्या (WER: 9.848% (13/132 .))) संपूर्ण प्रतिलेख में।

पिछले आउटपुट से, प्रतिलेख में 13 शब्दों में से 132 त्रुटियों की सूचना मिली थी। ये त्रुटियाँ तीन प्रकार की हो सकती हैं:

  • प्रतिस्थापन त्रुटियां - ये तब होते हैं जब Amazon Transcribe दूसरे की जगह एक शब्द लिखता है। उदाहरण के लिए, हमारे प्रतिलेख में, शब्द "मंथ (Mahina)” के स्थान पर लिखा गया थामीनार (मीनार)” वाक्य 4 में।
  • हटाने की त्रुटियां - ये तब होते हैं जब Amazon Transcribe ट्रांसक्रिप्ट में एक शब्द पूरी तरह से छूट जाता है। हमारे ट्रांसक्रिप्ट में, शब्द "सौठ (दक्षिण)” वाक्य 2 में छूट गया था।
  • प्रविष्टि त्रुटियां - ये तब होते हैं जब Amazon Transcribe एक ऐसा शब्द सम्मिलित करता है जो बोला नहीं गया था। हमें अपनी प्रतिलेख में कोई प्रविष्टि त्रुटि नहीं दिखाई देती है।

डिफ़ॉल्ट मॉडल द्वारा बनाए गए प्रतिलेख से अवलोकन

हम प्रतिलेख के आधार पर निम्नलिखित अवलोकन कर सकते हैं:

  • कुल WER 9.848% है, जिसका अर्थ है 90.152% शब्द सटीक रूप से लिखे गए हैं।
  • डिफ़ॉल्ट हिंदी मॉडल ने अधिकांश अंग्रेजी शब्दों का सटीक रूप से अनुवाद किया। ऐसा इसलिए है क्योंकि डिफ़ॉल्ट मॉडल को सबसे सामान्य अंग्रेजी शब्दों को बॉक्स से बाहर पहचानने के लिए प्रशिक्षित किया जाता है। मॉडल को हिंग्लिश भाषा को पहचानने के लिए भी प्रशिक्षित किया जाता है, जहां अंग्रेजी शब्द हिंदी बातचीत में बेतरतीब ढंग से दिखाई देते हैं। उदाहरण के लिए:
    • गुड मॉर्निंग (वाक्य 2)।
    • त्रवल पहला - ट्रैवल एजेंसी (वाक्य 2)।
    • महान विचार, बहुत-बहुत धन्यवाद (वाक्य 9)।
  • वाक्य 4 में सबसे अधिक त्रुटियाँ हैं, जो भारतीय शहर हैदराबाद में स्थानों के नाम हैं:
    • अच्छा। सिकंदराबाद चुनाव आयोग गोल कुंडा फोर मंथ सालार जंग rautun r औ rurasaura प rir प

अगले चरण में, हम प्रदर्शित करते हैं कि Amazon Transcribe में कस्टम शब्दावली का उपयोग करके पिछले वाक्य में हाइलाइट किए गए शब्दों को कैसे ठीक किया जाए:

  • चार मंथ (चारो महीना) चारण होना चाहिए मीनार (चारो मीनार)
  • गोलकुंआदा फ़ो (गोलोcuएनडीए एफओur) गोल होना चाहिएकोनोदा फ़ोतुर (गोलोcoएनडीए एफओrt)
  • लेर जंग (Saलार जंग) होना चाहिए सालेर जंग (सालार जंग)

कस्टम शब्दावली के साथ डिफ़ॉल्ट मॉडल को प्रशिक्षित करें

सेवा मेरे एक कस्टम शब्दावली बनाएं, आपको डिफ़ॉल्ट Amazon Transcribe मॉडल को प्रशिक्षित करने के लिए शब्दों और वाक्यांशों के साथ एक सारणीबद्ध प्रारूप में एक टेक्स्ट फ़ाइल बनाने की आवश्यकता है। आपकी तालिका में सभी चार कॉलम होने चाहिए (Phrase, SoundsLike, IPA, तथा DisplayAs), लेकिन वो Phrase कॉलम एकमात्र ऐसा है जिसमें प्रत्येक पंक्ति पर एक प्रविष्टि होनी चाहिए। आप अन्य कॉलम खाली छोड़ सकते हैं। प्रत्येक कॉलम को एक टैब कैरेक्टर से अलग किया जाना चाहिए, भले ही कुछ कॉलम खाली रह गए हों। उदाहरण के लिए, यदि आप छोड़ देते हैं IPA और SoundsLike एक पंक्ति के लिए खाली कॉलम, the Phrase और DisplaysAs उस पंक्ति के स्तंभों को तीन टैब वर्णों से अलग किया जाना चाहिए (बीच Phrase और IPA, IPA और SoundsLike, तथा SoundsLike और DisplaysAs).

एक कस्टम शब्दावली के साथ मॉडल को प्रशिक्षित करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. नाम से एक फ़ाइल बनाएँ HindiCustomVocabulary.txt निम्नलिखित सामग्री के साथ।
    वाक्यांश आईपीए ध्वनि की तरह प्रदर्शन के रूप में गोल कुंडा-महीना चाणर

    आप केवल उन्हीं वर्णों का उपयोग कर सकते हैं जो आपकी भाषा के लिए समर्थित हैं। अपनी भाषा का संदर्भ लें अक्षरों का समूह ब्योरा हेतु।

    कॉलम में निम्नलिखित जानकारी होती है:

    1. Phrase - उन शब्दों या वाक्यांशों को शामिल करता है जिन्हें आप सटीक रूप से लिखना चाहते हैं। डिफ़ॉल्ट Amazon Transcribe मॉडल द्वारा बनाए गए ट्रांसक्रिप्ट में हाइलाइट किए गए शब्द या वाक्यांश इस कॉलम में दिखाई देते हैं। ये शब्द आम तौर पर परिवर्णी शब्द, उचित संज्ञा या डोमेन-विशिष्ट शब्द और वाक्यांश होते हैं जिनके बारे में डिफ़ॉल्ट मॉडल को जानकारी नहीं होती है। कस्टम शब्दावली तालिका में प्रत्येक पंक्ति के लिए यह एक अनिवार्य फ़ील्ड है। हमारे प्रतिलेख में, वाक्य 4 से "गोलकुंडा फोर (गोलकुंडा चार)" को सही करने के लिए, इस कॉलम में "गोलकुंडा- फेर (गोलकुंडा-चार)" का प्रयोग करें। यदि आपकी प्रविष्टि में कई शब्द हैं, तो प्रत्येक शब्द को एक हाइफ़न (-) से अलग करें; रिक्त स्थान का उपयोग न करें।
    2. IPA - लिखित रूप में भाषण ध्वनियों का प्रतिनिधित्व करने वाले शब्द या वाक्यांश शामिल हैं। कॉलम वैकल्पिक है; आप इसकी पंक्तियों को खाली छोड़ सकते हैं। यह कॉलम अंतर्राष्ट्रीय ध्वन्यात्मक वर्णमाला (आईपीए) में केवल वर्णों का उपयोग करके ध्वन्यात्मक वर्तनी के लिए अभिप्रेत है। हिंदी भाषा के लिए अनुमत IPA वर्णों के लिए निर्धारित हिंदी वर्ण देखें। हमारे उदाहरण में, हम IPA का उपयोग नहीं कर रहे हैं। यदि आपके पास इस कॉलम में कोई प्रविष्टि है, तो आपका SoundsLike कॉलम खाली होना चाहिए।
    3. SoundsLike - इसमें शब्दों या वाक्यांशों को छोटे टुकड़ों में विभाजित किया जाता है (आमतौर पर शब्दांश या सामान्य शब्दों के आधार पर) प्रत्येक टुकड़े के लिए एक उच्चारण प्रदान करने के लिए कि वह टुकड़ा कैसा लगता है। यह कॉलम वैकल्पिक है; आप पंक्तियों को खाली छोड़ सकते हैं। इस कॉलम में केवल तभी सामग्री जोड़ें जब आपकी प्रविष्टि में एक गैर-मानक शब्द शामिल हो, जैसे कि एक ब्रांड नाम, या किसी ऐसे शब्द को सही करने के लिए जिसे गलत तरीके से लिखा जा रहा हो। हमारे प्रतिलेख में, वाक्य 4 से "सालार जंग (सालार जंग)" को सही करने के लिए, इस कॉलम में "सा-लार-जंग (सा-लार-जंग)" का प्रयोग करें। इस कॉलम में रिक्त स्थान का प्रयोग न करें। यदि इस कॉलम में आपकी कोई प्रविष्टि है, तो आपका IPA कॉलम खाली होना चाहिए।
    4. DisplaysAs - उन शब्दों या वाक्यांशों को शामिल करता है जिनकी वर्तनी आप ट्रांसक्रिप्शन आउटपुट में शब्दों या वाक्यांशों के लिए देखना चाहते हैं Phrase खेत। यह कॉलम वैकल्पिक है; आप पंक्तियों को खाली छोड़ सकते हैं। यदि आप इस फ़ील्ड को निर्दिष्ट नहीं करते हैं, तो Amazon Transcribe की सामग्री का उपयोग करता है Phrase आउटपुट फ़ाइल में फ़ील्ड। उदाहरण के लिए, हमारे प्रतिलेख में, वाक्य 4 से "गोलकुंडा फोर (गोलकुंडा चार)" को सही करने के लिए, इस कॉलम में "गोलकोंडा फोर्ट (गोलकुंडा किला)" का प्रयोग करें।
  2. अपलोड पाठ फ़ाइल (HindiCustomVocabulary.txt) एक S3 बकेट के लिए। अब हम Amazon Transcribe में एक कस्टम शब्दावली बनाते हैं।
  3. Amazon Transcribe कंसोल पर, चुनें कस्टम शब्दावली नेविगेशन फलक में
  4. के लिए नाम, नाम डालें।
  5. के लिए भाषा, चुनें हिंदी, IN (हाय-इन).
  6. के लिए शब्दावली इनपुट स्रोत, चुनते हैं S3 स्थान.
  7. के लिए S3 . पर शब्दावली फ़ाइल स्थान, के S3 पथ में प्रवेश करें HindiCustomVocabulary.txt फ़ाइल.
  8. चुनें शब्दावली बनाएं. अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.
  9. ट्रांसक्राइब करें SampleAudio.wav निम्नलिखित मापदंडों के साथ कस्टम शब्दावली के साथ फाइल करें:
    1. के लिए कार्य नाम , दर्ज SampleAudioCustomVocabulary.
    2. के लिए भाषा, चुनें हिंदी, IN (हाय-इन).
    3. के लिए S3 पर इनपुट फ़ाइल स्थान, के स्थान पर ब्राउज़ करें SampleAudio.wav.
    4. के लिए IAM भूमिका, चुनते हैं मौजूदा IAM भूमिका का उपयोग करें और वह भूमिका चुनें जिसे आपने पहले बनाया था।
    5. में कार्य कॉन्फ़िगर करें अनुभाग चुनें कस्टम शब्दावली और कस्टम शब्दावली चुनें HindiCustomVocabulary.
  10. चुनें नौकरी पैदा करो.

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.

कस्टम शब्दावली का उपयोग करने के बाद मॉडल सटीकता को मापें

अमेज़ॅन ट्रांसक्रिप्ट जॉब विवरण पृष्ठ से ट्रांसक्रिप्ट को नाम की टेक्स्ट फ़ाइल में कॉपी करें hypothesis-custom-vocabulary.txt:

ग्राहक :,

एजेंट : गुड्डनग इंडिया ट्रवेल सेम है। लंबे समय तक ठीक रहें I

ग्राहक : क्या आप कुछ बच सकते हैं?

एजेंट : इंडियन टेक्सटाइल। सिकंदराबाद चुनाव आयोग मिनार गोलको जंग rautun r औ rurasaura प rir प

ग्राहक : हिंदुस्तानी

एजेंट : एक सजेशन वीकेंड में वृद्धि गुणा के चांसेज है।

ग्राहक : सिरीउली

एजेंट : आप टेल्स अपडेट कर सकते हैं और अपडेट कर सकते हैं।

ग्राहक : ग्रेट

ध्यान दें कि हाइलाइट किए गए शब्द वांछित के रूप में लिखे गए हैं।

चलाएं wer नए प्रतिलेख के साथ फिर से आदेश दें:

wer -i reference.txt hypothesis-custom-vocabulary.txt

आपको निम्न आउटपुट मिलते हैं:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

कस्टम शब्दावली के साथ बनाई गई प्रतिलेख से टिप्पणियां

कुल WER 6.061% है, जिसका अर्थ है 93.939% शब्द सटीक रूप से लिखे गए हैं।

आइए कस्टम शब्दावली के साथ और बिना वाक्य 4 के लिए wer आउटपुट की तुलना करें। निम्नलिखित कस्टम शब्दावली के बिना है:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

निम्नलिखित कस्टम शब्दावली के साथ है:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

वाक्य 4 में कोई त्रुटि नहीं है। कस्टम शब्दावली की मदद से स्थानों के नाम सटीक रूप से लिखे गए हैं, जिससे इस ऑडियो फ़ाइल के लिए समग्र WER को 9.848% से घटाकर 6.061% कर दिया गया है। इसका मतलब है कि प्रतिलेखन की सटीकता में लगभग 4% का सुधार हुआ है।

कैसे कस्टम शब्दावली ने सटीकता में सुधार किया

हमने निम्नलिखित कस्टम शब्दावली का उपयोग किया:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe जाँचता है कि क्या ऑडियो फ़ाइल में कोई शब्द है जो इसमें उल्लिखित शब्दों की तरह लगता है Phrase कॉलम। तब मॉडल में प्रविष्टियों का उपयोग करता है IPA, SoundsLike, तथा DisplaysAs कॉलम उन विशिष्ट शब्दों के लिए वांछित वर्तनी के साथ प्रतिलेखित करने के लिए।

इस कस्टम शब्दावली के साथ, जब अमेज़ॅन ट्रांसक्राइब एक शब्द की पहचान करता है जो "गोलकुंडा- फोर (गोलकुंडा-चार)" जैसा लगता है, तो यह उस शब्द को "गोलकोंडा फोर्ट (गोलकुंडा किला)" के रूप में ट्रांसक्रिप्ट करता है।

अनुशंसाएँ

ट्रांसक्रिप्शन की सटीकता स्पीकर के उच्चारण, ओवरलैपिंग स्पीकर, बोलने की गति और पृष्ठभूमि के शोर जैसे मापदंडों पर भी निर्भर करती है। इसलिए, हम अनुशंसा करते हैं कि आप विभिन्न प्रकार की कॉल (विभिन्न ग्राहकों, एजेंटों, रुकावटों, आदि के साथ) के साथ प्रक्रिया का पालन करें, जो आपके लिए एक व्यापक कस्टम शब्दावली बनाने के लिए सबसे अधिक उपयोग किए जाने वाले डोमेन-विशिष्ट शब्दों को कवर करते हैं।

इस पोस्ट में, हमने कस्टम शब्दावली का उपयोग करके एक ऑडियो कॉल को ट्रांसक्रिप्ट करने की सटीकता में सुधार करने की प्रक्रिया सीखी। अपने हजारों संपर्क केंद्र कॉल रिकॉर्डिंग को प्रतिदिन संसाधित करने के लिए, आप इसका उपयोग कर सकते हैं पोस्ट कॉल एनालिटिक्स, एक पूरी तरह से स्वचालित, स्केलेबल, और लागत प्रभावी एंड-टू-एंड समाधान जो अधिकांश भारी भारोत्तोलन का ख्याल रखता है। आप बस अपनी ऑडियो फाइलों को एक S3 बकेट में अपलोड करते हैं, और मिनटों के भीतर, समाधान वेब UI में कॉल एनालिटिक्स जैसे सेंटिमेंट प्रदान करता है। पोस्ट कॉल एनालिटिक्स उभरते रुझानों को पहचानने, एजेंट कोचिंग के अवसरों की पहचान करने और कॉल की सामान्य भावना का आकलन करने के लिए कार्रवाई योग्य अंतर्दृष्टि प्रदान करता है। पोस्ट कॉल एनालिटिक्स एक है खुला स्रोत समाधान कि आप का उपयोग कर तैनात कर सकते हैं एडब्ल्यूएस CloudFormation.

ध्यान दें कि कस्टम शब्दसंग्रह उस संदर्भ का उपयोग नहीं करते हैं जिसमें शब्द बोले गए थे, वे केवल आपके द्वारा प्रदान किए गए व्यक्तिगत शब्दों पर ध्यान केंद्रित करते हैं। सटीकता को और बेहतर बनाने के लिए, आप इसका उपयोग कर सकते हैं कस्टम भाषा मॉडल. कस्टम शब्दावली के विपरीत, जो उच्चारण को वर्तनी के साथ जोड़ते हैं, कस्टम भाषा मॉडल किसी दिए गए शब्द से जुड़े संदर्भ को सीखते हैं। इसमें शामिल है कि कैसे और कब एक शब्द का उपयोग किया जाता है, और एक शब्द का दूसरे शब्दों के साथ संबंध होता है। एक कस्टम भाषा मॉडल बनाने के लिए, आप विभिन्न कॉलों के लिए हमारे द्वारा सीखी गई प्रक्रिया से प्राप्त ट्रांसक्रिप्शन का उपयोग कर सकते हैं, और उन्हें अपनी वेबसाइट या उपयोगकर्ता मैनुअल की सामग्री के साथ जोड़ सकते हैं जिसमें डोमेन-विशिष्ट शब्द और वाक्यांश शामिल हैं।

बैच ट्रांसक्रिप्शन के साथ उच्चतम ट्रांसक्रिप्शन सटीकता प्राप्त करने के लिए, आप अपने कस्टम भाषा मॉडल के संयोजन के साथ कस्टम शब्दावली का उपयोग कर सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने Amazon Transcribe में कॉल एनालिटिक्स और कस्टम शब्दावली का उपयोग करके अंग्रेजी शब्दों वाली हिंदी ऑडियो फाइलों को सटीक रूप से संसाधित करने के लिए विस्तृत कदम प्रदान किए हैं। आप किसी के साथ ऑडियो कॉल संसाधित करने के लिए इन्हीं चरणों का उपयोग कर सकते हैं भाषा समर्थित अमेज़ॅन ट्रांसक्राइब द्वारा।

अपनी वांछित सटीकता के साथ ट्रांसक्रिप्शन प्राप्त करने के बाद, आप अपने एजेंटों को प्रशिक्षित करके अपने एजेंट-ग्राहक वार्तालाप को बेहतर बना सकते हैं। आप अपने ग्राहकों की भावनाओं और रुझानों को भी समझ सकते हैं। कॉल एनालिटिक्स में स्पीकर डायराइज़ेशन, लाउडनेस डिटेक्शन और शब्दावली फ़िल्टरिंग सुविधाओं की मदद से, आप यह पहचान सकते हैं कि यह एजेंट या ग्राहक था जिसने अपना स्वर बढ़ाया या कोई विशिष्ट शब्द बोला। आप डोमेन-विशिष्ट शब्दों के आधार पर कॉल को वर्गीकृत कर सकते हैं, कार्रवाई योग्य जानकारी प्राप्त कर सकते हैं और अपने उत्पादों को बेहतर बनाने के लिए विश्लेषण चला सकते हैं। अंत में, आप अपने ट्रांसक्रिप्ट का अंग्रेजी या अपनी पसंद की अन्य समर्थित भाषाओं में अनुवाद कर सकते हैं अमेज़न अनुवाद.


लेखक के बारे में

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ. शरत गुट्टीकोंडा एडब्ल्यूएस वर्ल्ड वाइड पब्लिक सेक्टर में सीनियर सॉल्यूशंस आर्किटेक्ट हैं। सरत को ग्राहकों की व्यावसायिक चपलता का त्याग किए बिना अपने क्लाउड संसाधनों को स्वचालित, प्रबंधित और नियंत्रित करने में मदद करने में आनंद आता है। अपने खाली समय में, उन्हें अपने बेटे के साथ लेगो बनाना और टेबल टेनिस खेलना पसंद है।

अमेज़ॅन ट्रांसक्राइब प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में कस्टम शब्दावली के साथ ग्राहक-एजेंट कॉल की ट्रांसक्रिप्शन सटीकता में सुधार करें। लंबवत खोज। ऐ.लावण्या सूद नई दिल्ली, भारत में स्थित एडब्ल्यूएस वर्ल्ड वाइड पब्लिक सेक्टर में एक समाधान वास्तुकार है। Lavanya को नई तकनीकों को सीखने और ग्राहकों को उनकी क्लाउड अपनाने की यात्रा में मदद करने में मज़ा आता है। अपने खाली समय में, वह यात्रा करना और विभिन्न खाद्य पदार्थों को आजमाना पसंद करती हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग