قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

حسِّن دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe

العديد من AWS الزبائن تم استخدامها بنجاح الأمازون النسخ لتحويل المحادثات الصوتية للعملاء إلى نصوص بدقة وكفاءة وتلقائية ، واستخراج رؤى قابلة للتنفيذ منها. يمكن أن تساعدك هذه الأفكار على تحسين العمليات والمنتجات التي تعمل بشكل مباشر على تحسين الجودة والخبرة لعملائك.

في العديد من البلدان ، مثل الهند ، اللغة الإنجليزية ليست اللغة الأساسية للتواصل. تحتوي محادثات العملاء الهنود على لغات إقليمية مثل الهندية ، مع كلمات وعبارات إنجليزية منطوقة بشكل عشوائي خلال المكالمات. في ملفات الوسائط المصدر ، يمكن أن تكون هناك أسماء علم أو اختصارات خاصة بالمجال أو كلمات أو عبارات لا يعرفها نموذج Amazon Transcribe الافتراضي. يمكن أن تحتوي نسخ ملفات الوسائط هذه على هجاء غير دقيق لتلك الكلمات.

في هذا المنشور ، نوضح كيف يمكنك تقديم المزيد من المعلومات إلى Amazon Transcribe المفردات المخصصة لتحديث الطريقة التي يتعامل بها Amazon Transcribe مع نسخ ملفاتك الصوتية باستخدام مصطلحات خاصة بالعمل. نعرض خطوات تحسين دقة تدوين مكالمات Hinglish (مكالمات هندية هندية تحتوي على كلمات وعبارات إنجليزية هندية). يمكنك استخدام نفس العملية لنسخ المكالمات الصوتية مع أي منها اللغة المدعومة بواسطة Amazon Transcribe. بعد إنشاء مفردات مخصصة ، يمكنك نسخ المكالمات الصوتية بدقة وعلى نطاق واسع باستخدام تحليلات ما بعد المكالمة الحل ، الذي نناقشه أكثر لاحقًا في هذا المنشور.

حل نظرة عامة

نستخدم المكالمة الصوتية الهندية الهندية التالية (SampleAudio.wav) مع كلمات إنجليزية عشوائية لتوضيح العملية.

ثم نوجهك عبر الخطوات عالية المستوى التالية:

  1. قم بنسخ ملف الصوت باستخدام نموذج Amazon Transcribe Hindi الافتراضي.
  2. قياس دقة النموذج.
  3. تدريب النموذج بمفردات مخصصة.
  4. قياس دقة النموذج المدرب.

المتطلبات الأساسية المسبقة

قبل أن نبدأ ، نحتاج إلى التأكد من أن ملف الصوت الذي تم إدخاله يفي بامتداد نسخ متطلبات إدخال البيانات.

A أحادية الصوت تسجيل ، يشار إليه أيضًا باسم بالأبيض والأسود، يحتوي على إشارة صوتية واحدة ، يتم فيها دمج جميع العناصر الصوتية للوكيل والعميل في قناة واحدة. أ مجسم تسجيل ، يشار إليه أيضًا باسم ستيريو، يحتوي على إشارتين صوتيتين لالتقاط العناصر الصوتية للوكيل والعميل في قناتين منفصلتين. يحتوي كل ملف تسجيل وكيل-عميل على قناتين صوتيتين ، واحدة للوكيل وأخرى للعميل.

عادةً ما تستخدم التسجيلات الصوتية منخفضة الدقة ، مثل تسجيلات الهاتف ، معدلات عينة تبلغ 8,000 هرتز. يدعم Amazon Transcribe معالجة ملفات الصوت الأحادية المسجلة وكذلك الملفات الصوتية عالية الدقة بمعدلات عينات تتراوح بين 16,000 و 48,000 هرتز.

للحصول على نتائج نسخ محسنة ولتمييز الكلمات التي يتحدث بها الوكيل والعميل بوضوح ، نوصي باستخدام ملفات صوتية مسجلة بمعدل عينة يبلغ 8,000 هرتز ويتم فصلها عن قناة استريو.

يمكنك استخدام أداة مثل فمبيج للتحقق من صحة ملفات الصوت المدخلة من سطر الأوامر:

ffmpeg -i SampleAudio.wav

في الرد الذي تم إرجاعه ، تحقق من السطر الذي يبدأ بـ Stream في قسم الإدخال ، وتأكد من أن ملفات الصوت 8,000 هرتز وأن قناة الاستريو منفصلة:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

عند إنشاء خط أنابيب لمعالجة عدد كبير من ملفات الصوت ، يمكنك أتمتة هذه الخطوة لتصفية الملفات التي لا تفي بالمتطلبات.

كخطوة أساسية إضافية ، قم بإنشاء حاوية Amazon Simple Storage Service (Amazon S3) لاستضافة الملفات الصوتية المراد نسخها. للحصول على تعليمات ، راجع قم بإنشاء أول حاوية S3.ثم قم بتحميل الملف الصوتي إلى دلو S3.

نسخ ملف الصوت مع النموذج الافتراضي

الآن نستطيع ابدأ كتابة أمازون وظيفة تحليلات المكالمة باستخدام الملف الصوتي الذي قمنا بتحميله. في هذا المثال ، نستخدم الامتداد وحدة تحكم إدارة AWS لنسخ ملف الصوت ، يمكنك أيضًا استخدام تنسيق واجهة سطر الأوامر AWS (AWS CLI) أو AWS SDK.

  1. في وحدة تحكم Amazon Transcribe ، اختر تحليلات الدعوة في جزء التنقل.
  2. اختار وظائف تحليلات المكالمات.
  3. اختار خلق وظيفة.
  4. في حالة الاسم، إدخال اسم.
  5. في حالة اعدادات اللغة، حدد لغة محددة.
  6. في حالة اللغة ، اختر الهندية ، IN (hi-IN).
  7. في حالة نوع النموذج، حدد النموذج العام.
  8. في حالة موقع ملف الإدخال على S3، استعرض للوصول إلى حاوية S3 التي تحتوي على الملف الصوتي الذي تم تحميله.قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  9. في مجلة بيانات الناتج القسم ، اترك الإعدادات الافتراضية.
  10. في مجلة أذونات الوصول القسم، حدد إنشاء دور IAM.
  11. إنشاء جديد إدارة الهوية والوصول AWS (IAM) المسمى HindiTranscription الذي يوفر أذونات خدمة Amazon Transcribe لقراءة الملفات الصوتية من حاوية S3 واستخدام خدمة إدارة مفتاح AWS (AWS KMS) لفك التشفير.قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  12. في مجلة تكوين الوظيفة القسم ، اترك الإعدادات الافتراضية ، بما في ذلك المفردات المخصصة غير محدد.
  13. اختار خلق وظيفة لنسخ ملف الصوت.

قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

عندما تكون حالة الوظيفة مكتملة ، يمكنك مراجعة النسخ عن طريق اختيار الوظيفة (SampleAudio).

قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يتم فصل جمل العميل والوكيل بشكل واضح ، مما يساعدنا على تحديد ما إذا كان العميل أو الوكيل يتحدث بأي كلمات أو عبارات محددة.

قياس دقة النموذج

معدل أخطاء الكلمات (WER) هو المقياس الموصى به والأكثر استخدامًا لتقييم دقة أنظمة التعرف التلقائي على الكلام (ASR). الهدف هو تقليل WER قدر الإمكان لتحسين دقة نظام ASR.

لحساب WER ، أكمل الخطوات التالية. هذا المنشور يستخدم المصدر المفتوح تقييم العصر أداة تقييم لحساب WER ، لكن أدوات أخرى مثل GSO or جيوير وتتوفر أيضا.

  1. تثبيت ال asr-evaluation التي تجعل النص البرمجي متاحًا في سطر الأوامر.
    استخدم سطر أوامر على أنظمة macOS أو Linux لتشغيل أوامر wer الموضحة لاحقًا في المنشور.
  2. انسخ النص من صفحة تفاصيل وظيفة Amazon Transcribe إلى ملف نصي مسمى hypothesis.txt.
    عند نسخ النص من وحدة التحكم ، ستلاحظ وجود حرف سطر جديد بين الكلمات Agent :, Customer :, والنص الهندي.
    تمت إزالة أحرف السطر الجديد لتوفير مساحة في هذا المنشور. إذا اخترت استخدام النص كما هو من وحدة التحكم ، فتأكد من أن الملف النصي المرجعي الذي تقوم بإنشائه يحتوي أيضًا على أحرف سطر جديد ، لأن أداة wer تقارن سطرًا بسطر.
  3. راجع النص بالكامل وحدد أي كلمات أو عبارات تحتاج إلى تصحيح:
    التسجيل كعميل : हेलो،
    الوكيل : وكالة السفر الهندية صباح الخير سام هو. يمكن أن أتمكن من الحصول على زهرة لافانيا.
    التسجيل كعميل : انا حقا أيام في الخارج हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के में बता सकती हैं؟
    الوكيل : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से شارما جولكوندا للسعر متحف جونغ و بيرلا مشهوران بالقبة السماوية.
    التسجيل كعميل : شكرا جزيلا لك، سأسافر بالقطار التالي يومي السبت والأحد.
    الوكيل : اقتراح في عطلة نهاية الأسبوع يتيح لك تغيير حركة المرور.
    التسجيل كعميل : كل ​​النصائح الجديدة فرخة شير
    الوكيل : يمكنك الحصول على تكساس بسهولة رتيب لم تعد هناك مشكلة في مواقف السيارات.
    التسجيل كعميل : ग्रेट आइडिया थैंक्यू सो मच। الكلمات المميزة هي الكلمات التي لم يعرضها نموذج Amazon Transcribe الافتراضي بشكل صحيح.
  4. قم بإنشاء ملف نصي آخر باسم reference.txt، مع استبدال الكلمات المميزة بالكلمات المرغوبة التي تتوقع رؤيتها في النسخ:
    التسجيل كعميل : हेलो،
    الوكيل : صباح الخير وكالة السفر جنوب الهند من أنا . يمكن أن أتمكن من الحصول على زهرة لافانيا.
    التسجيل كعميل : انا حقا دينونسي हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के में बता सकती हैं؟
    الوكيل : ها بلكول. يوجد مكان رائع في حيدر أباد. من هنا تشار مينار جولكندا فورت سالار متحف جونغ و بيرلا مشهوران بالقبة السماوية.
    التسجيل كعميل : شكرا جزيلا لك، سأسافر بالقطار التالي يومي السبت والأحد.
    الوكيل : اقتراح في عطلة نهاية الأسبوع يتيح لك تغيير حركة المرور.
    التسجيل كعميل : كل ​​النصائح الجديدة يو كين شير
    الوكيل : يمكنك الحصول على تكساس بسهولة قيادة لم تعد هناك مشكلة في مواقف السيارات.
    التسجيل كعميل : إيديا رائعة شكرًا جزيلاً.
  5. استخدم الأمر التالي لمقارنة الملفات النصية المرجعية والفرضية التي قمت بإنشائها:
    wer -i reference.txt hypothesis.txt

    تحصل على الإخراج التالي:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

يقارن الأمر wer النص من الملفات reference.txt و hypothesis.txt. يقوم بالإبلاغ عن الأخطاء لكل جملة وكذلك إجمالي عدد الأخطاء (WER: 9.848٪ (13/132)) في النص بأكمله.

من الناتج السابق ، تم الإبلاغ عن 13 خطأ من أصل 132 كلمة في النص. يمكن أن تكون هذه الأخطاء من ثلاثة أنواع:

  • أخطاء الاستبدال - يحدث هذا عندما يكتب Amazon Transcribe كلمة واحدة بدلاً من الأخرى. على سبيل المثال ، في نصنا ، كلمة "شهر (ماهينا) "تمت كتابته بدلاً من"مينار (مينار) "في الجملة 4.
  • أخطاء الحذف - يحدث هذا عندما تفقد Amazon Transcribe إحدى الكلمات تمامًا في النص.مع (الجنوب) "ضاعت في الجملة 2.
  • أخطاء الإدراج - يحدث ذلك عندما تُدرج Amazon Transcribe كلمة لم يتم نطقها. لا نرى أي أخطاء في الإدراج في نصنا.

ملاحظات من النص الذي تم إنشاؤه بواسطة النموذج الافتراضي

يمكننا تقديم الملاحظات التالية بناءً على النص:

  • إجمالي WER هو 9.848٪ ، مما يعني أن 90.152٪ من الكلمات مكتوبة بدقة.
  • قام النموذج الهندي الافتراضي بنسخ معظم الكلمات الإنجليزية بدقة. هذا بسبب تدريب النموذج الافتراضي على التعرف على الكلمات الإنجليزية الأكثر شيوعًا خارج الصندوق. تم تدريب النموذج أيضًا على التعرف على لغة Hinglish ، حيث تظهر الكلمات الإنجليزية بشكل عشوائي في المحادثات الهندية. فمثلا:
    • गुड मोर्निग - صباح الخير (الجملة 2).
    • ट्रेवल एजेंसी - وكالة سفر (الجملة 2).
    • ग्रेट आइडिया थैंक्यू सो मच - شكرا جزيلا لفكرة رائعة (الجملة 9).
  • الجملة 4 بها أكبر عدد من الأخطاء ، وهي أسماء الأماكن في مدينة حيدر أباد الهندية:
    • ها بلكول. يوجد مكان رائع في حيدر أباد. من بينهم ماهينا جولكوندا للسعر متحف جونغ و بيرلا مشهوران بالقبة السماوية.

في الخطوة التالية ، نوضح كيفية تصحيح الكلمات المميزة في الجملة السابقة باستخدام مفردات مخصصة في Amazon Transcribe:

  • يوم شهر (شار ماهينا) يجب أن تكون चार مينار (شار تقويض)
  • مستديركوننعم (غولcunda فوur) يجب أن تكون गोलقنعمرد: (غولconda فوrt)
  • لار جونغ (Saلار جونغ) نعملار جونغ (سالار جونغ)

تدريب النموذج الافتراضي بمفردات مخصصة

إلى إنشاء مفردات مخصصة، تحتاج إلى إنشاء ملف نصي بتنسيق جدولي بالكلمات والعبارات لتدريب نموذج Amazon Transcribe الافتراضي. يجب أن يحتوي جدولك على جميع الأعمدة الأربعة (Phrase, SoundsLike, IPAو DisplayAs)، لكن ال Phrase العمود هو الوحيد الذي يجب أن يحتوي على إدخال في كل صف. يمكنك ترك الأعمدة الأخرى فارغة. يجب فصل كل عمود بحرف جدولة ، حتى إذا تُركت بعض الأعمدة فارغة. على سبيل المثال ، إذا تركت ملف IPA و SoundsLike أعمدة فارغة لصف ما ، Phrase و DisplaysAs يجب فصل الأعمدة في هذا الصف بثلاثة أحرف جدولة (بين Phrase و IPA, IPA و SoundsLikeو SoundsLike و DisplaysAs).

لتدريب النموذج بمفردات مخصصة ، أكمل الخطوات التالية:

  1. إنشاء ملف اسمه HindiCustomVocabulary.txt بالمحتوى التالي.
    عبارة IPA SoundsLike DisplayAs गोलकुंडा-फोर गोलकोंडा फोर्ट सालार-जंग सा-लार-जंग सालार जंग चार-महीना चार मिनार

    يمكنك فقط استخدام الأحرف المدعومة للغتك. الرجوع إلى لغتك مجموعة الأحرف للتفاصيل.

    تحتوي الأعمدة على المعلومات التالية:

    1. Phrase - يحتوي على الكلمات أو العبارات التي تريد نسخها بدقة. تظهر الكلمات أو العبارات المميزة في النص الذي تم إنشاؤه بواسطة نموذج Amazon Transcribe الافتراضي في هذا العمود. تكون هذه الكلمات عمومًا اختصارات أو أسماء علم أو كلمات وعبارات خاصة بمجال معين لا يعرفها النموذج الافتراضي. هذا حقل إلزامي لكل صف في جدول المفردات المخصص. في نصنا ، لتصحيح "गोलकुंडा फोर (Golcunda Four)" من الجملة 4 ، استخدم "गोलकुंडा-फोर (Golcunda-Four)" في هذا العمود. إذا كان الإدخال يحتوي على كلمات متعددة ، فافصل كل كلمة بشرطة (-) ؛ لا تستخدم مسافات.
    2. IPA - يحتوي على الكلمات أو العبارات التي تمثل أصوات الكلام بصيغة مكتوبة. العمود اختياري. يمكنك ترك صفوفها فارغة. هذا العمود مخصص للتهجئة الصوتية باستخدام الأحرف فقط في الأبجدية الصوتية الدولية (IPA). الرجوع إلى مجموعة الأحرف الهندية لأحرف IPA المسموح بها للغة الهندية. في مثالنا ، نحن لا نستخدم IPA. إذا كان لديك إدخال في هذا العمود ، فسيكون ملف SoundsLike يجب أن يكون العمود فارغًا.
    3. SoundsLike - يحتوي على كلمات أو عبارات مقسمة إلى أجزاء أصغر (تستند عادةً إلى مقاطع لفظية أو كلمات شائعة) لتوفير نطق لكل قطعة بناءً على كيفية صوت هذه القطعة. هذا العمود اختياري. يمكنك ترك الصفوف فارغة. أضف محتوى إلى هذا العمود فقط إذا تضمن الإدخال الخاص بك كلمة غير قياسية ، مثل اسم العلامة التجارية ، أو لتصحيح كلمة تم نسخها بشكل غير صحيح. في نصنا ، لتصحيح "सलार जंग (Salar Jung)" من الجملة 4 ، استخدم "सा-लार-जंग (Saa-lar-jung)" في هذا العمود. لا تستخدم مسافات في هذا العمود. إذا كان لديك إدخال في هذا العمود ، فسيكون ملف IPA يجب أن يكون العمود فارغًا.
    4. DisplaysAs - يحتوي على كلمات أو عبارات مع التهجئات التي تريد رؤيتها في إخراج النسخ للكلمات أو العبارات في Phrase مجال. هذا العمود اختياري. يمكنك ترك الصفوف فارغة. إذا لم تحدد هذا الحقل ، فإن Amazon Transcribe يستخدم محتويات ملف Phrase الحقل في ملف الإخراج. على سبيل المثال ، في نصنا ، لتصحيح "गोलकुंडा फोर (Golcunda Four)" من الجملة 4 ، استخدم "गोलकोंडा फोर्ट (Golconda Fort)" في هذا العمود.
  2. تحميل الملف النصي (HindiCustomVocabulary.txt) إلى حاوية S3 ، والآن نقوم بإنشاء مفردات مخصصة في Amazon Transcribe.
  3. في وحدة تحكم Amazon Transcribe ، اختر المفردات المخصصة في جزء التنقل.
  4. في حالة الاسم، إدخال اسم.
  5. في حالة اللغة ، اختر الهندية ، IN (hi-IN).
  6. في حالة مصدر إدخال المفردات، حدد موقع S3.
  7. في حالة موقع ملف المفردات في S3، أدخل مسار S3 لملف HindiCustomVocabulary.txt ملف.
  8. اختار ابتكر المفردات. قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  9. نسخ ملف SampleAudio.wav ملف مع المفردات المخصصة ، مع المعلمات التالية:
    1. في حالة اسم العمل ، أدخل SampleAudioCustomVocabulary.
    2. في حالة اللغة ، اختر الهندية ، IN (hi-IN).
    3. في حالة موقع ملف الإدخال على S3، تصفح إلى موقع SampleAudio.wav.
    4. في حالة دور IAM، حدد استخدم دور IAM موجود واختر الدور الذي أنشأته سابقًا.
    5. في مجلة تكوين الوظيفة القسم، حدد المفردات المخصصة واختيار المفردات المخصصة HindiCustomVocabulary.
  10. اختار خلق وظيفة.

قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قياس دقة النموذج بعد استخدام المفردات المخصصة

انسخ النص من صفحة تفاصيل وظيفة Amazon Transcribe إلى ملف نصي مسمى hypothesis-custom-vocabulary.txt:

التسجيل كعميل : हेलो،

الوكيل : وكالة السفر الهندية في صباح الخير. يمكن أن أتمكن من الحصول على زهرة لافانيا.

التسجيل كعميل : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के में बता सकती हैं؟

الوكيل : ها بلكول. يوجد مكان رائع في حيدر أباد. من بينهم مينار جولكندا فورت سالار متحف جونغ و بيرلا مشهوران بالقبة السماوية.

التسجيل كعميل : شكرا جزيلا لك، سأسافر بالقطار التالي يومي السبت والأحد.

الوكيل : اقتراح في عطلة نهاية الأسبوع يتيح لك تغيير حركة المرور.

التسجيل كعميل : سيريوسلي كل النصائح الخاصة بتقطيع الدجاج

الوكيل : لا داعي للقلق حول مشكلة الركوب ومواقف السيارات في الولايات المتحدة.

التسجيل كعميل : إيديا رائعة شكرًا جزيلاً.

لاحظ أن الكلمات المميزة مكتوبة حسب الرغبة.

تشغيل wer الأمر مرة أخرى مع النسخة الجديدة:

wer -i reference.txt hypothesis-custom-vocabulary.txt

تحصل على الإخراج التالي:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

ملاحظات من النص الذي تم إنشاؤه باستخدام مفردات مخصصة

إجمالي WER هو 6.061٪ ، مما يعني أن 93.939٪ من الكلمات مكتوبة بدقة.

دعنا نقارن ناتج wer للجملة 4 مع وبدون المفردات المخصصة. ما يلي بدون مفردات مخصصة:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

فيما يلي المفردات المخصصة:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

لا توجد أخطاء في الجملة 4. يتم نسخ أسماء الأماكن بدقة بمساعدة المفردات المخصصة ، وبالتالي تقليل WER الإجمالي من 9.848٪ إلى 6.061٪ لهذا الملف الصوتي. هذا يعني أن دقة النسخ تحسنت بنسبة 4٪ تقريبًا.

كيف أدت المفردات المخصصة إلى تحسين الدقة

استخدمنا المفردات المخصصة التالية:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

يتحقق Amazon Transcribe إذا كان هناك أي كلمات في الملف الصوتي تبدو مثل الكلمات المذكورة في ملف Phrase عمودي. ثم يستخدم النموذج الإدخالات الموجودة في ملف IPA, SoundsLikeو DisplaysAs أعمدة لتلك الكلمات المحددة ليتم نسخها باستخدام التهجئات المرغوبة.

باستخدام هذه المفردات المخصصة ، عندما تحدد Amazon Transcribe كلمة تبدو مثل "गोलकुंडा-फोर (Golcunda-Four)" ، فإنها تنقل هذه الكلمة إلى "गोलकोंडा फोर्ट (Golconda Fort)".

توصيات

تعتمد دقة النسخ أيضًا على معلمات مثل نطق مكبرات الصوت وتداخل مكبرات الصوت وسرعة التحدث وضوضاء الخلفية. لذلك ، نوصيك بمتابعة العملية بمجموعة متنوعة من المكالمات (مع عملاء ووكلاء ومقاطعات مختلفة وما إلى ذلك) تغطي الكلمات الخاصة بالمجال الأكثر استخدامًا من أجلك لبناء مفردات مخصصة شاملة.

في هذا المنشور ، تعلمنا عملية تحسين دقة نسخ مكالمة صوتية واحدة باستخدام مفردات مخصصة. لمعالجة الآلاف من تسجيلات مكالمات مركز الاتصال الخاصة بك كل يوم ، يمكنك استخدام تحليلات ما بعد المكالمة، حل شامل مؤتمت بالكامل وقابل للتطوير وفعال من حيث التكلفة يعتني بمعظم عمليات الرفع الثقيلة. ما عليك سوى تحميل ملفاتك الصوتية إلى حاوية S3 ، وفي غضون دقائق ، يوفر الحل تحليلات المكالمات مثل المشاعر في واجهة مستخدم الويب. توفر تحليلات ما بعد المكالمة رؤى قابلة للتنفيذ لاكتشاف الاتجاهات الناشئة ، وتحديد فرص تدريب الوكيل ، وتقييم الشعور العام للمكالمات. حل مفتوح المصدر التي يمكنك نشرها باستخدام تكوين سحابة AWS.

لاحظ أن المفردات المخصصة لا تستخدم السياق الذي تم فيه نطق الكلمات ، بل تركز فقط على الكلمات الفردية التي تقدمها. لمزيد من تحسين الدقة ، يمكنك استخدام نماذج لغة مخصصة. على عكس المفردات المخصصة ، التي تربط النطق بالهجاء ، تتعلم نماذج اللغة المخصصة السياق المرتبط بكلمة معينة. يتضمن هذا كيف ومتى يتم استخدام الكلمة ، والعلاقة بين الكلمة وكلمات أخرى. لإنشاء نموذج لغة مخصص ، يمكنك استخدام النسخ المستمدة من العملية التي تعلمناها لمجموعة متنوعة من المكالمات ، ودمجها مع محتوى من مواقع الويب الخاصة بك أو أدلة المستخدم التي تحتوي على كلمات وعبارات خاصة بالمجال.

لتحقيق أعلى دقة في النسخ باستخدام نسخ الدُفعات ، يمكنك استخدام المفردات المخصصة جنبًا إلى جنب مع نماذج اللغة المخصصة الخاصة بك.

وفي الختام

في هذا المنشور ، قدمنا ​​خطوات مفصلة لمعالجة الملفات الصوتية الهندية التي تحتوي على كلمات إنجليزية بدقة باستخدام تحليلات المكالمات والمفردات المخصصة في Amazon Transcribe. يمكنك استخدام هذه الخطوات نفسها لمعالجة المكالمات الصوتية مع أي منها اللغة المدعومة بواسطة Amazon Transcribe.

بعد اشتقاق النسخ بالدقة التي تريدها ، يمكنك تحسين محادثات العملاء والوكيل من خلال تدريب وكلائك. يمكنك أيضًا فهم مشاعر العملاء واتجاهاتهم. بمساعدة تسجيل المتحدثين ، واكتشاف ارتفاع الصوت ، وخصائص تصفية المفردات في تحليلات المكالمات ، يمكنك تحديد ما إذا كان الوكيل أو العميل هو الذي رفع نبرة صوته أو تحدث بأي كلمات محددة. يمكنك تصنيف المكالمات بناءً على الكلمات الخاصة بالمجال ، والتقاط رؤى قابلة للتنفيذ ، وتشغيل التحليلات لتحسين منتجاتك. أخيرًا ، يمكنك ترجمة النصوص الخاصة بك إلى اللغة الإنجليزية أو غيرها من اللغات المدعومة التي تختارها باستخدام ترجمة أمازون.


حول المؤلف

قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي. سارات جوتيكوندا هو مهندس حلول أول في القطاع العام العالمي لـ AWS. تتمتع سارات بمساعدة العملاء على أتمتة مواردهم السحابية وإدارتها وحكمها دون التضحية بخفة الحركة في الأعمال. في أوقات فراغه ، يحب بناء Legos مع ابنه ولعب تنس الطاولة.

قم بتحسين دقة النسخ لمكالمات وكيل العملاء باستخدام مفردات مخصصة في Amazon Transcribe PlatoBlockchain Data Intelligence. البحث العمودي. عاي.لافانيا سود مهندس حلول في AWS World Wide Sector العام ومقره في نيودلهي ، الهند. تتمتع Lavanya بتعلم تقنيات جديدة ومساعدة العملاء في رحلة تبني السحابة الخاصة بهم. في أوقات فراغها ، تحب السفر وتجربة الأطعمة المختلفة.

الطابع الزمني:

اكثر من التعلم الآلي من AWS