Підвищте точність транскрипції дзвінків між клієнтами та агентами за допомогою спеціального словника в Amazon Transcribe

Перевидано Платоном

читають: 0

Багато AWS клієнтів успішно використовували Амазонська розшифровка щоб точно, ефективно й автоматично перетворювати аудіорозмови своїх клієнтів у текст і витягувати з них корисну інформацію. Ці відомості можуть допомогти вам постійно вдосконалювати процеси та продукти, які безпосередньо покращують якість і досвід для ваших клієнтів.

У багатьох країнах, наприклад в Індії, англійська не є основною мовою спілкування. Індійські клієнти розмовляють регіональними мовами, як-от хінді, а англійські слова та фрази вимовляються випадково під час розмови. У вихідних медіа-файлах можуть бути власні іменники, доменні акроніми, слова чи фрази, про які модель Amazon Transcribe за замовчуванням не знає. Транскрипції для таких медіа-файлів можуть мати неточні варіанти написання цих слів.

У цій публікації ми демонструємо, як ви можете надати більше інформації в Amazon Transcribe користувацькі словники щоб оновити спосіб, у який Amazon Transcribe обробляє транскрипцію ваших аудіофайлів, за допомогою специфічної для бізнесу термінології. Ми показуємо кроки для покращення точності транскрипції для дзвінків хінгліш (дзвінки індійською гінді, що містять слова та фрази англійською). Ви можете використовувати той самий процес для транскрибування аудіодзвінків з будь-якими підтримується мова від Amazon Transcribe. Створивши власні словники, ви зможете транскрибувати аудіодзвінки з точністю та в масштабі за допомогою нашого аналітика після виклику рішення, яке ми обговоримо далі в цій публікації.

Огляд рішення

Ми використовуємо наступний аудіодзвінок на індійській гінді (SampleAudio.wav) із довільними англійськими словами для демонстрації процесу.

Потім ми проведемо вас через наступні етапи високого рівня:

Транскрибуйте аудіофайл за допомогою стандартної моделі Amazon Transcribe Hindi.
Вимірюйте точність моделі.
Навчіть модель за допомогою спеціальної лексики.
Виміряйте точність навченої моделі.

Передумови

Перш ніж почати, нам потрібно підтвердити, що вхідний аудіофайл відповідає транскрибувати вимоги до введення даних.

A однотонний запис, який також називають моно, містить один звуковий сигнал, в якому всі звукові елементи агента і клієнта об'єднані в один канал. А стереофонічний запис, який також називають стерео, містить два аудіосигнали для захоплення аудіоелементів агента та клієнта в двох окремих каналах. Кожен файл запису між агентом і клієнтом містить два аудіоканали: один для агента та один для клієнта.

Аудіозаписи з низькою точністю, як-от записи телефонних розмов, зазвичай використовують частоту дискретизації 8,000 Гц. Amazon Transcribe підтримує обробку монофонічних записів, а також аудіофайлів високої якості з частотою дискретизації від 16,000 48,000 до XNUMX XNUMX Гц.

Для кращих результатів транскрипції та чіткого розрізнення слів, вимовлених агентом і клієнтом, ми рекомендуємо використовувати аудіофайли, записані з частотою дискретизації 8,000 Гц із розділенням стереоканалів.

Ви можете використовувати подібний інструмент ffmpeg щоб перевірити вхідні аудіофайли з командного рядка:

ffmpeg -i SampleAudio.wav

У поверненій відповіді перевірте рядок, що починається на «Потік» у розділі «Вхід», і підтвердьте, що аудіофайли мають частоту 8,000 Гц і розділені стереоканали:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Коли ви створюєте конвеєр для обробки великої кількості аудіофайлів, ви можете автоматизувати цей крок, щоб фільтрувати файли, які не відповідають вимогам.

Як додаткову передумову створіть сегмент Amazon Simple Storage Service (Amazon S3) для розміщення аудіофайлів, які потрібно транскрибувати. Інструкції див Створіть своє перше відро S3.Тоді завантажити аудіофайл до відра S3.

Транскрибуйте аудіофайл за стандартною моделлю

Тепер ми можемо почати транскрибування Amazon завдання аналітики виклику за допомогою завантаженого нами аудіофайлу. У цьому прикладі ми використовуємо Консоль управління AWS щоб транскрибувати аудіофайл. Ви також можете використовувати Інтерфейс командного рядка AWS (AWS CLI) або AWS SDK.

На консолі Amazon Transcribe виберіть Виклик аналітики у навігаційній панелі.
Вибирати Виклик аналітики вакансії.
Вибирати Створити роботу.
для ІМ'Я, введіть ім'я.
для Налаштування мовивиберіть Специфічна мова.
для Languageвиберіть Гінді, IN (hi-IN).
для Тип моделівиберіть Загальна модель.
для Розташування вхідного файлу на S3, перейдіть до сегмента S3 із завантаженим аудіофайлом.
У Вихідні дані розділ, залиште значення за замовчуванням.
У Дозволи доступу розділ, виберіть Створіть роль IAM.
Створіть новий Управління ідентифікацією та доступом AWS (IAM) під назвою HindiTranscription, яка надає дозволи службі Amazon Transcribe для читання аудіофайлів із сегмента S3 і використання Служба управління ключами AWS (AWS KMS) ключ для розшифровки.
У Налаштувати завдання розділ, залиште значення за замовчуванням, в т.ч Спеціальна лексика скасовано виділення.
Вибирати Створити роботу щоб транскрибувати аудіофайл.

Коли статус завдання завершено, ви можете переглянути транскрипцію, вибравши завдання (SampleAudio).

Речення про клієнта та агента чітко розділені, що допомагає нам визначити, чи сказав клієнт чи агент якісь конкретні слова чи фрази.

Вимірюйте точність моделі

Частота помилок у словах (WER) є рекомендованим і найчастіше використовуваним показником для оцінки точності систем автоматичного розпізнавання мовлення (ASR). Мета полягає в тому, щоб максимально знизити WER, щоб підвищити точність системи ASR.

Щоб обчислити WER, виконайте наступні кроки. Ця публікація використовує відкритий код asr-оцінка інструмент оцінки для розрахунку WER, але інші інструменти, такі як SCTK or JiWER також доступні.

Встановлювати asr-evaluation інструмент, який робить сценарій wer доступним у вашому командному рядку.
Використовуйте командний рядок на платформах macOS або Linux, щоб запускати команди wer, показані далі в публікації.
Скопіюйте стенограму зі сторінки відомостей про роботу Amazon Transcribe у текстовий файл під назвою hypothesis.txt.
Коли ви скопіюєте транскрипцію з консолі, ви помітите символ нового рядка між словами Agent :, Customer :, і хінді.
Нові символи рядків видалено, щоб заощадити місце в цій публікації. Якщо ви вирішите використовувати текст як є з консолі, переконайтеся, що створений вами еталонний текстовий файл також містить нові символи рядка, оскільки інструмент wer порівнює рядок за рядком.
Перегляньте всю транскрипцію та визначте слова чи фрази, які потрібно виправити:
Клієнт : हेलो,
Агент : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात क क ही हूँ त त त से आपकी सह सहायता क सकती हूँ।।।।।।।
Клієнт : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बंऀ सै क?
Агент :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
Клієнт : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट टreation क क क क क क क क क क।
Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के हाइं
Клієнт : सिरियसली एनी टिप्स курка शेर
Агент : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
Клієнт : ग्रेट आइडिया थैंक्यू सो मच।Виділені слова – це ті, які модель Amazon Transcribe за замовчуванням відтворила неправильно.
Створіть інший текстовий файл з назвою reference.txt, замінюючи виділені слова на потрібні слова, які ви очікуєте побачити в транскрипції:
Клієнт : हेलो,
Агент : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात क क ही हूँ त त त से आपकी सह सहायता क सकती हूँ।।।।।।।
Клієнт : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बंऀ सै क?
Агент : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
Клієнт : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट टreation क क क क क क क क क क।
Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के हाइं
Клієнт : सिरियसली एनी टिप्स यू केन शेर
Агент : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
Клієнт : ग्रेट आइडिया थैंक्यू सो मच।

Скористайтеся такою командою, щоб порівняти створені вами текстові файли посилань і гіпотез:

wer -i reference.txt hypothesis.txt

Ви отримуєте наступний результат:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 92.9% 13 ( 14)

Errors = 7.1% 1 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 9.848% ( 13 / 132)

WRR: 90.909% ( 120 / 132)

SER: 55.556% ( 5 / 9)

Команда wer порівнює текст із файлів reference.txt та hypothesis.txt. Він повідомляє про помилки для кожного речення, а також про загальну кількість помилок (WER: 9.848% ( 13 / 132)) у всій транскрипції.

З попередніх результатів було повідомлено про 13 помилок із 132 слів у транскрипції. Ці помилки можуть бути трьох видів:

Помилки підстановки – Це відбувається, коли Amazon Transcribe пише одне слово замість іншого. Наприклад, у нашій розшифровці слово «महीना (Махіна)” було написано замість “मिनार (Мінар)» у реченні 4.
Помилки видалення – Це відбувається, коли Amazon Transcribe повністю пропускає слово в транскрипції. У нашій транскрипції слово «सौथ (Південь)» було пропущено у реченні 2.
Помилки вставки – Це трапляється, коли Amazon Transcribe вставляє слово, яке не було вимовлено. Ми не бачимо жодних помилок вставки в нашій транскрипції.

Спостереження зі стенограми, створеної за стандартною моделлю

Ми можемо зробити такі спостереження на основі стенограми:

Загальний WER становить 9.848%, тобто 90.152% слів транскрибовано точно.
Стандартна модель хінді точно транскрибувала більшість англійських слів. Це тому, що модель за замовчуванням навчена розпізнавати найпоширеніші англійські слова з коробки. Модель також навчена розпізнавати мову хінгліш, де англійські слова випадково з’являються в розмовах хінді. Наприклад:
- गुड मोर्निग – Доброго ранку (речення 2).
- ट्रेवल एजेंसी – туристичне агентство (речення 2).
- ग्रेट आइडिया थैंक्यू सो मच – Чудова ідея, велике спасибі (речення 9).
Речення 4 містить найбільше помилок, які є назвами місць в індійському місті Хайдарабад:
- हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

На наступному кроці ми покажемо, як виправити виділені слова в попередньому реченні за допомогою спеціальної лексики в Amazon Transcribe:

चार महीना (Символ Махіна) має бути चार मिनार (Символ Мінар)
.लकुंडा फोर (Голcunda Four) має бути गोलकोंडा फोर्ट (Голconda Fort)
सलार जंग (SaЛар Юнг) має бути सालार जंग (СааЛар Юнг)

Навчіть модель за замовчуванням за допомогою спеціального словника

До створити власний словниковий запас, вам потрібно створити текстовий файл у форматі таблиці зі словами та фразами для навчання моделі Amazon Transcribe за замовчуванням. Ваша таблиця повинна містити всі чотири стовпці (Phrase, SoundsLike, IPA та DisplayAs), але Phrase єдиний стовпець, який повинен містити запис у кожному рядку. Ви можете залишити інші стовпці порожніми. Кожен стовпець має бути розділений символом табуляції, навіть якщо деякі стовпці залишаються порожніми. Наприклад, якщо ви залишите IPA та SoundsLike стовпці порожні для рядка, в Phrase та DisplaysAs стовпці в цьому рядку мають бути розділені трьома символами табуляції (між Phrase та IPA, IPA та SoundsLike та SoundsLike та DisplaysAs).

Щоб навчити модель спеціальним словником, виконайте такі кроки:

Створіть файл з назвою HindiCustomVocabulary.txt з наступним змістом.
```
Фраза IPA звучить дисплеї गोलकुंडा-फोर गोलकोंडा फोходить सालाigl-जंग सा-लाigv-जंग साला जंग चार-महीना चार मिनार मिनार मिनार मिनार मिनार मिनार मिनार मिना хвилинувати
```
Ви можете використовувати лише символи, які підтримуються вашою мовою. Зверніться до своєї мови набір символів for details.

Стовпці містять таку інформацію:
1. Phrase – Містить слова чи фрази, які потрібно точно транскрибувати. У цьому стовпці відображаються виділені слова або фрази в транскрипції, створеній стандартною моделлю Amazon Transcribe. Ці слова, як правило, є акронімами, власними іменниками або специфічними для домену словами та фразами, про які модель за замовчуванням не знає. Це обов’язкове поле для кожного рядка таблиці спеціального словника. У нашій транскрипції, щоб виправити «गोलकुंडा फोर (Golcunda Four)» із речення 4, використовуйте «गोलकुंडा-फोर (Golcunda-Four)» у цьому стовпці. Якщо ваш запис містить кілька слів, розділіть кожне слово дефісом (-); не використовуйте пробіли.
2. IPA – Містить слова або фрази, що позначають звуки мови в письмовій формі. Колонка необов'язкова; ви можете залишити його рядки порожніми. Цей стовпець призначений для фонетичного написання з використанням лише символів міжнародного фонетичного алфавіту (IPA). Зверніться до набору символів гінді, щоб дізнатися про дозволені символи IPA для мови гінді. У нашому прикладі ми не використовуємо IPA. Якщо у вас є запис у цій колонці, ваш SoundsLike стовпець має бути порожнім.
3. SoundsLike – Містить слова або фрази, розбиті на менші частини (зазвичай на основі складів або загальних слів), щоб забезпечити вимову для кожної частини відповідно до того, як ця частина звучить. Цей стовпець необов’язковий; ви можете залишити рядки порожніми. Додайте вміст до цього стовпця, лише якщо ваш запис містить нестандартне слово, наприклад назву бренду, або щоб виправити слово, яке неправильно транскрибується. У нашій транскрипції, щоб виправити «सलार जंग (Salar Jung)» із речення 4, використовуйте «सा-लार-जंग (Saa-lar-jung)» у цій колонці. Не використовуйте пробіли в цій колонці. Якщо у вас є запис у цій графі, ваш IPA стовпець має бути порожнім.
4. DisplaysAs – Містить слова або фрази з написанням, яке ви хочете бачити у виведених транскрипціях для слів або фраз у Phrase поле. Цей стовпець необов’язковий; ви можете залишити рядки порожніми. Якщо ви не вкажете це поле, Amazon Transcribe використовує вміст Phrase поле у вихідному файлі. Наприклад, у нашій транскрипції, щоб виправити «गोलकुंडा फोर (Чотири Голкунди)» у реченні 4, використовуйте «गोलकोंडा फोर्ट (Форт Голконда)» у цьому стовпці.
Завантажувати текстовий файл (HindiCustomVocabulary.txt) у сегмент S3. Тепер ми створюємо спеціальний словник у Amazon Transcribe.
На консолі Amazon Transcribe виберіть Спеціальна лексика у навігаційній панелі.
для ІМ'Я, введіть ім'я.
для Languageвиберіть Гінді, IN (hi-IN).
для Джерело словникового запасувиберіть Розташування S3.
для Розташування словникового файлу на S3, введіть шлях S3 для HindiCustomVocabulary.txt файлу.
Вибирати Створіть словниковий запас.
Транскрибувати SampleAudio.wav файл із власним словником із такими параметрами:
1. для Назва роботи , введіть SampleAudioCustomVocabulary.
2. для Languageвиберіть Гінді, IN (hi-IN).
3. для Розташування вхідного файлу на S3, перейдіть до розташування SampleAudio.wav.
4. для Роль IAMвиберіть Використовуйте наявну роль IAM і виберіть роль, яку ви створили раніше.
5. У Налаштувати завдання розділ, виберіть Спеціальна лексика і виберіть власний словник HindiCustomVocabulary.
Вибирати Створити роботу.

Виміряйте точність моделі після використання спеціального словника

Скопіюйте стенограму зі сторінки відомостей про роботу Amazon Transcribe у текстовий файл під назвою hypothesis-custom-vocabulary.txt:

Клієнт : हेलो,

Агент : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात क क ही हूँ त त त से आपकी सह सहायता क सकती हूँ।।।।।।।

Клієнт : मैं बहुत दिनों उनसे हैद हैद हैद टісти के बारे में ह हा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बंऀ सै क?

Агент : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

Клієнт : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट टreation क क क क क क क क क क।

Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के हाइं

Клієнт : सिरियसली एनी टिप्स चिकन शेर

Агент : आप टेकreation यूस क लो ड् औ पाій का पreationब नहीं होग होग होग होग होग होग होग होग होग होग होग।।।।।।।

Клієнт : ग्रेट आइडिया थैंक्यू सो मच।

Зверніть увагу, що виділені слова транскрибуються за бажанням.

Запустіть wer команда знову з новою розшифровкою:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Ви отримуєте наступний результат:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Спостереження зі стенограми, створеної за допомогою спеціальної лексики

Загальний WER становить 6.061%, тобто 93.939% слів транскрибовано точно.

Давайте порівняємо результат wer для речення 4 із власним словником і без нього. Нижче наведено без спеціального словника:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Нижче наведено спеціальну лексику:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

У реченні 4 немає помилок. Назви місць транскрибовано точно за допомогою спеціальної лексики, що зменшило загальний WER з 9.848% до 6.061% для цього аудіофайлу. Це означає, що точність транскрипції покращилася майже на 4%.

Як спеціальний словниковий запас покращив точність

Ми використали такий спеціальний словник:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe перевіряє, чи є в аудіофайлі слова, схожі на слова, згадані в Phrase колонка. Потім модель використовує записи в IPA, SoundsLike та DisplaysAs стовпці для цих конкретних слів для транскрибування з потрібними варіантами написання.

За допомогою цього спеціального словника, коли Amazon Transcribe визначає слово, яке звучить як «गोलकुंडा-फोर (Golcunda-Four)», воно транскрибує це слово як «गोलकोंडा फोर्ट (Golconda Fort)».

Висновок

У цій публікації ми надали докладні кроки для точної обробки аудіофайлів гінді, що містять англійські слова, за допомогою аналітики викликів і спеціальних словників у Amazon Transcribe. Ці самі кроки можна використовувати для обробки аудіовикликів з будь-яким підтримується мова від Amazon Transcribe.

Після того, як ви отримаєте транскрипції з бажаною точністю, ви зможете покращити ваші розмови між агентами та клієнтами, навчаючи своїх агентів. Ви також можете зрозуміти настрої та тенденції своїх клієнтів. За допомогою функцій діалогу мовця, визначення гучності та фільтрації словникового запасу в аналітиці викликів ви можете визначити, чи це був агент чи клієнт, який підвищив тон або сказав якісь конкретні слова. Ви можете класифікувати дзвінки на основі специфічних для домену слів, фіксувати ефективну статистику та запускати аналітику для покращення своїх продуктів. Нарешті, ви можете перекласти свої стенограми англійською або іншими підтримуваними мовами на ваш вибір за допомогою Amazon Translate.

Про авторів

Сарат Гуттіконда є старшим архітектором рішень у громадському секторі AWS World Wide. Sarat із задоволенням допомагає клієнтам автоматизувати, керувати та керувати своїми хмарними ресурсами без шкоди для гнучкості бізнесу. У вільний час він любить будувати з сином Лего та грати в настільний теніс.

Лаваня Суд є архітектором рішень у громадському секторі AWS World Wide з Нью-Делі, Індія. Lavanya любить вивчати нові технології та допомагати клієнтам на шляху впровадження хмарних технологій. У вільний час вона любить подорожувати та пробувати різні страви.

Часова мітка: Вересень 7, 2022Вересень 8, 2022

Часова мітка: Листопад 22, 2023

Підвищте точність транскрипції дзвінків між клієнтами та агентами за допомогою спеціального словника в Amazon Transcribe

Перевидано Платоном

Огляд рішення

Передумови

Транскрибуйте аудіофайл за стандартною моделлю

Вимірюйте точність моделі

Спостереження зі стенограми, створеної за стандартною моделлю

Навчіть модель за замовчуванням за допомогою спеціального словника

Виміряйте точність моделі після використання спеціального словника

Спостереження зі стенограми, створеної за допомогою спеціальної лексики

Як спеціальний словниковий запас покращив точність

Рекомендації

Висновок

Про авторів

Більше від AWS Машинне навчання

Увімкніть повністю гомоморфне шифрування за допомогою кінцевих точок Amazon SageMaker для безпечного висновку в реальному часі

Дозвольте людям з вадами зору чути документи за допомогою Amazon Textract і Amazon Polly

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки