Багато AWS клієнтів успішно використовували Амазонська розшифровка щоб точно, ефективно й автоматично перетворювати аудіорозмови своїх клієнтів у текст і витягувати з них корисну інформацію. Ці відомості можуть допомогти вам постійно вдосконалювати процеси та продукти, які безпосередньо покращують якість і досвід для ваших клієнтів.
У багатьох країнах, наприклад в Індії, англійська не є основною мовою спілкування. Індійські клієнти розмовляють регіональними мовами, як-от хінді, а англійські слова та фрази вимовляються випадково під час розмови. У вихідних медіа-файлах можуть бути власні іменники, доменні акроніми, слова чи фрази, про які модель Amazon Transcribe за замовчуванням не знає. Транскрипції для таких медіа-файлів можуть мати неточні варіанти написання цих слів.
У цій публікації ми демонструємо, як ви можете надати більше інформації в Amazon Transcribe користувацькі словники щоб оновити спосіб, у який Amazon Transcribe обробляє транскрипцію ваших аудіофайлів, за допомогою специфічної для бізнесу термінології. Ми показуємо кроки для покращення точності транскрипції для дзвінків хінгліш (дзвінки індійською гінді, що містять слова та фрази англійською). Ви можете використовувати той самий процес для транскрибування аудіодзвінків з будь-якими підтримується мова від Amazon Transcribe. Створивши власні словники, ви зможете транскрибувати аудіодзвінки з точністю та в масштабі за допомогою нашого аналітика після виклику рішення, яке ми обговоримо далі в цій публікації.
Огляд рішення
Ми використовуємо наступний аудіодзвінок на індійській гінді (SampleAudio.wav
) із довільними англійськими словами для демонстрації процесу.
Потім ми проведемо вас через наступні етапи високого рівня:
- Транскрибуйте аудіофайл за допомогою стандартної моделі Amazon Transcribe Hindi.
- Вимірюйте точність моделі.
- Навчіть модель за допомогою спеціальної лексики.
- Виміряйте точність навченої моделі.
Передумови
Перш ніж почати, нам потрібно підтвердити, що вхідний аудіофайл відповідає транскрибувати вимоги до введення даних.
A однотонний запис, який також називають моно, містить один звуковий сигнал, в якому всі звукові елементи агента і клієнта об'єднані в один канал. А стереофонічний запис, який також називають стерео, містить два аудіосигнали для захоплення аудіоелементів агента та клієнта в двох окремих каналах. Кожен файл запису між агентом і клієнтом містить два аудіоканали: один для агента та один для клієнта.
Аудіозаписи з низькою точністю, як-от записи телефонних розмов, зазвичай використовують частоту дискретизації 8,000 Гц. Amazon Transcribe підтримує обробку монофонічних записів, а також аудіофайлів високої якості з частотою дискретизації від 16,000 48,000 до XNUMX XNUMX Гц.
Для кращих результатів транскрипції та чіткого розрізнення слів, вимовлених агентом і клієнтом, ми рекомендуємо використовувати аудіофайли, записані з частотою дискретизації 8,000 Гц із розділенням стереоканалів.
Ви можете використовувати подібний інструмент ffmpeg щоб перевірити вхідні аудіофайли з командного рядка:
У поверненій відповіді перевірте рядок, що починається на «Потік» у розділі «Вхід», і підтвердьте, що аудіофайли мають частоту 8,000 Гц і розділені стереоканали:
Коли ви створюєте конвеєр для обробки великої кількості аудіофайлів, ви можете автоматизувати цей крок, щоб фільтрувати файли, які не відповідають вимогам.
Як додаткову передумову створіть сегмент Amazon Simple Storage Service (Amazon S3) для розміщення аудіофайлів, які потрібно транскрибувати. Інструкції див Створіть своє перше відро S3.Тоді завантажити аудіофайл до відра S3.
Транскрибуйте аудіофайл за стандартною моделлю
Тепер ми можемо почати транскрибування Amazon завдання аналітики виклику за допомогою завантаженого нами аудіофайлу. У цьому прикладі ми використовуємо Консоль управління AWS щоб транскрибувати аудіофайл. Ви також можете використовувати Інтерфейс командного рядка AWS (AWS CLI) або AWS SDK.
- На консолі Amazon Transcribe виберіть Виклик аналітики у навігаційній панелі.
- Вибирати Виклик аналітики вакансії.
- Вибирати Створити роботу.
- для ІМ'Я, введіть ім'я.
- для Налаштування мовивиберіть Специфічна мова.
- для Languageвиберіть Гінді, IN (hi-IN).
- для Тип моделівиберіть Загальна модель.
- для Розташування вхідного файлу на S3, перейдіть до сегмента S3 із завантаженим аудіофайлом.
- У Вихідні дані розділ, залиште значення за замовчуванням.
- У Дозволи доступу розділ, виберіть Створіть роль IAM.
- Створіть новий Управління ідентифікацією та доступом AWS (IAM) під назвою HindiTranscription, яка надає дозволи службі Amazon Transcribe для читання аудіофайлів із сегмента S3 і використання Служба управління ключами AWS (AWS KMS) ключ для розшифровки.
- У Налаштувати завдання розділ, залиште значення за замовчуванням, в т.ч Спеціальна лексика скасовано виділення.
- Вибирати Створити роботу щоб транскрибувати аудіофайл.
Коли статус завдання завершено, ви можете переглянути транскрипцію, вибравши завдання (SampleAudio).
Речення про клієнта та агента чітко розділені, що допомагає нам визначити, чи сказав клієнт чи агент якісь конкретні слова чи фрази.
Вимірюйте точність моделі
Частота помилок у словах (WER) є рекомендованим і найчастіше використовуваним показником для оцінки точності систем автоматичного розпізнавання мовлення (ASR). Мета полягає в тому, щоб максимально знизити WER, щоб підвищити точність системи ASR.
Щоб обчислити WER, виконайте наступні кроки. Ця публікація використовує відкритий код asr-оцінка інструмент оцінки для розрахунку WER, але інші інструменти, такі як SCTK or JiWER також доступні.
- Встановлювати
asr-evaluation
інструмент, який робить сценарій wer доступним у вашому командному рядку.
Використовуйте командний рядок на платформах macOS або Linux, щоб запускати команди wer, показані далі в публікації. - Скопіюйте стенограму зі сторінки відомостей про роботу Amazon Transcribe у текстовий файл під назвою
hypothesis.txt
.
Коли ви скопіюєте транскрипцію з консолі, ви помітите символ нового рядка між словамиAgent :, Customer :,
і хінді.
Нові символи рядків видалено, щоб заощадити місце в цій публікації. Якщо ви вирішите використовувати текст як є з консолі, переконайтеся, що створений вами еталонний текстовий файл також містить нові символи рядка, оскільки інструмент wer порівнює рядок за рядком. - Перегляньте всю транскрипцію та визначте слова чи фрази, які потрібно виправити:
Клієнт : हेलो,
Агент : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात क क ही हूँ त त त से आपकी सह सहायता क सकती हूँ।।।।।।।
Клієнт : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बंऀ सै क?
Агент :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
Клієнт : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट टreation क क क क क क क क क क।
Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के हाइं
Клієнт : सिरियसली एनी टिप्स курка शेर
Агент : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
Клієнт : ग्रेट आइडिया थैंक्यू सो मच।Виділені слова – це ті, які модель Amazon Transcribe за замовчуванням відтворила неправильно. - Створіть інший текстовий файл з назвою
reference.txt
, замінюючи виділені слова на потрібні слова, які ви очікуєте побачити в транскрипції:
Клієнт : हेलो,
Агент : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात क क ही हूँ त त त से आपकी सह सहायता क सकती हूँ।।।।।।।
Клієнт : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बंऀ सै क?
Агент : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
Клієнт : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट टreation क क क क क क क क क क।
Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के हाइं
Клієнт : सिरियसली एनी टिप्स यू केन शेर
Агент : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
Клієнт : ग्रेट आइडिया थैंक्यू सो मच। - Скористайтеся такою командою, щоб порівняти створені вами текстові файли посилань і гіпотез:
Ви отримуєте наступний результат:
Команда wer порівнює текст із файлів reference.txt
та hypothesis.txt
. Він повідомляє про помилки для кожного речення, а також про загальну кількість помилок (WER: 9.848% ( 13 / 132)) у всій транскрипції.
З попередніх результатів було повідомлено про 13 помилок із 132 слів у транскрипції. Ці помилки можуть бути трьох видів:
- Помилки підстановки – Це відбувається, коли Amazon Transcribe пише одне слово замість іншого. Наприклад, у нашій розшифровці слово «महीना (Махіна)” було написано замість “मिनार (Мінар)» у реченні 4.
- Помилки видалення – Це відбувається, коли Amazon Transcribe повністю пропускає слово в транскрипції. У нашій транскрипції слово «सौथ (Південь)» було пропущено у реченні 2.
- Помилки вставки – Це трапляється, коли Amazon Transcribe вставляє слово, яке не було вимовлено. Ми не бачимо жодних помилок вставки в нашій транскрипції.
Спостереження зі стенограми, створеної за стандартною моделлю
Ми можемо зробити такі спостереження на основі стенограми:
- Загальний WER становить 9.848%, тобто 90.152% слів транскрибовано точно.
- Стандартна модель хінді точно транскрибувала більшість англійських слів. Це тому, що модель за замовчуванням навчена розпізнавати найпоширеніші англійські слова з коробки. Модель також навчена розпізнавати мову хінгліш, де англійські слова випадково з’являються в розмовах хінді. Наприклад:
- गुड मोर्निग – Доброго ранку (речення 2).
- ट्रेवल एजेंसी – туристичне агентство (речення 2).
- ग्रेट आइडिया थैंक्यू सो मच – Чудова ідея, велике спасибі (речення 9).
- Речення 4 містить найбільше помилок, які є назвами місць в індійському місті Хайдарабад:
- हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
На наступному кроці ми покажемо, як виправити виділені слова в попередньому реченні за допомогою спеціальної лексики в Amazon Transcribe:
- चार महीना (Символ Махіна) має бути चार मिनार (Символ Мінар)
- .लकुंडा फोर (Голcunda Four) має бути गोलकोंडा फोर्ट (Голconda Fort)
- सलार जंग (SaЛар Юнг) має бути सालार जंग (СааЛар Юнг)
Навчіть модель за замовчуванням за допомогою спеціального словника
До створити власний словниковий запас, вам потрібно створити текстовий файл у форматі таблиці зі словами та фразами для навчання моделі Amazon Transcribe за замовчуванням. Ваша таблиця повинна містити всі чотири стовпці (Phrase
, SoundsLike
, IPA
та DisplayAs
), але Phrase
єдиний стовпець, який повинен містити запис у кожному рядку. Ви можете залишити інші стовпці порожніми. Кожен стовпець має бути розділений символом табуляції, навіть якщо деякі стовпці залишаються порожніми. Наприклад, якщо ви залишите IPA
та SoundsLike
стовпці порожні для рядка, в Phrase
та DisplaysAs
стовпці в цьому рядку мають бути розділені трьома символами табуляції (між Phrase
та IPA
, IPA
та SoundsLike
та SoundsLike
та DisplaysAs
).
Щоб навчити модель спеціальним словником, виконайте такі кроки:
- Створіть файл з назвою
HindiCustomVocabulary.txt
з наступним змістом.Ви можете використовувати лише символи, які підтримуються вашою мовою. Зверніться до своєї мови набір символів for details.
Стовпці містять таку інформацію:
Phrase
– Містить слова чи фрази, які потрібно точно транскрибувати. У цьому стовпці відображаються виділені слова або фрази в транскрипції, створеній стандартною моделлю Amazon Transcribe. Ці слова, як правило, є акронімами, власними іменниками або специфічними для домену словами та фразами, про які модель за замовчуванням не знає. Це обов’язкове поле для кожного рядка таблиці спеціального словника. У нашій транскрипції, щоб виправити «गोलकुंडा फोर (Golcunda Four)» із речення 4, використовуйте «गोलकुंडा-फोर (Golcunda-Four)» у цьому стовпці. Якщо ваш запис містить кілька слів, розділіть кожне слово дефісом (-); не використовуйте пробіли.IPA
– Містить слова або фрази, що позначають звуки мови в письмовій формі. Колонка необов'язкова; ви можете залишити його рядки порожніми. Цей стовпець призначений для фонетичного написання з використанням лише символів міжнародного фонетичного алфавіту (IPA). Зверніться до набору символів гінді, щоб дізнатися про дозволені символи IPA для мови гінді. У нашому прикладі ми не використовуємо IPA. Якщо у вас є запис у цій колонці, вашSoundsLike
стовпець має бути порожнім.SoundsLike
– Містить слова або фрази, розбиті на менші частини (зазвичай на основі складів або загальних слів), щоб забезпечити вимову для кожної частини відповідно до того, як ця частина звучить. Цей стовпець необов’язковий; ви можете залишити рядки порожніми. Додайте вміст до цього стовпця, лише якщо ваш запис містить нестандартне слово, наприклад назву бренду, або щоб виправити слово, яке неправильно транскрибується. У нашій транскрипції, щоб виправити «सलार जंग (Salar Jung)» із речення 4, використовуйте «सा-लार-जंग (Saa-lar-jung)» у цій колонці. Не використовуйте пробіли в цій колонці. Якщо у вас є запис у цій графі, вашIPA
стовпець має бути порожнім.DisplaysAs
– Містить слова або фрази з написанням, яке ви хочете бачити у виведених транскрипціях для слів або фраз уPhrase
поле. Цей стовпець необов’язковий; ви можете залишити рядки порожніми. Якщо ви не вкажете це поле, Amazon Transcribe використовує вмістPhrase
поле у вихідному файлі. Наприклад, у нашій транскрипції, щоб виправити «गोलकुंडा फोर (Чотири Голкунди)» у реченні 4, використовуйте «गोलकोंडा फोर्ट (Форт Голконда)» у цьому стовпці.
- Завантажувати текстовий файл (
HindiCustomVocabulary.txt
) у сегмент S3. Тепер ми створюємо спеціальний словник у Amazon Transcribe. - На консолі Amazon Transcribe виберіть Спеціальна лексика у навігаційній панелі.
- для ІМ'Я, введіть ім'я.
- для Languageвиберіть Гінді, IN (hi-IN).
- для Джерело словникового запасувиберіть Розташування S3.
- для Розташування словникового файлу на S3, введіть шлях S3 для
HindiCustomVocabulary.txt
файлу. - Вибирати Створіть словниковий запас.
- Транскрибувати
SampleAudio.wav
файл із власним словником із такими параметрами:- для Назва роботи , введіть
SampleAudioCustomVocabulary
. - для Languageвиберіть Гінді, IN (hi-IN).
- для Розташування вхідного файлу на S3, перейдіть до розташування
SampleAudio.wav
. - для Роль IAMвиберіть Використовуйте наявну роль IAM і виберіть роль, яку ви створили раніше.
- У Налаштувати завдання розділ, виберіть Спеціальна лексика і виберіть власний словник
HindiCustomVocabulary
.
- для Назва роботи , введіть
- Вибирати Створити роботу.
Виміряйте точність моделі після використання спеціального словника
Скопіюйте стенограму зі сторінки відомостей про роботу Amazon Transcribe у текстовий файл під назвою hypothesis-custom-vocabulary.txt
:
Клієнт : हेलो,
Агент : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात क क ही हूँ त त त से आपकी सह सहायता क सकती हूँ।।।।।।।
Клієнт : मैं बहुत दिनों उनसे हैद हैद हैद टісти के बारे में ह हा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बंऀ सै क?
Агент : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
Клієнт : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट टreation क क क क क क क क क क।
Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के हाइं
Клієнт : सिरियसली एनी टिप्स चिकन शेर
Агент : आप टेकreation यूस क लो ड् औ पाій का पreationब नहीं होग होग होग होग होग होग होग होग होग होग होग।।।।।।।
Клієнт : ग्रेट आइडिया थैंक्यू सो मच।
Зверніть увагу, що виділені слова транскрибуються за бажанням.
Запустіть wer
команда знову з новою розшифровкою:
Ви отримуєте наступний результат:
Спостереження зі стенограми, створеної за допомогою спеціальної лексики
Загальний WER становить 6.061%, тобто 93.939% слів транскрибовано точно.
Давайте порівняємо результат wer для речення 4 із власним словником і без нього. Нижче наведено без спеціального словника:
Нижче наведено спеціальну лексику:
У реченні 4 немає помилок. Назви місць транскрибовано точно за допомогою спеціальної лексики, що зменшило загальний WER з 9.848% до 6.061% для цього аудіофайлу. Це означає, що точність транскрипції покращилася майже на 4%.
Як спеціальний словниковий запас покращив точність
Ми використали такий спеціальний словник:
Amazon Transcribe перевіряє, чи є в аудіофайлі слова, схожі на слова, згадані в Phrase
колонка. Потім модель використовує записи в IPA
, SoundsLike
та DisplaysAs
стовпці для цих конкретних слів для транскрибування з потрібними варіантами написання.
За допомогою цього спеціального словника, коли Amazon Transcribe визначає слово, яке звучить як «गोलकुंडा-फोर (Golcunda-Four)», воно транскрибує це слово як «गोलकोंडा फोर्ट (Golconda Fort)».
Рекомендації
Точність транскрипції також залежить від таких параметрів, як вимова мовців, накладання мовців, швидкість розмови та фоновий шум. Тому ми рекомендуємо вам стежити за процесом за допомогою різноманітних дзвінків (з різними клієнтами, агентами, перервами тощо), які охоплюють найбільш часто використовувані слова, що стосуються домену, щоб створити вичерпний спеціальний словниковий запас.
У цій публікації ми ознайомилися з процесом підвищення точності транскрибування одного аудіодзвінка за допомогою спеціального словника. Щоб щодня обробляти тисячі записів викликів контакт-центру, ви можете використовувати аналітика після виклику, повністю автоматизоване, масштабоване та економічно ефективне наскрізне рішення, яке виконує більшу частину важкої роботи. Ви просто завантажуєте свої аудіофайли в контейнер S3, і за лічені хвилини рішення надає аналітику дзвінків, як-от настрої, у веб-інтерфейсі користувача. Аналітика після дзвінка надає практичну інформацію, щоб виявити нові тенденції, визначити можливості навчання агентів і оцінити загальні настрої дзвінків. Аналітика після дзвінка – це рішення з відкритим кодом за допомогою якого можна розгорнути AWS CloudFormation.
Зауважте, що спеціальні словники не використовують контекст, у якому були вимовлені слова, вони зосереджуються лише на окремих словах, які ви надаєте. Щоб ще більше підвищити точність, ви можете використовувати власні мовні моделі. На відміну від власних словників, які пов’язують вимову з правописом, користувацькі мовні моделі вивчають контекст, пов’язаний із заданим словом. Це включає в себе те, як і коли слово вживається, а також зв’язок слова з іншими словами. Щоб створити спеціальну мовну модель, ви можете використовувати транскрипції, отримані в результаті процесу, який ми вивчили для різноманітних дзвінків, і поєднати їх із вмістом ваших веб-сайтів або посібників користувача, який містить слова та фрази, пов’язані з доменом.
Щоб досягти найвищої точності транскрипції за допомогою пакетної транскрипції, ви можете використовувати настроювані словники разом із настроюваними моделями мови.
Висновок
У цій публікації ми надали докладні кроки для точної обробки аудіофайлів гінді, що містять англійські слова, за допомогою аналітики викликів і спеціальних словників у Amazon Transcribe. Ці самі кроки можна використовувати для обробки аудіовикликів з будь-яким підтримується мова від Amazon Transcribe.
Після того, як ви отримаєте транскрипції з бажаною точністю, ви зможете покращити ваші розмови між агентами та клієнтами, навчаючи своїх агентів. Ви також можете зрозуміти настрої та тенденції своїх клієнтів. За допомогою функцій діалогу мовця, визначення гучності та фільтрації словникового запасу в аналітиці викликів ви можете визначити, чи це був агент чи клієнт, який підвищив тон або сказав якісь конкретні слова. Ви можете класифікувати дзвінки на основі специфічних для домену слів, фіксувати ефективну статистику та запускати аналітику для покращення своїх продуктів. Нарешті, ви можете перекласти свої стенограми англійською або іншими підтримуваними мовами на ваш вибір за допомогою Amazon Translate.
Про авторів
Сарат Гуттіконда є старшим архітектором рішень у громадському секторі AWS World Wide. Sarat із задоволенням допомагає клієнтам автоматизувати, керувати та керувати своїми хмарними ресурсами без шкоди для гнучкості бізнесу. У вільний час він любить будувати з сином Лего та грати в настільний теніс.
Лаваня Суд є архітектором рішень у громадському секторі AWS World Wide з Нью-Делі, Індія. Lavanya любить вивчати нові технології та допомагати клієнтам на шляху впровадження хмарних технологій. У вільний час вона любить подорожувати та пробувати різні страви.
- Розширений (300)
- AI
- ai мистецтво
- AI арт генератор
- ai робот
- Амазонська розшифровка
- штучний інтелект
- сертифікація штучного інтелекту
- штучний інтелект у банківській справі
- робот зі штучним інтелектом
- роботи зі штучним інтелектом
- програмне забезпечення для штучного інтелекту
- AWS Машинне навчання
- blockchain
- блокчейн конференція AI
- coingenius
- розмовний штучний інтелект
- крипто конференція ai
- dall's
- глибоке навчання
- у вас є гугл
- навчання за допомогою машини
- plato
- платон ai
- Інформація про дані Платона
- Гра Платон
- PlatoData
- platogaming
- масштаб ai
- синтаксис
- зефірнет