Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Повысьте точность расшифровки разговоров между клиентом и агентом с помощью пользовательского словаря в Amazon Transcribe.

Многие AWS клиенты успешно использовали Amazon транскрибировать точно, эффективно и автоматически преобразовывать аудиоразговоры своих клиентов в текст и извлекать из них полезную информацию. Эти идеи могут помочь вам постоянно улучшать процессы и продукты, которые напрямую улучшают качество и опыт для ваших клиентов.

Во многих странах, таких как Индия, английский язык не является основным языком общения. Разговоры с индийскими клиентами включают региональные языки, такие как хинди, с английскими словами и фразами, произносимыми случайным образом во время звонков. В исходных медиафайлах могут быть имена собственные, аббревиатуры, слова или фразы, относящиеся к домену, которые не поддерживаются моделью Amazon Transcribe по умолчанию. Транскрипции таких мультимедийных файлов могут содержать неточное написание этих слов.

В этом посте мы покажем, как вы можете предоставить больше информации в Amazon Transcribe с помощью пользовательские словари обновить способ, которым Amazon Transcribe обрабатывает транскрипцию ваших аудиофайлов, с использованием терминологии, характерной для бизнеса. Мы показываем, как повысить точность транскрипции звонков на хинглиш (звонков на индийском хинди, содержащих слова и фразы на индийском английском). Вы можете использовать тот же процесс для расшифровки аудиовызовов с любым поддерживаемый язык от Amazon Transcribe. Создав собственные словари, вы сможете расшифровывать аудиовызовы с точностью и масштабом с помощью нашего аналитика после звонков решение, которое мы обсудим позже в этом посте.

Обзор решения

Мы используем следующий аудиозвонок на индийском хинди (SampleAudio.wav) со случайными английскими словами, чтобы продемонстрировать процесс.

Затем мы проведем вас через следующие этапы высокого уровня:

  1. Расшифруйте аудиофайл, используя стандартную модель Amazon Transcribe Hindi.
  2. Измерьте точность модели.
  3. Обучите модель с пользовательским словарем.
  4. Измерьте точность обученной модели.

Предпосылки

Прежде чем мы начнем, нам нужно подтвердить, что входной аудиофайл соответствует транскрибировать требования к вводу данных.

A монофонический запись, также называемая моно, содержит один звуковой сигнал, в котором все звуковые элементы агента и клиента объединены в один канал. А стереофонический запись, также называемая стерео, содержит два аудиосигнала для захвата аудиоэлементов агента и клиента в двух отдельных каналах. Каждый файл записи агент-клиент содержит два аудиоканала, один для агента и один для клиента.

Аудиозаписи с низким качеством воспроизведения, такие как телефонные записи, обычно используют частоту дискретизации 8,000 Гц. Amazon Transcribe поддерживает обработку монофонических записей, а также высококачественных аудиофайлов с частотой дискретизации от 16,000 48,000 до XNUMX XNUMX Гц.

Для улучшения результатов расшифровки и четкого различения слов, произносимых агентом и клиентом, мы рекомендуем использовать аудиофайлы, записанные с частотой дискретизации 8,000 Гц и разделенные по стереоканалам.

Вы можете использовать такой инструмент, как FFmpeg для проверки ваших входных аудиофайлов из командной строки:

ffmpeg -i SampleAudio.wav

В возвращенном ответе проверьте строку, начинающуюся с Stream в разделе Input, и убедитесь, что аудиофайлы имеют частоту 8,000 Гц и разделены стереоканалом:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Когда вы создаете конвейер для обработки большого количества аудиофайлов, вы можете автоматизировать этот шаг, чтобы отфильтровать файлы, которые не соответствуют требованиям.

В качестве дополнительного предварительного шага создайте корзину Amazon Simple Storage Service (Amazon S3) для размещения аудиофайлов, которые нужно транскрибировать. Инструкции см. Создайте свою первую корзину S3.Потом загрузить аудио файл в ведро S3.

Расшифруйте аудиофайл с моделью по умолчанию

Теперь мы можем запустить Amazon Transcribe задание аналитики вызовов с использованием загруженного аудиофайла. В этом примере мы используем Консоль управления AWS расшифровать аудиофайл. Вы также можете использовать Интерфейс командной строки AWS (интерфейс командной строки AWS) или SDK AWS.

  1. В консоли Amazon Transcribe выберите Аналитика звонков в навигационной панели.
  2. Выберите Работа по аналитике звонков.
  3. Выберите Создать работу.
  4. Что касается Фамилиявведите имя.
  5. Что касается Языковые настройки, наведите на Конкретный язык.
  6. Что касается Язык, выберите Хинди, Индиана (привет).
  7. Что касается Тип модели, наведите на Общая модель.
  8. Что касается Расположение входного файла на S3, перейдите в корзину S3, содержащую загруженный аудиофайл.Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  9. В Выходные данные раздел, оставьте значения по умолчанию.
  10. В Права доступа раздел, выберите Создать роль IAM.
  11. Создать новый Управление идентификацией и доступом AWS (IAM) с именем HindiTranscription, которая предоставляет сервису Amazon Transcribe разрешения на чтение аудиофайлов из корзины S3 и использование Служба управления ключами AWS (AWS KMS) ключ для расшифровки.Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  12. В Настроить задание раздел, оставьте значения по умолчанию, в том числе Пользовательский словарь не выбран.
  13. Выберите Создать работу расшифровать аудиофайл.

Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Когда задание находится в состоянии «Завершено», вы можете просмотреть расшифровку, выбрав задание (SampleAudio).

Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Предложения клиента и агента четко разделены, что помогает нам определить, произносил ли клиент или агент какие-либо определенные слова или фразы.

Измерение точности модели

Частота ошибок в словах (WER) является рекомендуемой и наиболее часто используемой метрикой для оценки точности систем автоматического распознавания речи (ASR). Цель состоит в том, чтобы максимально уменьшить WER для повышения точности системы ASR.

Чтобы рассчитать WER, выполните следующие шаги. Этот пост использует открытый исходный код asr-оценка инструмент оценки для расчета WER, но другие инструменты, такие как SCTK or ДжиВЕР Также доступны.

  1. Установите домен asr-evaluation инструмент, который делает скрипт wer доступным в вашей командной строке.
    Используйте командную строку на платформах macOS или Linux для запуска команд wer, показанных далее в этом посте.
  2. Скопируйте стенограмму со страницы сведений о задании Amazon Transcribe в текстовый файл с именем hypothesis.txt.
    Когда вы скопируете транскрипцию из консоли, вы заметите новый символ строки между словами Agent :, Customer :, и сценарий хинди.
    Новые символы строки были удалены, чтобы сэкономить место в этом сообщении. Если вы решите использовать текст как есть из консоли, убедитесь, что созданный вами справочный текстовый файл также содержит символы новой строки, потому что инструмент wer сравнивает строку за строкой.
  3. Просмотрите всю расшифровку и определите слова или фразы, которые необходимо исправить:
    Клиент : हेलो,
    Агент : Джон Мэнни и Уилсон एजेंसी Санька है। लावन्या बात कर XNUMX
    Клиент : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बतहा सता सतथ सके बारे
    Агент : हाँ बिल्कुल। Он выступил в роли Бэтмена Сейна в Нью-Йорке. Нэнсон Сон Он Мэн Хейлс и Сон. Джон Мэнни и Билли Ниллиан в Нью-Йорке.
    Клиент : हाँ बढिया थैंक यू मैं सैट सैटा
    Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के ग़ांं
    Клиент : Сэнсэй Джонс टिप्स Курица शेर
    Агент : आप टेक्सी यूस कर लो ड्रैब Он был в Нью-Йорке и в Нью-Йорке.
    Клиент : ग्रेट आइडिया थैंक्यू सो मच।Выделенные слова — это те слова, которые модель Amazon Transcribe по умолчанию отобразила неправильно.
  4. Создайте еще один текстовый файл с именем reference.txt, заменив выделенные слова нужными словами, которые вы ожидаете увидеть в транскрипции:
    Клиент : हेलो,
    Агент : Джон Мэн Сэнс и Уилсон. Сэр Мэн । लावन्या बात कर XNUMX
    Клиент : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बतहा सता सतथ सके बारे
    Агент : Н. Блин. Он выступил в роли Бэтмена Сейна в Нью-Йорке. Нэнсон Сон Джон Мэнсон и его сын Сэнсэй. Джон Мэнни и Билли Ниллиан в Нью-Йорке.
    Клиент : हाँ बढिया थैंक यू मैं सैट सैटा
    Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के ग़ांं
    Клиент : Сэнсэй Джонс टिप्स यू Ксен शेर
    Агент : आप टेक्सी यूस कर लो ड्रैव Он был в Нью-Йорке и в Нью-Йорке.
    Клиент : Он Нэнси Сейсон.
  5. Используйте следующую команду, чтобы сравнить созданные вами текстовые файлы ссылки и гипотезы:
    wer -i reference.txt hypothesis.txt

    Вы получите следующий вывод:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Команда wer сравнивает текст из файлов reference.txt и hypothesis.txt. Он сообщает об ошибках для каждого предложения, а также общее количество ошибок (Вер: 9.848% ( 13 / 132)) во всей расшифровке.

Из предыдущего вывода мы сообщили о 13 ошибках из 132 слов в стенограмме. Эти ошибки могут быть трех типов:

  • Ошибки замены – Это происходит, когда Amazon Transcribe записывает одно слово вместо другого. Например, в нашей расшифровке слово «महीना (Махина)» было написано вместо «मिनार (Минар)» в предложении 4.
  • Ошибки удаления – Это происходит, когда Amazon Transcribe полностью пропускает слово в расшифровке. В нашей расшифровке слово «सौथ (Юг)» пропущено во втором предложении.
  • Ошибки вставки – Это происходит, когда Amazon Transcribe вставляет слово, которое не было произнесено. Мы не видим никаких ошибок вставки в нашей расшифровке.

Наблюдения из стенограммы, созданной по модели по умолчанию

На основании стенограммы мы можем сделать следующие выводы:

  • Общий WER составляет 9.848%, что означает, что 90.152% слов расшифрованы точно.
  • Модель хинди по умолчанию точно транскрибировала большинство английских слов. Это связано с тем, что модель по умолчанию обучена распознавать наиболее распространенные английские слова из коробки. Модель также обучена распознавать язык хинглиш, где английские слова случайно появляются в разговорах на хинди. Например:
    • गुड मोर्निग – Доброе утро (предложение 2).
    • ट्रेवल एजेंसी – Туристическое агентство (предложение 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Отличная идея, большое спасибо (предложение 9).
  • В предложении 4 больше всего ошибок, это названия мест в индийском городе Хайдарабад:
    • и Бильярд. Он выступил в роли Бэтмена Сейна в Нью-Йорке. Нэнсон Сон Мэн Хейлсон Сэнсэй Джон Мэнни и Билли Ниллиан в Нью-Йорке.

На следующем шаге мы покажем, как исправить выделенные слова в предыдущем предложении, используя пользовательский словарь в Amazon Transcribe:

  • चार महीना (Чар махина) должно быть चार मिनार (Чар подрывать)
  • Круглыйकुंडा फो (Голcuнда Фоur) должно быть गोलकोंडा फोर्ट (Голcoнда Фоrt)
  • Лил Джонс ((SaЛар Юнг) должен быть साЛил Джонс ((СааЛар Юнг)

Обучите модель по умолчанию с помощью пользовательского словаря

к создать пользовательский словарь, необходимо создать текстовый файл в табличном формате со словами и фразами для обучения модели Amazon Transcribe по умолчанию. Ваша таблица должна содержать все четыре столбца (Phrase, SoundsLike, IPAи DisplayAs), но Phrase столбец — единственный, который должен содержать запись в каждой строке. Остальные столбцы можно оставить пустыми. Каждый столбец должен быть разделен символом табуляции, даже если некоторые столбцы оставлены пустыми. Например, если вы оставите IPA и SoundsLike столбцы пусты для строки, Phrase и DisplaysAs столбцы в этой строке должны быть разделены тремя символами табуляции (между Phrase и IPA, IPA и SoundsLikeи SoundsLike и DisplaysAs).

Чтобы обучить модель с пользовательским словарем, выполните следующие шаги:

  1. Создайте файл с именем HindiCustomVocabulary.txt со следующим содержанием.
    Фраза IPA звучит как Displayas गोलकुंडा-फोा फोर्ट सालार- जंग सा-लार- जंग सालार जंग चXNUMX

    Вы можете использовать только те символы, которые поддерживаются для вашего языка. Обратитесь к вашему языку набор символов для получения информации.

    Столбцы содержат следующую информацию:

    1. Phrase – Содержит слова или фразы, которые вы хотите точно расшифровать. В этом столбце отображаются выделенные слова или фразы в стенограмме, созданной с помощью модели Amazon Transcribe по умолчанию. Эти слова обычно являются аббревиатурами, именами собственными или специфичными для предметной области словами и фразами, о которых модель по умолчанию не знает. Это обязательное поле для каждой строки пользовательской таблицы словаря. В нашей стенограмме, чтобы исправить «गोलकुंडा फोर (Голкунда-Четвертая)» из предложения 4, используйте «गोलकुंडा-फोर (Голкунда-Четвертая)» в этой колонке. Если ваша запись содержит несколько слов, разделите каждое слово дефисом (-); не используйте пробелы.
    2. IPA – Содержит слова или словосочетания, представляющие звуки речи в письменной форме. Столбец является необязательным; вы можете оставить его строки пустыми. Этот столбец предназначен для фонетического написания с использованием только символов Международного фонетического алфавита (IPA). Обратитесь к набору символов хинди для разрешенных символов IPA для языка хинди. В нашем примере мы не используем IPA. Если у вас есть запись в этом столбце, ваш SoundsLike столбец должен быть пустым.
    3. SoundsLike – Содержит слова или фразы, разбитые на более мелкие части (обычно основанные на слогах или общеупотребительных словах), чтобы обеспечить произношение каждой части в зависимости от того, как она звучит. Этот столбец является необязательным; можно оставить строки пустыми. Добавляйте содержимое в этот столбец только в том случае, если ваша запись содержит нестандартное слово, например, название бренда, или для исправления неправильно транскрибируемого слова. В нашей расшифровке, чтобы исправить «सलार जंग (Salar Jung)» из предложения 4, используйте «सा-लार-जंग (Saa-lar-jung)» в этой колонке. Не используйте пробелы в этом столбце. Если у вас есть запись в этом столбце, ваш IPA столбец должен быть пустым.
    4. DisplaysAs – Содержит слова или фразы с написанием, которое вы хотите видеть в расшифровке для слов или фраз в Phrase поле. Этот столбец является необязательным; можно оставить строки пустыми. Если вы не укажете это поле, Amazon Transcribe будет использовать содержимое Phrase поле в выходном файле. Например, в нашей расшифровке, чтобы исправить «गोलकुंडा फोर (Голконда-Четвертая)» из предложения 4, используйте «गोलकोंडा फोर्ट (Форт Голконда)» в этом столбце.
  2. Загрузите текстовый файл (HindiCustomVocabulary.txt) в корзину S3. Теперь мы создадим собственный словарь в Amazon Transcribe.
  3. В консоли Amazon Transcribe выберите Пользовательский словарь в навигационной панели.
  4. Что касается Фамилиявведите имя.
  5. Что касается Язык, выберите Хинди, Индиана (привет).
  6. Что касается Входной словарь, наведите на S3 местоположение.
  7. Что касается Расположение файла словаря на S3, введите путь S3 HindiCustomVocabulary.txt .
  8. Выберите Создать словарный запас. Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  9. Расшифровать SampleAudio.wav файл с пользовательским словарем со следующими параметрами:
    1. Что касается Название работы , войти SampleAudioCustomVocabulary.
    2. Что касается Язык, выберите Хинди, Индиана (привет).
    3. Что касается Расположение входного файла на S3, перейдите к расположению SampleAudio.wav.
    4. Что касается Роль IAM, наведите на Использовать существующую роль IAM и выберите роль, которую вы создали ранее.
    5. В Настроить задание раздел, выберите Пользовательский словарь и выберите пользовательский словарь HindiCustomVocabulary.
  10. Выберите Создать работу.

Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Измерьте точность модели после использования пользовательского словаря

Скопируйте стенограмму со страницы сведений о задании Amazon Transcribe в текстовый файл с именем hypothesis-custom-vocabulary.txt:

Клиент : हेलो,

Агент : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर XNUMX

Клиент : मैं बहुत उनसे हैदXNUMX क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बतहा सता सतथ सके बारे

Агент : Н. Блин. Он выступил в роли Бэтмена Сейна в Нью-Йорке. Нэнсон Сон Мэнни и Нэнси Сейнс Джон Мэнни и Билли Ниллиан в Нью-Йорке.

Клиент : हाँ बढिया थैंक यू मैं सैट सैटा

Агент : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के ग़ांं

Клиент : Сэнсэй Джонс Уилсон.

Агент : आप टेक्सी यूस कर लो ड्रैब और पा возможности

Клиент : Он Нэнси Сейсон.

Обратите внимание, что выделенные слова транскрибируются по желанию.

Запустите wer команда снова с новой расшифровкой:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Вы получите следующий вывод:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Наблюдения из стенограммы, созданной с использованием пользовательского словаря

Общий WER составляет 6.061%, что означает, что 93.939% слов расшифрованы точно.

Давайте сравним вывод wer для предложения 4 с пользовательским словарем и без него. Следующее без пользовательского словаря:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Следующее с пользовательской лексикой:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

В предложении 4 нет ошибок. Названия мест точно расшифрованы с помощью пользовательского словаря, что снижает общий WER с 9.848% до 6.061% для этого аудиофайла. Это означает, что точность транскрипции улучшилась почти на 4%.

Как пользовательский словарь повысил точность

Мы использовали следующую пользовательскую лексику:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe проверяет, есть ли в аудиофайле слова, похожие на слова, упомянутые в Phrase столбец. Затем модель использует записи в IPA, SoundsLikeи DisplaysAs столбцы для этих конкретных слов для расшифровки с желаемым написанием.

С помощью этого пользовательского словаря, когда Amazon Transcribe идентифицирует слово, которое звучит как «गोलकुंडा-फोर (Голкунда-Четыре)», оно расшифровывает это слово как «गोलकोंडा फोर्ट (Форт Голконда)».

Рекомендации

Точность транскрипции также зависит от таких параметров, как произношение говорящих, перекрытие говорящих, скорость речи и фоновый шум. Поэтому мы рекомендуем вам следить за процессом с различными звонками (с разными клиентами, агентами, прерываниями и т. д.), которые охватывают наиболее часто используемые специфические для предметной области слова, чтобы вы могли создать всеобъемлющий пользовательский словарь.

В этом посте мы узнали, как повысить точность расшифровки одного аудиозвонка с использованием пользовательского словаря. Чтобы ежедневно обрабатывать тысячи записей вызовов контакт-центра, вы можете использовать аналитика после звонков, полностью автоматизированное, масштабируемое и экономичное комплексное решение, которое берет на себя большую часть тяжелой работы. Вы просто загружаете свои аудиофайлы в корзину S3, и в течение нескольких минут решение предоставляет аналитику вызовов, например настроения, в веб-интерфейсе. Аналитика после звонка предоставляет полезную информацию для выявления новых тенденций, определения возможностей обучения операторов и оценки общего настроения звонков. Аналитика после звонка — это решение с открытым исходным кодом которые вы можете развернуть с помощью AWS CloudFormation.

Обратите внимание, что пользовательские словари не используют контекст, в котором были произнесены слова, они фокусируются только на отдельных словах, которые вы предоставляете. Для дальнейшего повышения точности можно использовать пользовательские языковые модели. В отличие от пользовательских словарей, которые связывают произношение с правописанием, пользовательские языковые модели изучают контекст, связанный с данным словом. Это включает в себя то, как и когда используется слово, а также связь слова с другими словами. Чтобы создать пользовательскую языковую модель, вы можете использовать транскрипции, полученные в процессе, который мы изучили для различных вызовов, и комбинировать их с контентом с ваших веб-сайтов или руководств пользователя, который содержит слова и фразы, относящиеся к предметной области.

Чтобы добиться максимальной точности транскрипции при пакетной транскрипции, вы можете использовать пользовательские словари в сочетании с вашими пользовательскими языковыми моделями.

Заключение

В этом посте мы предоставили подробные инструкции по точной обработке аудиофайлов на хинди, содержащих английские слова, с помощью аналитики вызовов и пользовательских словарей в Amazon Transcribe. Вы можете использовать эти же шаги для обработки аудиовызовов с любым поддерживаемый язык от Amazon Transcribe.

После того, как вы получите транскрипцию с желаемой точностью, вы можете улучшить общение между агентами и клиентами, обучив своих агентов. Вы также можете понять настроения и тенденции ваших клиентов. С помощью функций диаризации говорящего, определения громкости и фильтрации словарного запаса в аналитике вызовов вы можете определить, кто повысил тон или произнес какие-то определенные слова: агент или клиент. Вы можете классифицировать звонки на основе слов, относящихся к предметной области, получать полезную информацию и запускать аналитику для улучшения своих продуктов. Наконец, вы можете перевести свои стенограммы на английский или другие поддерживаемые языки по вашему выбору, используя Amazon Translate.


Об авторах

Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Сарат Гуттиконда является старшим архитектором решений в AWS World Wide Public Sector. Сарату нравится помогать клиентам автоматизировать и управлять своими облачными ресурсами, не жертвуя гибкостью бизнеса. В свободное время он любит собирать Лего со своим сыном и играть в настольный теннис.

Повысьте точность расшифровки звонков агент-клиент с помощью пользовательского словаря в Amazon Transcribe PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Лаванья Суд является архитектором решений в AWS World Wide Public Sector из Нью-Дели, Индия. Лаванья любит изучать новые технологии и помогать клиентам в переходе на облачные технологии. В свободное время она любит путешествовать и пробовать разные блюда.

Отметка времени:

Больше от Машинное обучение AWS