Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe

Viele AWS Kunden erfolgreich eingesetzt haben Amazon Transcribe um die Audiogespräche ihrer Kunden genau, effizient und automatisch in Text umzuwandeln und umsetzbare Erkenntnisse daraus zu extrahieren. Diese Erkenntnisse können Ihnen helfen, die Prozesse und Produkte kontinuierlich zu verbessern, die die Qualität und das Erlebnis für Ihre Kunden direkt verbessern.

In vielen Ländern wie Indien ist Englisch nicht die Hauptkommunikationssprache. Indische Kundengespräche enthalten regionale Sprachen wie Hindi, wobei während der Anrufe zufällig englische Wörter und Sätze gesprochen werden. In den Quellmediendateien können Eigennamen, domänenspezifische Akronyme, Wörter oder Ausdrücke vorhanden sein, die das standardmäßige Amazon Transcribe-Modell nicht kennt. Transkriptionen für solche Mediendateien können für diese Wörter eine ungenaue Schreibweise aufweisen.

In diesem Beitrag zeigen wir, wie Sie Amazon Transcribe weitere Informationen mitteilen können benutzerdefinierte Vokabeln um die Art und Weise, wie Amazon Transcribe die Transkription Ihrer Audiodateien handhabt, mit geschäftsspezifischer Terminologie zu aktualisieren. Wir zeigen die Schritte zur Verbesserung der Genauigkeit von Transkriptionen für Hinglish-Anrufe (indische Hindi-Anrufe, die indische englische Wörter und Sätze enthalten). Sie können den gleichen Vorgang verwenden, um Audioanrufe mit beliebigen zu transkribieren Sprache unterstützt von Amazon Transcribe. Nachdem Sie benutzerdefinierte Vokabulare erstellt haben, können Sie Audioanrufe mit unserem genau und maßstabsgetreu transkribieren Post-Call-Analyse Lösung, auf die wir später in diesem Beitrag noch näher eingehen werden.

Lösungsüberblick

Wir verwenden den folgenden indischen Hindi-Audioanruf (SampleAudio.wav) mit zufälligen englischen Wörtern, um den Prozess zu demonstrieren.

Wir führen Sie dann durch die folgenden allgemeinen Schritte:

  1. Transkribieren Sie die Audiodatei mit dem standardmäßigen Amazon Transcribe-Hindi-Modell.
  2. Modellgenauigkeit messen.
  3. Trainieren Sie das Modell mit benutzerdefiniertem Vokabular.
  4. Messen Sie die Genauigkeit des trainierten Modells.

Voraussetzungen:

Bevor wir beginnen, müssen wir bestätigen, dass die eingegebene Audiodatei den Anforderungen entspricht Anforderungen an die Dateneingabe transkribieren.

A monophon Aufnahme, auch bezeichnet als Mono, enthält ein Audiosignal, in dem alle Audioelemente des Agenten und des Kunden zu einem Kanal kombiniert werden. EIN stereophon Aufnahme, auch bezeichnet als Stereo, enthält zwei Audiosignale, um die Audioelemente des Agenten und des Kunden in zwei separaten Kanälen zu erfassen. Jede Agenten-Kunden-Aufzeichnungsdatei enthält zwei Audiokanäle, einen für den Agenten und einen für den Kunden.

Low-Fidelity-Audioaufzeichnungen, wie z. B. Telefonaufzeichnungen, verwenden typischerweise Abtastraten von 8,000 Hz. Amazon Transcribe unterstützt die Verarbeitung von Mono-Aufnahmen und auch High-Fidelity-Audiodateien mit Abtastraten zwischen 16,000 und 48,000 Hz.

Für verbesserte Transkriptionsergebnisse und um die vom Agenten und dem Kunden gesprochenen Worte klar voneinander unterscheiden zu können, empfehlen wir die Verwendung von Audiodateien, die mit einer Abtastrate von 8,000 Hz aufgezeichnet und nach Stereokanälen getrennt sind.

Sie können ein Werkzeug wie verwenden ffmpeg So validieren Sie Ihre Eingabe-Audiodateien über die Befehlszeile:

ffmpeg -i SampleAudio.wav

Überprüfen Sie in der zurückgegebenen Antwort die Zeile, die mit Stream im Abschnitt Input beginnt, und bestätigen Sie, dass die Audiodateien 8,000 Hz und Stereokanäle getrennt sind:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Wenn Sie eine Pipeline zum Verarbeiten einer großen Anzahl von Audiodateien erstellen, können Sie diesen Schritt automatisieren, um Dateien zu filtern, die die Anforderungen nicht erfüllen.

Erstellen Sie als zusätzlichen erforderlichen Schritt einen Amazon Simple Storage Service (Amazon S3)-Bucket, um die zu transkribierenden Audiodateien zu hosten. Anweisungen finden Sie unter Erstellen Sie Ihren ersten S3-Bucket.Dann laden Sie die Audiodatei hoch zum S3-Bucket.

Transkribieren Sie die Audiodatei mit dem Standardmodell

Jetzt können wir Starten Sie ein Amazon Transcribe Rufen Sie den Analysejob mithilfe der von uns hochgeladenen Audiodatei auf. In diesem Beispiel verwenden wir die AWS-Managementkonsole um die Audiodatei zu transkribieren. Sie können auch die verwenden AWS-Befehlszeilenschnittstelle (AWS CLI) oder AWS SDK.

  1. Wählen Sie in der Amazon Transcribe-Konsole aus Analytics aufrufen im Navigationsbereich.
  2. Auswählen Analytics-Jobs aufrufen.
  3. Auswählen Job erstellen.
  4. Aussichten für Name und Vorname, Geben Sie einen Namen ein.
  5. Aussichten für SpracheinstellungenWählen Spezifische Sprache.
  6. Aussichten für Sprache, wählen Hindi, IN (hi-IN).
  7. Aussichten für ModelltypWählen Allgemeines Modell.
  8. Aussichten für Speicherort der Eingabedatei auf S3, navigieren Sie zum S3-Bucket, der die hochgeladene Audiodatei enthält.Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  9. Im Ausgabedaten Belassen Sie die Standardeinstellungen.
  10. Im Zugriffsberechtigungen Abschnitt auswählen Erstellen Sie eine IAM-Rolle.
  11. Erstelle eine neue AWS Identity and Access Management and (IAM)-Rolle mit dem Namen HindiTranscription, die Amazon Transcribe-Dienstberechtigungen bereitstellt, um die Audiodateien aus dem S3-Bucket zu lesen und die AWS-Schlüsselverwaltungsservice (AWS KMS)-Schlüssel zum Entschlüsseln.Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  12. Im Job konfigurieren Belassen Sie im Abschnitt die Standardeinstellungen, einschließlich Benutzerdefiniertes Vokabular abgewählt.
  13. Auswählen Job erstellen um die Audiodatei zu transkribieren.

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn der Status des Auftrags abgeschlossen ist, können Sie die Transkription überprüfen, indem Sie den Auftrag (SampleAudio) auswählen.

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Kunden- und Agentensätze sind klar voneinander getrennt, was uns hilft zu erkennen, ob der Kunde oder der Agent bestimmte Wörter oder Sätze gesprochen hat.

Modellgenauigkeit messen

Die Wortfehlerrate (WER) ist die empfohlene und am häufigsten verwendete Metrik zur Bewertung der Genauigkeit von automatischen Spracherkennungssystemen (ASR). Das Ziel besteht darin, die WER so weit wie möglich zu reduzieren, um die Genauigkeit des ASR-Systems zu verbessern.

Führen Sie die folgenden Schritte aus, um WER zu berechnen. Dieser Beitrag verwendet Open Source ASR-Bewertung Bewertungswerkzeug zur Berechnung der WER, aber auch andere Werkzeuge wie GSO or JiWER Sind auch vorhanden.

  1. Installieren asr-evaluation Tool, das das wer-Skript auf Ihrer Befehlszeile verfügbar macht.
    Verwenden Sie eine Befehlszeile auf macOS- oder Linux-Plattformen, um die wer-Befehle auszuführen, die später im Beitrag gezeigt werden.
  2. Kopieren Sie das Transcript von der Amazon Transcribe-Auftragsdetailseite in eine Textdatei mit dem Namen hypothesis.txt.
    Wenn Sie die Transkription von der Konsole kopieren, sehen Sie ein neues Zeilenzeichen zwischen den Wörtern Agent :, Customer :, und die Hindi-Schrift.
    Die Zeilenumbruchzeichen wurden entfernt, um Platz in diesem Beitrag zu sparen. Wenn Sie den Text unverändert aus der Konsole verwenden möchten, stellen Sie sicher, dass die von Ihnen erstellte Referenztextdatei auch die neuen Zeilenzeichen enthält, da das Wer-Tool Zeile für Zeile vergleicht.
  3. Überprüfen Sie das gesamte Transkript und identifizieren Sie alle Wörter oder Sätze, die korrigiert werden müssen:
    Kundenfälle : हेलो,
    Makler : गुड मोर्निग इंडिया ट्रेवल एजेंसी Ja। "
    Kundenfälle : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकू ऀकक?
    Makler :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Kundenfälle : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट्राई कका।।
    Makler : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांे चांे
    Kundenfälle : सिरियसली एनी टिप्स Huhn Ja
    Makler : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    Kundenfälle : ग्रेट आइडिया थैंक्यू सो मच।Die hervorgehobenen Wörter sind diejenigen, die das standardmäßige Amazon Transcribe-Modell nicht korrekt wiedergegeben hat.
  4. Erstellen Sie eine weitere Textdatei mit dem Namen reference.txt, indem Sie die hervorgehobenen Wörter durch die gewünschten Wörter ersetzen, die Sie in der Transkription erwarten:
    Kundenfälle : हेलो,
    Makler : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी Ja । "
    Kundenfälle : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकू ऀकक?
    Makler : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Kundenfälle : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट्राई कका।।
    Makler : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांे चांे
    Kundenfälle : सिरियसली एनी टिप्स Ja Ja
    Makler : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    Kundenfälle : ग्रेट आइडिया थैंक्यू सो मच।
  5. Verwenden Sie den folgenden Befehl, um die von Ihnen erstellten Referenz- und Hypothesentextdateien zu vergleichen:
    wer -i reference.txt hypothesis.txt

    Sie erhalten folgende Ausgabe:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Der wer-Befehl vergleicht Text aus den Dateien reference.txt und hypothesis.txt. Es meldet Fehler für jeden Satz und auch die Gesamtzahl der Fehler (WER: 9.848 % (13/132)) im gesamten Transkript.

Aus der vorhergehenden Ausgabe wurden 13 Fehler von 132 Wörtern im Transkript gemeldet. Diese Fehler können dreierlei Art sein:

  • Substitutionsfehler – Diese treten auf, wenn Amazon Transcribe ein Wort anstelle eines anderen schreibt. In unserem Transkript ist beispielsweise das Wort „Ja (Mahina)“ statt „Nein (Minar)“ in Satz 4.
  • Löschfehler – Diese treten auf, wenn Amazon Transcribe ein Wort im Transkript vollständig auslässt. In unserem Transkript ist das Wort „Ja (Süd)“ wurde in Satz 2 übersehen.
  • Einfügefehler – Diese treten auf, wenn Amazon Transcribe ein Wort einfügt, das nicht gesprochen wurde. Wir sehen keine Einfügungsfehler in unserem Transkript.

Beobachtungen aus dem vom Standardmodell erstellten Transkript

Anhand des Transkripts können wir folgende Beobachtungen machen:

  • Die Gesamt-WER beträgt 9.848 %, was bedeutet, dass 90.152 % der Wörter genau transkribiert werden.
  • Das standardmäßige Hindi-Modell transkribierte die meisten englischen Wörter genau. Dies liegt daran, dass das Standardmodell darauf trainiert ist, die gängigsten englischen Wörter sofort zu erkennen. Das Modell ist auch darauf trainiert, die Sprache Hinglisch zu erkennen, in der zufällig englische Wörter in Gesprächen auf Hindi vorkommen. Zum Beispiel:
    • गुड मोर्निग – Guten Morgen (Satz 2).
    • ट्रेवल एजेंसी – Reisebüro (Satz 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Tolle Idee, vielen Dank (Satz 9).
  • Satz 4 hat die meisten Fehler, das sind Ortsnamen in der indischen Stadt Hyderabad:
    • हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

Im nächsten Schritt demonstrieren wir, wie Sie die hervorgehobenen Wörter im vorhergehenden Satz mit benutzerdefiniertem Vokabular in Amazon Transcribe korrigieren:

  • चार. Ja (Verkohlen Mahina) sollte चार sein Nein (Verkohlen Untergraben)
  • गोगो.Jaडा फो (Golcunda Four) sollte गोल seinJaडा फोJa (Golconda Fort)
  • लार जंग (Salar Jung) sein sollte Jaलार जंग (SaaLar Jung)

Trainieren Sie das Standardmodell mit einem benutzerdefinierten Vokabular

Zu Erstellen Sie ein benutzerdefiniertes Vokabularmüssen Sie eine Textdatei im Tabellenformat mit den Wörtern und Ausdrücken erstellen, um das standardmäßige Amazon Transcribe-Modell zu trainieren. Ihre Tabelle muss alle vier Spalten enthalten (Phrase, SoundsLike, IPA und DisplayAs), aber die Phrase Spalte ist die einzige, die in jeder Zeile einen Eintrag enthalten muss. Die anderen Spalten können Sie leer lassen. Jede Spalte muss durch ein Tabulatorzeichen getrennt werden, auch wenn einige Spalten leer bleiben. Verlassen Sie zum Beispiel die IPA und SoundsLike Spalten leer für eine Zeile, die Phrase und DisplaysAs Spalten in dieser Zeile müssen mit drei Tabulatorzeichen getrennt werden (zwischen Phrase und IPA, IPA und SoundsLike und SoundsLike und DisplaysAs).

Führen Sie die folgenden Schritte aus, um das Modell mit einem benutzerdefinierten Vokabular zu trainieren:

  1. Erstellen Sie eine Datei mit dem Namen HindiCustomVocabulary.txt mit folgendem Inhalt.
    Phrase IPA-Klänge wie Displayas गोलकुंडा-फोफो गोलकोंडा फोफो्ट साला जंग सा-लार सालार जंग चार- चार मिनार सालार

    Sie können nur Zeichen verwenden, die für Ihre Sprache unterstützt werden. Beziehen Sie sich auf Ihre Sprache Zeichensatz für weitere Einzelheiten.

    Die Spalten enthalten die folgenden Informationen:

    1. Phrase – Enthält die Wörter oder Sätze, die Sie genau transkribieren möchten. Die hervorgehobenen Wörter oder Ausdrücke in der Transkription, die vom standardmäßigen Amazon Transcribe-Modell erstellt wurde, werden in dieser Spalte angezeigt. Diese Wörter sind im Allgemeinen Akronyme, Eigennamen oder domänenspezifische Wörter und Ausdrücke, die das Standardmodell nicht kennt. Dies ist ein Pflichtfeld für jede Zeile in der benutzerdefinierten Vokabulartabelle. Um in unserem Transkript „गोलकुंडा फोर (Golcunda Four)“ aus Satz 4 zu korrigieren, verwenden Sie „गोलकुंडा-फोर (Golcunda-Four)“ in dieser Spalte. Wenn Ihr Eintrag mehrere Wörter enthält, trennen Sie jedes Wort mit einem Bindestrich (-); Verwenden Sie keine Leerzeichen.
    2. IPA – Enthält die Wörter oder Sätze, die Sprachlaute in geschriebener Form darstellen. Die Spalte ist optional; Sie können die Zeilen leer lassen. Diese Spalte ist für phonetische Schreibweisen vorgesehen, die nur Zeichen des Internationalen Phonetischen Alphabets (IPA) verwenden. Unter Hindi-Zeichensatz finden Sie die zulässigen IPA-Zeichen für die Hindi-Sprache. In unserem Beispiel verwenden wir kein IPA. Wenn Sie in dieser Spalte einen Eintrag haben, ist Ihr SoundsLike Spalte muss leer sein.
    3. SoundsLike – Enthält Wörter oder Phrasen, die in kleinere Teile zerlegt sind (normalerweise basierend auf Silben oder gebräuchlichen Wörtern), um eine Aussprache für jedes Stück bereitzustellen, basierend darauf, wie dieses Stück klingt. Diese Spalte ist optional; Sie können die Zeilen leer lassen. Fügen Sie dieser Spalte nur Inhalte hinzu, wenn Ihr Eintrag ein nicht standardmäßiges Wort enthält, z. B. einen Markennamen, oder um ein Wort zu korrigieren, das falsch transkribiert wurde. Um in unserem Transkript „सलार जंग (Salar Jung)“ aus Satz 4 zu korrigieren, verwenden Sie „सा-लार-जंग (Saa-lar-jung)“ in dieser Spalte. Verwenden Sie in dieser Spalte keine Leerzeichen. Wenn Sie in dieser Spalte einen Eintrag haben, ist Ihr IPA Spalte muss leer sein.
    4. DisplaysAs – Enthält Wörter oder Ausdrücke mit den Schreibweisen, die Sie in der Transkriptionsausgabe für die Wörter oder Ausdrücke in sehen möchten Phrase aufstellen. Diese Spalte ist optional; Sie können die Zeilen leer lassen. Wenn Sie dieses Feld nicht angeben, verwendet Amazon Transcribe den Inhalt der Phrase Feld in der Ausgabedatei. Um beispielsweise in unserem Transkript „गोलकुंडा फोर (Golcunda Four)“ aus Satz 4 zu korrigieren, verwenden Sie „गोलकोंडा फोर्ट (Golconda Fort)“ in dieser Spalte.
  2. Hochladen die Textdatei (HindiCustomVocabulary.txt) in einen S3-Bucket. Jetzt erstellen wir ein benutzerdefiniertes Vokabular in Amazon Transcribe.
  3. Wählen Sie in der Amazon Transcribe-Konsole aus Benutzerdefiniertes Vokabular im Navigationsbereich.
  4. Aussichten für Name und Vorname, Geben Sie einen Namen ein.
  5. Aussichten für Sprache, wählen Hindi, IN (hi-IN).
  6. Aussichten für Wortschatz-EingabequelleWählen S3 Standort.
  7. Aussichten für Speicherort der Vokabeldatei auf S3, geben Sie den S3-Pfad der ein HindiCustomVocabulary.txt Datei.
  8. Auswählen Vokabeln erstellen. Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  9. Transkribieren Sie die SampleAudio.wav Datei mit dem benutzerdefinierten Vokabular mit den folgenden Parametern:
    1. Aussichten für Berufsbezeichnung , eingeben SampleAudioCustomVocabulary.
    2. Aussichten für Sprache, wählen Hindi, IN (hi-IN).
    3. Aussichten für Speicherort der Eingabedatei auf S3, navigieren Sie zum Speicherort von SampleAudio.wav.
    4. Aussichten für IAM-RolleWählen Verwenden Sie eine vorhandene IAM-Rolle und wählen Sie die zuvor erstellte Rolle aus.
    5. Im Job konfigurieren Abschnitt auswählen Benutzerdefiniertes Vokabular und wählen Sie das benutzerdefinierte Vokabular aus HindiCustomVocabulary.
  10. Auswählen Job erstellen.

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Messen Sie die Modellgenauigkeit nach der Verwendung von benutzerdefiniertem Vokabular

Kopieren Sie das Transcript von der Amazon Transcribe-Auftragsdetailseite in eine Textdatei mit dem Namen hypothesis-custom-vocabulary.txt:

Kundenfälle : हेलो,

Makler : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। "

Kundenfälle : मैं बहुत दिनों उनसे हैद हैद हैद हैद ह हा था था। के बाे में ह था था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकू ऀकक?

Makler : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

Kundenfälle : हाँ बढिया थैंक यू मैं अगले सैट सैट औ औ को ट्राई कका।।

Makler : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांे चांे

Kundenfälle : सिरियसली एनी टिप्स चिकन शेर

Makler : आप टेक्सी यूस क लो ड्ैब औऔ पार्किंग का प्राब्लम नहीं होगा।

Kundenfälle : ग्रेट आइडिया थैंक्यू सो मच।

Beachten Sie, dass die hervorgehobenen Wörter wie gewünscht transkribiert werden.

Führen Sie die wer Befehl erneut mit dem neuen Transkript:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Sie erhalten folgende Ausgabe:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Beobachtungen aus dem mit benutzerdefiniertem Vokabular erstellten Transkript

Die Gesamt-WER beträgt 6.061 %, was bedeutet, dass 93.939 % der Wörter genau transkribiert werden.

Vergleichen wir die Wer-Ausgabe für Satz 4 mit und ohne benutzerdefiniertem Vokabular. Folgendes ist ohne benutzerdefiniertes Vokabular:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Das Folgende ist mit benutzerdefiniertem Vokabular:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Es gibt keine Fehler in Satz 4. Die Namen der Orte werden mit Hilfe von benutzerdefiniertem Vokabular genau transkribiert, wodurch die Gesamt-WER von 9.848 % auf 6.061 % für diese Audiodatei reduziert wird. Das bedeutet, dass sich die Genauigkeit der Transkription um fast 4 % verbesserte.

Wie benutzerdefiniertes Vokabular die Genauigkeit verbesserte

Wir haben das folgende benutzerdefinierte Vokabular verwendet:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe überprüft, ob die Audiodatei Wörter enthält, die wie die in der erwähnten Wörter klingen Phrase Säule. Dann verwendet das Modell die Einträge in der IPA, SoundsLike und DisplaysAs Spalten für diese spezifischen Wörter, die mit der gewünschten Schreibweise transkribiert werden sollen.

Wenn Amazon Transcribe mit diesem benutzerdefinierten Vokabular ein Wort identifiziert, das wie „गोलकुंडा-फोर (Golcunda-Four)“ klingt, wird dieses Wort als „गोलकोंडा फोर्ट (Golconda Fort)“ transkribiert.

Empfehlungen

Die Genauigkeit der Transkription hängt auch von Parametern wie der Aussprache der Sprecher, überlappenden Sprechern, Sprechgeschwindigkeit und Hintergrundgeräuschen ab. Daher empfehlen wir Ihnen, den Prozess mit einer Vielzahl von Anrufen (mit verschiedenen Kunden, Agenten, Unterbrechungen usw.) zu verfolgen, die die am häufigsten verwendeten domänenspezifischen Wörter abdecken, damit Sie ein umfassendes benutzerdefiniertes Vokabular aufbauen können.

In diesem Beitrag haben wir den Prozess zur Verbesserung der Genauigkeit der Transkription eines Audioanrufs mit benutzerdefiniertem Vokabular kennengelernt. Um jeden Tag Tausende Ihrer Contact Center-Anrufaufzeichnungen zu verarbeiten, können Sie verwenden Post-Call-Analyse, eine vollautomatische, skalierbare und kosteneffiziente End-to-End-Lösung, die den größten Teil der Schwerarbeit übernimmt. Sie laden Ihre Audiodateien einfach in einen S3-Bucket hoch, und innerhalb von Minuten bietet die Lösung Anrufanalysen wie Stimmungen in einer Web-Benutzeroberfläche. Post-Call-Analysen bieten umsetzbare Erkenntnisse, um aufkommende Trends zu erkennen, Coaching-Möglichkeiten für Agenten zu identifizieren und die allgemeine Stimmung von Anrufen zu bewerten. Post-Call-Analysen sind eine Open-Source-Lösung die Sie mit bereitstellen können AWS CloudFormation.

Beachten Sie, dass benutzerdefinierte Vokabulare nicht den Kontext verwenden, in dem die Wörter gesprochen wurden, sondern sich nur auf einzelne Wörter konzentrieren, die Sie angeben. Um die Genauigkeit weiter zu verbessern, können Sie verwenden benutzerdefinierte Sprachmodelle. Im Gegensatz zu benutzerdefinierten Vokabularen, die Aussprache mit Rechtschreibung verknüpfen, lernen benutzerdefinierte Sprachmodelle den mit einem bestimmten Wort verbundenen Kontext. Dazu gehört, wie und wann ein Wort verwendet wird und in welcher Beziehung ein Wort zu anderen Wörtern steht. Um ein benutzerdefiniertes Sprachmodell zu erstellen, können Sie die Transkriptionen verwenden, die aus dem Prozess stammen, den wir für eine Vielzahl von Anrufen gelernt haben, und sie mit Inhalten von Ihren Websites oder Benutzerhandbüchern kombinieren, die domänenspezifische Wörter und Ausdrücke enthalten.

Um mit Stapeltranskriptionen die höchste Transkriptionsgenauigkeit zu erreichen, können Sie benutzerdefinierte Vokabulare in Verbindung mit Ihren benutzerdefinierten Sprachmodellen verwenden.

Zusammenfassung

In diesem Beitrag haben wir detaillierte Schritte zur genauen Verarbeitung von Hindi-Audiodateien mit englischen Wörtern unter Verwendung von Anrufanalysen und benutzerdefinierten Vokabeln in Amazon Transcribe bereitgestellt. Sie können dieselben Schritte verwenden, um Audioanrufe mit beliebigen zu verarbeiten Sprache unterstützt von Amazon Transcribe.

Nachdem Sie die Transkriptionen mit der gewünschten Genauigkeit abgeleitet haben, können Sie Ihre Agenten-Kunden-Gespräche verbessern, indem Sie Ihre Agenten schulen. Sie können auch die Stimmungen und Trends Ihrer Kunden verstehen. Mit Hilfe von Sprecherdiarisierung, Lautheitserkennung und Vokabelfilterfunktionen in der Anrufanalyse können Sie feststellen, ob es der Agent oder Kunde war, der den Ton angehoben oder bestimmte Wörter gesprochen hat. Sie können Anrufe basierend auf domänenspezifischen Wörtern kategorisieren, umsetzbare Erkenntnisse erfassen und Analysen durchführen, um Ihre Produkte zu verbessern. Schließlich können Sie Ihre Transkripte ins Englische oder andere unterstützte Sprachen Ihrer Wahl übersetzen Amazon Übersetzen.


Über die Autoren

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Sarat Guttikonda ist Senior Solutions Architect im AWS World Wide Public Sector. Sarat hilft Kunden gerne dabei, ihre Cloud-Ressourcen zu automatisieren, zu verwalten und zu steuern, ohne die geschäftliche Agilität zu beeinträchtigen. In seiner Freizeit liebt er es, mit seinem Sohn Lego zu bauen und Tischtennis zu spielen.

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Lavanya Sood ist ein Lösungsarchitekt im AWS World Wide Public Sector mit Sitz in Neu-Delhi, Indien. Lavanya lernt gerne neue Technologien und hilft Kunden bei ihrer Cloud-Einführung. In ihrer Freizeit liebt sie es zu reisen und verschiedene Lebensmittel auszuprobieren.

Zeitstempel:

Mehr von AWS Maschinelles Lernen