Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe

Banyak AWS pelanggan telah berhasil menggunakan Amazon Transkripsikan untuk secara akurat, efisien, dan otomatis mengonversi percakapan audio pelanggan mereka menjadi teks, dan mengekstrak wawasan yang dapat ditindaklanjuti dari mereka. Wawasan ini dapat membantu Anda terus meningkatkan proses dan produk yang secara langsung meningkatkan kualitas dan pengalaman bagi pelanggan Anda.

Di banyak negara, seperti India, bahasa Inggris bukanlah bahasa komunikasi utama. Percakapan pelanggan India berisi bahasa daerah seperti bahasa Hindi, dengan kata dan frasa bahasa Inggris yang diucapkan secara acak selama panggilan berlangsung. Dalam file media sumber, mungkin ada kata benda, akronim khusus domain, kata, atau frasa yang tidak diketahui oleh model Amazon Transcribe default. Transkripsi untuk file media tersebut dapat memiliki ejaan yang tidak akurat untuk kata-kata tersebut.

Dalam posting ini, kami menunjukkan bagaimana Anda dapat memberikan lebih banyak informasi ke Amazon Transcribe dengan kosakata khusus untuk memperbarui cara Amazon Transcribe menangani transkripsi file audio Anda dengan terminologi khusus bisnis. Kami menunjukkan langkah-langkah untuk meningkatkan keakuratan transkripsi untuk panggilan bahasa Hinglish (panggilan bahasa Hindi India yang berisi kata dan frasa bahasa Inggris India). Anda dapat menggunakan proses yang sama untuk mentranskripsikan panggilan audio dengan bahasa yang didukung oleh Amazon Transkripsi. Setelah Anda membuat kosakata khusus, Anda dapat mentranskripsikan panggilan audio dengan akurat dan dalam skala besar dengan menggunakan . kami analisis pos panggilan solusi, yang kita bahas lebih lanjut nanti di posting ini.

Ikhtisar solusi

Kami menggunakan panggilan audio Hindi India berikut (SampleAudio.wav) dengan kata-kata bahasa Inggris acak untuk menunjukkan prosesnya.

Kami kemudian memandu Anda melalui langkah-langkah tingkat tinggi berikut:

  1. Transkripsikan file audio menggunakan model Amazon Transcribe Hindi default.
  2. Mengukur akurasi model.
  3. Latih model dengan kosakata khusus.
  4. Ukur keakuratan model yang dilatih.

Prasyarat

Sebelum kita mulai, kita perlu memastikan bahwa file audio input memenuhi mentranskripsikan persyaratan input data.

A monofonik rekaman, juga disebut sebagai mono, berisi satu sinyal audio, di mana semua elemen audio agen dan pelanggan digabungkan menjadi satu saluran. SEBUAH stereoponis rekaman, juga disebut sebagai stereo, berisi dua sinyal audio untuk menangkap elemen audio agen dan pelanggan dalam dua saluran terpisah. Setiap file rekaman agen-pelanggan berisi dua saluran audio, satu untuk agen dan satu untuk pelanggan.

Rekaman audio dengan ketelitian rendah, seperti rekaman telepon, biasanya menggunakan laju sampel 8,000 Hz. Amazon Transcribe mendukung pemrosesan mono yang direkam dan juga file audio fidelitas tinggi dengan kecepatan sampel antara 16,000โ€“48,000 Hz.

Untuk hasil transkripsi yang lebih baik dan untuk membedakan dengan jelas kata-kata yang diucapkan oleh agen dan pelanggan, sebaiknya gunakan file audio yang direkam pada laju sampel 8,000 Hz dan saluran stereo dipisahkan.

Anda dapat menggunakan alat seperti ffmpeg untuk memvalidasi file audio input Anda dari baris perintah:

ffmpeg -i SampleAudio.wav

Dalam respons yang dikembalikan, periksa baris yang dimulai dengan Stream di bagian Input, dan konfirmasikan bahwa file audio 8,000 Hz dan saluran stereo terpisah:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Saat Anda membangun saluran untuk memproses file audio dalam jumlah besar, Anda dapat mengotomatiskan langkah ini untuk memfilter file yang tidak memenuhi persyaratan.

Sebagai langkah prasyarat tambahan, buat bucket Amazon Simple Storage Service (Amazon S3) untuk menghosting file audio yang akan ditranskripsi. Untuk petunjuk, lihat Buat ember S3 pertama Anda.Kemudian unggah file audio ke ember S3.

Transkripsikan file audio dengan model default

Sekarang kita bisa mulai Transkripsi Amazon panggilan pekerjaan analytics menggunakan file audio yang kami unggah. Dalam contoh ini, kami menggunakan Konsol Manajemen AWS untuk menyalin file audio. Anda juga dapat menggunakan Antarmuka Baris Perintah AWS (AWS CLI) atau AWS SDK.

  1. Di konsol Amazon Transcribe, pilih Hubungi analytics di panel navigasi.
  2. Pilih Pekerjaan analitik panggilan.
  3. Pilih Ciptakan pekerjaan.
  4. Untuk Nama, masukkan nama.
  5. Untuk Pengaturan bahasa, pilih bahasa tertentu.
  6. Untuk Bahasa, pilih Hindi, IN (hai-IN).
  7. Untuk Tipe model, pilih Model umum.
  8. Untuk Masukkan lokasi file di S3, telusuri ke ember S3 yang berisi file audio yang diunggah.Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  9. Dalam majalah Data keluaran bagian, biarkan default.
  10. Dalam majalah Izin akses bagian, pilih Buat peran IAM.
  11. Buat yang baru Identitas AWS dan Manajemen Akses (IAM) bernama HindiTranscription yang memberikan izin layanan Amazon Transcribe untuk membaca file audio dari bucket S3 dan menggunakan Layanan Manajemen Kunci AWS (AWS KMS) kunci untuk mendekripsi.Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  12. Dalam majalah Konfigurasikan pekerjaan bagian, biarkan default, termasuk Kosakata khusus batal dipilih.
  13. Pilih Ciptakan pekerjaan untuk menyalin file audio.

Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Saat status tugas Selesai, Anda dapat meninjau transkripsi dengan memilih tugas (SampleAudio).

Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kalimat pelanggan dan agen dipisahkan dengan jelas, yang membantu kami mengidentifikasi apakah pelanggan atau agen mengucapkan kata atau frasa tertentu.

Ukur akurasi model

Tingkat kesalahan kata (WER) adalah metrik yang direkomendasikan dan paling umum digunakan untuk mengevaluasi keakuratan sistem Pengenalan Ucapan Otomatis (ASR). Tujuannya adalah untuk mengurangi WER sebanyak mungkin untuk meningkatkan akurasi sistem ASR.

Untuk menghitung WER, selesaikan langkah-langkah berikut. Postingan ini menggunakan sumber terbuka evaluasi asr alat evaluasi untuk menghitung WER, tetapi alat lain seperti SCTK or JiWER juga tersedia.

  1. Install itu asr-evaluation alat, yang membuat skrip wer tersedia di baris perintah Anda.
    Gunakan baris perintah pada platform macOS atau Linux untuk menjalankan perintah wer yang ditampilkan nanti di postingan.
  2. Salin transkrip dari halaman detail pekerjaan Amazon Transcribe ke file teks bernama hypothesis.txt.
    Saat Anda menyalin transkripsi dari konsol, Anda akan melihat karakter baris baru di antara kata-kata Agent :, Customer :, dan aksara Hindi.
    Karakter baris baru telah dihapus untuk menghemat ruang di pos ini. Jika Anda memilih untuk menggunakan teks apa adanya dari konsol, pastikan file teks referensi yang Anda buat juga memiliki karakter baris baru, karena alat wer membandingkan baris demi baris.
  3. Tinjau seluruh transkrip dan identifikasi kata atau frasa yang perlu diperbaiki:
    Pelanggan : ,
    Agen : เคธเฅ‡เคฎ เคนเฅˆkan เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค
    Pelanggan : Jawabannya เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคŸเฅเคฐเฅ‡เคตเคฒ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคธเฅ‹เคš เคฐเคนเคพ เคฅเคพเฅค ?
    Agen : เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ Layanan Pelanggan Layanan Pelanggan yang Baik.
    Pelanggan :
    Agen :
    Pelanggan : Tidak Tidak
    Agen : Baik Terima kasih banyak.
    Pelanggan : Kata-kata yang disorot adalah kata-kata yang tidak dirender dengan benar oleh model Amazon Transcribe default.
  4. Buat file teks lain bernama reference.txt, mengganti kata-kata yang disorot dengan kata-kata yang diinginkan yang ingin Anda lihat dalam transkripsi:
    Pelanggan : ,
    Agen : Tidak kan เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค
    Pelanggan : เคฆเคฟเคจเฅ‹เค‚เคธเฅ‡ เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคŸเฅเคฐเฅ‡เคตเคฒ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคธเฅ‹เคš เคฐเคนเคพ เคฅเคพเฅค ?
    Agen : เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ Pertanyaan Umum Layanan Pelanggan yang Baik.
    Pelanggan :
    Agen :
    Pelanggan : Sekarang Tidak
    Agen : เคกเฅเคฐเฅˆเคต Terima kasih banyak.
    Pelanggan :
  5. Gunakan perintah berikut untuk membandingkan file teks referensi dan hipotesis yang Anda buat:
    wer -i reference.txt hypothesis.txt

    Anda mendapatkan output berikut:

    REF: customer : เคนเฅ‡เคฒเฅ‹,
    
    HYP: customer : เคนเฅ‡เคฒเฅ‹,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : เค—เฅเคก เคฎเฅ‹เคฐเฅเคจเคฟเค— เคธเฅŒเคฅ เค‡เค‚เคกเคฟเคฏเคพ เคŸเฅเคฐเฅ‡เคตเคฒ เคเคœเฅ‡เค‚เคธเฅ€ เคธเฅ‡ เคฎเฅˆเค‚ เฅค เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค
    
    HYP: agent : เค—เฅเคก เคฎเฅ‹เคฐเฅเคจเคฟเค— *** เค‡เค‚เคกเคฟเคฏเคพ เคŸเฅเคฐเฅ‡เคตเคฒ เคเคœเฅ‡เค‚เคธเฅ€ ** เคธเฅ‡เคฎ เคนเฅˆเฅค เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : เคฎเฅˆเค‚ เคฌเคนเฅเคค ***** เคฆเคฟเคจเฅ‹เค‚เคธเฅ‡ เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคŸเฅเคฐเฅ‡เคตเคฒ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคธเฅ‹เคš เคฐเคนเคพ เคฅเคพเฅค เค•เฅเคฏเคพ เค†เคช เคฎเฅเคเฅ‡ เค•เฅเค› เค…เคšเฅเค›เฅ‡ เคฒเฅ‹เค•เฅ‡เคถเคจ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคฌเคคเคพ เคธเค•เคคเฅ€ เคนเฅˆเค‚?
    
    HYP: customer : เคฎเฅˆเค‚ เคฌเคนเฅเคค เคฆเคฟเคจเฅ‹เค‚ เค‰เคจเคธเฅ‡ เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคŸเฅเคฐเฅ‡เคตเคฒ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคธเฅ‹เคš เคฐเคนเคพ เคฅเคพเฅค เค•เฅเคฏเคพ เค†เคช เคฎเฅเคเฅ‡ เค•เฅเค› เค…เคšเฅเค›เฅ‡ เคฒเฅ‹เค•เฅ‡เคถเคจ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคฌเคคเคพ เคธเค•เคคเฅ€ เคนเฅˆเค‚?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ เคธเคพเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค
    
    HYP: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคนเฅ€เคจเคพ เค—เฅ‹เคฒเค•เฅเค‚เคกเคพ เคซเฅ‹เคฐ เคธเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : เคนเคพเค เคฌเคขเคฟเคฏเคพ เคฅเฅˆเค‚เค• เคฏเฅ‚ เคฎเฅˆเค‚ เค…เค—เคฒเฅ‡ เคธเฅˆเคŸเคฐเคกเฅ‡ เค”เคฐ เคธเค‚เคกเฅ‡ เค•เฅ‹ เคŸเฅเคฐเคพเคˆ เค•เคฐเฅ‚เคเค—เคพเฅค
    
    HYP: customer : เคนเคพเค เคฌเคขเคฟเคฏเคพ เคฅเฅˆเค‚เค• เคฏเฅ‚ เคฎเฅˆเค‚ เค…เค—เคฒเฅ‡ เคธเฅˆเคŸเคฐเคกเฅ‡ เค”เคฐ เคธเค‚เคกเฅ‡ เค•เฅ‹ เคŸเฅเคฐเคพเคˆ เค•เคฐเฅ‚เคเค—เคพเฅค
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : เคเค• เคธเคœเฅ‡เคถเคจ เคตเฅ€เค•เฅ‡เค‚เคก เคฎเฅ‡เค‚ เคŸเฅเคฐเฅˆเคซเคฟเค• เคœเฅเคฏเคพเคฆเคพ เคฐเคนเคจเฅ‡ เค•เฅ‡ เคšเคพเค‚เคธเฅ‡เคœ เคนเฅˆเฅค
    
    HYP: agent : เคเค• เคธเคœเฅ‡เคถเคจ เคตเฅ€เค•เฅ‡เค‚เคก เคฎเฅ‡เค‚ เคŸเฅเคฐเฅˆเคซเคฟเค• เคœเฅเคฏเคพเคฆเคพ เคฐเคนเคจเฅ‡ เค•เฅ‡ เคšเคพเค‚เคธเฅ‡เคœ เคนเฅˆเฅค
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : เคธเคฟเคฐเคฟเคฏเคธเคฒเฅ€ เคเคจเฅ€ เคŸเคฟเคชเฅเคธ เคฏเฅ‚ เค•เฅ‡เคจ เคถเฅ‡เคฐ
    
    HYP: customer : เคธเคฟเคฐเคฟเคฏเคธเคฒเฅ€ เคเคจเฅ€ เคŸเคฟเคชเฅเคธ ** เคšเคฟเค•เคจ เคถเฅ‡เคฐ
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : เค†เคช เคŸเฅ‡เค•เฅเคธเฅ€ เคฏเฅ‚เคธ เค•เคฐ เคฒเฅ‹ เคกเฅเคฐเฅˆเคต เค”เคฐ เคชเคพเคฐเฅเค•เคฟเค‚เค— เค•เคพ เคชเฅเคฐเคพเคฌเฅเคฒเคฎ เคจเคนเฅ€เค‚ เคนเฅ‹เค—เคพเฅค
    
    HYP: agent : เค†เคช เคŸเฅ‡เค•เฅเคธเฅ€ เคฏเฅ‚เคธ เค•เคฐ เคฒเฅ‹ เคกเฅเคฐเฅˆเคฌ เค”เคฐ เคชเคพเคฐเฅเค•เคฟเค‚เค— เค•เคพ เคชเฅเคฐเคพเคฌเฅเคฒเคฎ เคจเคนเฅ€เค‚ เคนเฅ‹เค—เคพเฅค
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : เค—เฅเคฐเฅ‡เคŸ เค†เค‡เคกเคฟเคฏเคพ เคฅเฅˆเค‚เค•เฅเคฏเฅ‚ เคธเฅ‹ เคฎเคšเฅค
    
    HYP: customer : เค—เฅเคฐเฅ‡เคŸ เค†เค‡เคกเคฟเคฏเคพ เคฅเฅˆเค‚เค•เฅเคฏเฅ‚ เคธเฅ‹ เคฎเคšเฅค
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Perintah wer membandingkan teks dari file reference.txt dan hypothesis.txt. Ini melaporkan kesalahan untuk setiap kalimat dan juga jumlah kesalahan (WER: 9.848% (13 / 132)) di seluruh transkrip.

Dari keluaran sebelumnya, kami melaporkan 13 kesalahan dari 132 kata dalam transkrip. Kesalahan ini dapat terdiri dari tiga jenis:

  • Kesalahan substitusi โ€“ Ini terjadi ketika Amazon Transcribe menulis satu kata menggantikan kata lainnya. Misalnya, dalam transkrip kami, kata โ€œเคฎเคนเฅ€เคจเคพ. (Mahina)โ€ ditulis sebagai ganti โ€œya (Minar)โ€ dalam kalimat 4.
  • Kesalahan penghapusan โ€“ Ini terjadi ketika Amazon Transcribe melewatkan satu kata seluruhnya dalam transkrip. Dalam transkrip kami, kata โ€œya (Selatan)โ€ tidak terjawab di kalimat 2.
  • Kesalahan penyisipan โ€“ Ini terjadi saat Amazon Transcribe menyisipkan kata yang tidak diucapkan. Kami tidak melihat kesalahan penyisipan dalam transkrip kami.

Pengamatan dari transkrip yang dibuat oleh model default

Kami dapat membuat pengamatan berikut berdasarkan transkrip:

  • Total WER adalah 9.848%, artinya 90.152% kata-kata ditranskripsikan dengan akurat.
  • Model bahasa Hindi default mentranskripsikan sebagian besar kata bahasa Inggris secara akurat. Ini karena model default dilatih untuk mengenali kata-kata bahasa Inggris yang paling umum di luar kotak. Model ini juga dilatih untuk mengenali bahasa Hinglish, di mana kata-kata bahasa Inggris muncul secara acak dalam percakapan bahasa Hindi. Sebagai contoh:
    • โ€“ Selamat pagi (kalimat 2).
    • โ€“ Agen perjalanan (kalimat 2).
    • โ€“ Ide bagus terima kasih banyak (kalimat 9).
  • Kalimat 4 memiliki kesalahan terbanyak, yaitu nama-nama tempat di kota India Hyderabad:
    • i เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ Panduan Pengguna Layanan Pelanggan yang Baik.

Pada langkah berikutnya, kami mendemonstrasikan cara mengoreksi kata yang disorot dalam kalimat sebelumnya menggunakan kosakata khusus di Amazon Transcribe:

  • เคšเคพเคฐ. เคฎเคนเฅ€เคจเคพ. (Arang mahana) seharusnya ya (Arang Merusak)
  • เค—เฅ‹เคฒ.yaTidakเคฐ (Golcudan Four) seharusnyayaTidakya (Golcodan Fort)
  • เคธ(Salar Jung) seharusnya เคธเคพ.(Saa(lar Jung)

Latih model default dengan kosakata khusus

Untuk buat kosakata khusus, Anda perlu membuat file teks dalam format tabel dengan kata dan frasa untuk melatih model Amazon Transcribe default. Tabel Anda harus berisi keempat kolom (Phrase, SoundsLike, IPA, dan DisplayAs), tetapi Phrase kolom adalah satu-satunya yang harus berisi entri pada setiap baris. Anda dapat membiarkan kolom lainnya kosong. Setiap kolom harus dipisahkan oleh karakter tab, meskipun beberapa kolom dibiarkan kosong. Misalnya, jika Anda meninggalkan IPA dan SoundsLike kolom kosong untuk satu baris, the Phrase dan DisplaysAs kolom di baris itu harus dipisahkan dengan tiga karakter tab (antara Phrase dan IPA, IPA dan SoundsLike, dan SoundsLike dan DisplaysAs).

Untuk melatih model dengan kosakata khusus, selesaikan langkah-langkah berikut:

  1. Buat file dengan nama HindiCustomVocabulary.txt dengan konten berikut.
    Frasa IPA Suara Seperti TampilanAs -เคซเฅ‹เคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ -เคœเค‚เค— -เคฒเคพเคฐ-เคœเค‚เค— เคœเค‚เค— -เคฎเคนเฅ€เคจเคพ

    Anda hanya dapat menggunakan karakter yang didukung untuk bahasa Anda. Lihat bahasa Anda set karakter untuk rincian.

    Kolom berisi informasi berikut:

    1. Phrase โ€“ Berisi kata atau frasa yang ingin Anda transkripsikan secara akurat. Kata atau frasa yang disorot dalam transkrip yang dibuat oleh model Amazon Transcribe default muncul di kolom ini. Kata-kata ini umumnya merupakan akronim, kata benda yang tepat, atau kata dan frasa khusus domain yang tidak diketahui oleh model default. Ini adalah bidang wajib untuk setiap baris dalam tabel kosakata khusus. Dalam transkrip kami, untuk mengoreksi โ€œเค—เฅ‹เคฒเค•เฅเค‚เคกเคพ (Golcunda Four)โ€ dari kalimat 4, gunakan โ€œเค—เฅ‹เคฒเค•เฅเค‚เคกเคพ-เคซเฅ‹เคฐ (Golcunda-Four)โ€ di kolom ini. Jika entri Anda berisi beberapa kata, pisahkan setiap kata dengan tanda hubung (-); tidak menggunakan spasi.
    2. IPA โ€“ Berisi kata atau frasa yang mewakili bunyi ujaran dalam bentuk tulisan. Kolom ini opsional; Anda dapat membiarkan barisnya kosong. Kolom ini ditujukan untuk ejaan fonetik yang hanya menggunakan karakter dalam Alfabet Fonetik Internasional (IPA). Lihat kumpulan karakter Hindi untuk karakter IPA yang diizinkan untuk bahasa Hindi. Dalam contoh kami, kami tidak menggunakan IPA. Jika Anda memiliki entri di kolom ini, Anda SoundsLike kolom harus kosong.
    3. SoundsLike โ€“ Berisi kata-kata atau frasa yang dipecah menjadi bagian-bagian yang lebih kecil (biasanya berdasarkan suku kata atau kata-kata umum) untuk memberikan pengucapan untuk setiap bagian berdasarkan bagaimana bunyi itu. Kolom ini opsional; Anda dapat membiarkan baris kosong. Hanya tambahkan konten ke kolom ini jika entri Anda menyertakan kata non-standar, seperti nama merek, atau untuk mengoreksi kata yang salah ditranskripsikan. Dalam transkrip kami, untuk mengoreksi โ€œเคธเคฒเคพเคฐ (Salar Jung)โ€ dari kalimat 4, gunakan โ€œเคธเคพ-เคฒเคพเคฐ-เคœเค‚เค— (Saa-lar-jung)โ€ di kolom ini. Jangan gunakan spasi di kolom ini. Jika Anda memiliki entri di kolom ini, Anda IPA kolom harus kosong.
    4. DisplaysAs โ€“ Berisi kata atau frasa dengan ejaan yang ingin Anda lihat di output transkripsi untuk kata atau frasa di Phrase bidang. Kolom ini opsional; Anda dapat membiarkan baris kosong. Jika Anda tidak menentukan bidang ini, Amazon Transcribe menggunakan konten dari Phrase bidang dalam file keluaran. Misalnya, dalam transkrip kami, untuk mengoreksi โ€œเค—เฅ‹เคฒเค•เฅเค‚เคกเคพ (Golcunda Four)โ€ dari kalimat 4, gunakan โ€œเค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ (Golconda Fort)โ€ di kolom ini.
  2. Unggah berkas teks (HindiCustomVocabulary.txt) ke bucket S3. Sekarang kami membuat kosakata khusus di Amazon Transcribe.
  3. Di konsol Amazon Transcribe, pilih Kosakata khusus di panel navigasi.
  4. Untuk Nama, masukkan nama.
  5. Untuk Bahasa, pilih Hindi, IN (hai-IN).
  6. Untuk Sumber masukan kosakata, pilih Lokasi S3.
  7. Untuk Lokasi file kosakata di S3, masukkan jalur S3 dari HindiCustomVocabulary.txt file.
  8. Pilih Buat kosa kata. Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  9. Transkripsikan SampleAudio.wav file dengan kosakata khusus, dengan parameter berikut:
    1. Untuk Nama Pekerjaan , Masuk SampleAudioCustomVocabulary.
    2. Untuk Bahasa, pilih Hindi, IN (hai-IN).
    3. Untuk Masukkan lokasi file di S3, telusuri ke lokasi SampleAudio.wav.
    4. Untuk Peran IAM, pilih Gunakan peran IAM yang ada dan pilih peran yang Anda buat sebelumnya.
    5. Dalam majalah Konfigurasikan pekerjaan bagian, pilih Kosakata khusus dan pilih kosakata khusus HindiCustomVocabulary.
  10. Pilih Ciptakan pekerjaan.

Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Ukur akurasi model setelah menggunakan kosakata khusus

Salin transkrip dari halaman detail pekerjaan Amazon Transcribe ke file teks bernama hypothesis-custom-vocabulary.txt:

Pelanggan : ,

Agen : เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค

Pelanggan : ?

Agen : เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ Layanan Pelanggan Layanan Pelanggan yang Baik.

Pelanggan :

Agen :

Pelanggan :

Agen :

Pelanggan :

Perhatikan bahwa kata-kata yang disorot ditranskripsikan sesuai keinginan.

Jalankan wer perintah lagi dengan transkrip baru:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Anda mendapatkan output berikut:

REF: customer : เคนเฅ‡เคฒเฅ‹,

HYP: customer : เคนเฅ‡เคฒเฅ‹,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : เค—เฅเคก เคฎเฅ‹เคฐเฅเคจเคฟเค— เคธเฅŒเคฅ เค‡เค‚เคกเคฟเคฏเคพ เคŸเฅเคฐเฅ‡เคตเคฒ เคเคœเฅ‡เค‚เคธเฅ€ เคธเฅ‡ เคฎเฅˆเค‚ เฅค เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค

HYP: agent : เค—เฅเคก เคฎเฅ‹เคฐเฅเคจเคฟเค— *** เค‡เค‚เคกเคฟเคฏเคพ เคŸเฅเคฐเฅ‡เคตเคฒ เคเคœเฅ‡เค‚เคธเฅ€ ** เคธเฅ‡เคฎ เคนเฅˆเฅค เคฒเคพเคตเคจเฅเคฏเคพ เคฌเคพเคค เค•เคฐ เคฐเคนเฅ€ เคนเฅ‚เค เค•เคฟเคธ เคคเคฐเคน เคธเฅ‡ เคฎเฅˆเค‚ เค†เคชเค•เฅ€ เคธเคนเคพเคฏเคคเคพ เค•เคฐ เคธเค•เคคเฅ€ เคนเฅ‚เคเฅค

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : เคฎเฅˆเค‚ เคฌเคนเฅเคค ***** เคฆเคฟเคจเฅ‹เค‚เคธเฅ‡ เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคŸเฅเคฐเฅ‡เคตเคฒ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคธเฅ‹เคš เคฐเคนเคพ เคฅเคพเฅค เค•เฅเคฏเคพ เค†เคช เคฎเฅเคเฅ‡ เค•เฅเค› เค…เคšเฅเค›เฅ‡ เคฒเฅ‹เค•เฅ‡เคถเคจ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคฌเคคเคพ เคธเค•เคคเฅ€ เคนเฅˆเค‚?

HYP: customer : เคฎเฅˆเค‚ เคฌเคนเฅเคค เคฆเคฟเคจเฅ‹เค‚ เค‰เคจเคธเฅ‡ เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคŸเฅเคฐเฅ‡เคตเคฒ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคธเฅ‹เคš เคฐเคนเคพ เคฅเคพเฅค เค•เฅเคฏเคพ เค†เคช เคฎเฅเคเฅ‡ เค•เฅเค› เค…เคšเฅเค›เฅ‡ เคฒเฅ‹เค•เฅ‡เคถเคจ เค•เฅ‡ เคฌเคพเคฐเฅ‡ เคฎเฅ‡เค‚ เคฌเคคเคพ เคธเค•เคคเฅ€ เคนเฅˆเค‚?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ เคธเคพเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค

HYP: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ เคธเคพเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : เคนเคพเค เคฌเคขเคฟเคฏเคพ เคฅเฅˆเค‚เค• เคฏเฅ‚ เคฎเฅˆเค‚ เค…เค—เคฒเฅ‡ เคธเฅˆเคŸเคฐเคกเฅ‡ เค”เคฐ เคธเค‚เคกเฅ‡ เค•เฅ‹ เคŸเฅเคฐเคพเคˆ เค•เคฐเฅ‚เคเค—เคพเฅค

HYP: customer : เคนเคพเค เคฌเคขเคฟเคฏเคพ เคฅเฅˆเค‚เค• เคฏเฅ‚ เคฎเฅˆเค‚ เค…เค—เคฒเฅ‡ เคธเฅˆเคŸเคฐเคกเฅ‡ เค”เคฐ เคธเค‚เคกเฅ‡ เค•เฅ‹ เคŸเฅเคฐเคพเคˆ เค•เคฐเฅ‚เคเค—เคพเฅค

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : เคเค• เคธเคœเฅ‡เคถเคจ เคตเฅ€เค•เฅ‡เค‚เคก เคฎเฅ‡เค‚ เคŸเฅเคฐเฅˆเคซเคฟเค• เคœเฅเคฏเคพเคฆเคพ เคฐเคนเคจเฅ‡ เค•เฅ‡ เคšเคพเค‚เคธเฅ‡เคœ เคนเฅˆเฅค

HYP: agent : เคเค• เคธเคœเฅ‡เคถเคจ เคตเฅ€เค•เฅ‡เค‚เคก เคฎเฅ‡เค‚ เคŸเฅเคฐเฅˆเคซเคฟเค• เคœเฅเคฏเคพเคฆเคพ เคฐเคนเคจเฅ‡ เค•เฅ‡ เคšเคพเค‚เคธเฅ‡เคœ เคนเฅˆเฅค

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : เคธเคฟเคฐเคฟเคฏเคธเคฒเฅ€ เคเคจเฅ€ เคŸเคฟเคชเฅเคธ เคฏเฅ‚ เค•เฅ‡เคจ เคถเฅ‡เคฐ

HYP: customer : เคธเคฟเคฐเคฟเคฏเคธเคฒเฅ€ เคเคจเฅ€ เคŸเคฟเคชเฅเคธ ** เคšเคฟเค•เคจ เคถเฅ‡เคฐ

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : เค†เคช เคŸเฅ‡เค•เฅเคธเฅ€ เคฏเฅ‚เคธ เค•เคฐ เคฒเฅ‹ เคกเฅเคฐเฅˆเคต เค”เคฐ เคชเคพเคฐเฅเค•เคฟเค‚เค— เค•เคพ เคชเฅเคฐเคพเคฌเฅเคฒเคฎ เคจเคนเฅ€เค‚ เคนเฅ‹เค—เคพเฅค

HYP: agent : เค†เคช เคŸเฅ‡เค•เฅเคธเฅ€ เคฏเฅ‚เคธ เค•เคฐ เคฒเฅ‹ เคกเฅเคฐเฅˆเคต เค”เคฐ เคชเคพเคฐเฅเค•เคฟเค‚เค— เค•เคพ เคชเฅเคฐเคพเคฌเฅเคฒเคฎ เคจเคนเฅ€เค‚ เคนเฅ‹เค—เคพเฅค

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : เค—เฅเคฐเฅ‡เคŸ เค†เค‡เคกเคฟเคฏเคพ เคฅเฅˆเค‚เค•เฅเคฏเฅ‚ เคธเฅ‹ เคฎเคšเฅค

HYP: customer : เค—เฅเคฐเฅ‡เคŸ เค†เค‡เคกเคฟเคฏเคพ เคฅเฅˆเค‚เค•เฅเคฏเฅ‚ เคธเฅ‹ เคฎเคšเฅค

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Pengamatan dari transkrip yang dibuat dengan kosakata khusus

Total WER adalah 6.061%, artinya 93.939% kata-kata ditranskripsikan dengan akurat.

Mari kita bandingkan output untuk kalimat 4 dengan dan tanpa kosakata khusus. Berikut ini adalah tanpa kosakata khusus:

REF: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ เคธเคพเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค

HYP: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคนเฅ€เคจเคพ เค—เฅ‹เคฒเค•เฅเค‚เคกเคพ เคซเฅ‹เคฐ เคธเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Berikut ini dengan kosakata khusus:

REF: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ เคธเคพเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค

HYP: agent : เคนเคพเค เคฌเคฟเคฒเฅเค•เฅเคฒเฅค เคนเฅˆเคฆเคฐเคพเคฌเคพเคฆ เคฎเฅ‡เค‚ เคฌเคนเฅเคค เคธเคพเคฐเฅ‡ เคชเฅเคฒเฅ‡เคธ เคนเฅˆเฅค เค‰เคจเคฎเฅ‡เค‚ เคธเฅ‡ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ เคธเคพเคฒเคพเคฐ เคœเค‚เค— เคฎเฅเคฏเฅ‚เคœเคฟเคฏเคฎ เค”เคฐ เคฌเคฟเคฐเคฒเคพ เคชเฅเคฒเฅ‡เคจเฅ‡เคŸเฅ‹เคฐเคฟเคฏเคฎ เคฎเคถเคนเฅ‚เคฐ เคนเฅˆเฅค

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Tidak ada kesalahan dalam kalimat 4. Nama-nama tempat ditranskripsikan secara akurat dengan bantuan kosakata khusus, sehingga mengurangi WER keseluruhan dari 9.848% menjadi 6.061% untuk file audio ini. Ini berarti bahwa akurasi transkripsi meningkat hampir 4%.

Bagaimana kosakata khusus meningkatkan akurasi

Kami menggunakan kosakata khusus berikut:

Phrase IPA SoundsLike DisplayAs

เค—เฅ‹เคฒเค•เฅเค‚เคกเคพ-เคซเฅ‹เคฐ เค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ เคซเฅ‹เคฐเฅเคŸ

เคธเคพเคฒเคพเคฐ-เคœเค‚เค— เคธเคพ-เคฒเคพเคฐ-เคœเค‚เค— เคธเคพเคฒเคพเคฐ เคœเค‚เค—

เคšเคพเคฐ-เคฎเคนเฅ€เคจเคพ เคšเคพเคฐ เคฎเคฟเคจเคพเคฐ

Amazon Transcribe memeriksa apakah ada kata dalam file audio yang terdengar seperti kata-kata yang disebutkan di Phrase kolom. Kemudian model menggunakan entri dalam IPA, SoundsLike, dan DisplaysAs kolom untuk kata-kata tertentu untuk ditranskripsikan dengan ejaan yang diinginkan.

Dengan kosakata khusus ini, saat Amazon Transcribe mengidentifikasi kata yang terdengar seperti โ€œเค—เฅ‹เคฒเค•เฅเค‚เคกเคพ-เคซเฅ‹เคฐ (Golcunda-Four)โ€, kata tersebut akan ditranskripsikan sebagai โ€œเค—เฅ‹เคฒเค•เฅ‹เค‚เคกเคพ (Golconda Fort).โ€

Rekomendasi

Keakuratan transkripsi juga tergantung pada parameter seperti pengucapan pembicara, pembicara yang tumpang tindih, kecepatan bicara, dan kebisingan latar belakang. Oleh karena itu, kami menyarankan Anda untuk mengikuti proses dengan berbagai panggilan (dengan pelanggan yang berbeda, agen, interupsi, dan sebagainya) yang mencakup kata-kata khusus domain yang paling umum digunakan bagi Anda untuk membangun kosakata kustom yang komprehensif.

Dalam posting ini, kami mempelajari proses untuk meningkatkan akurasi menyalin satu panggilan audio menggunakan kosakata khusus. Untuk memproses ribuan rekaman panggilan pusat kontak Anda setiap hari, Anda dapat menggunakan analisis pos panggilan, solusi end-to-end yang sepenuhnya otomatis, skalabel, dan hemat biaya yang menangani sebagian besar pengangkatan berat. Anda cukup mengunggah file audio Anda ke bucket S3, dan dalam hitungan menit, solusinya menyediakan analisis panggilan seperti sentimen di UI web. Analisis pasca panggilan memberikan wawasan yang dapat ditindaklanjuti untuk melihat tren yang muncul, mengidentifikasi peluang pelatihan agen, dan menilai sentimen umum panggilan. Analisis pasca panggilan adalah solusi sumber terbuka yang dapat Anda terapkan menggunakan Formasi AWS Cloud.

Perhatikan bahwa kosakata khusus tidak menggunakan konteks di mana kata-kata itu diucapkan, mereka hanya fokus pada kata-kata individual yang Anda berikan. Untuk lebih meningkatkan akurasi, Anda dapat menggunakan model bahasa kustom. Tidak seperti kosakata khusus, yang mengaitkan pengucapan dengan ejaan, model bahasa khusus mempelajari konteks yang terkait dengan kata tertentu. Ini termasuk bagaimana dan kapan sebuah kata digunakan, dan hubungan sebuah kata dengan kata lain. Untuk membuat model bahasa khusus, Anda dapat menggunakan transkripsi yang berasal dari proses yang kami pelajari untuk berbagai panggilan, dan menggabungkannya dengan konten dari situs web atau panduan pengguna Anda yang berisi kata dan frasa khusus domain.

Untuk mencapai akurasi transkripsi tertinggi dengan transkripsi batch, Anda dapat menggunakan kosakata khusus bersama dengan model bahasa khusus Anda.

Kesimpulan

Dalam posting ini, kami memberikan langkah-langkah terperinci untuk memproses file audio Hindi yang berisi kata-kata bahasa Inggris secara akurat menggunakan analitik panggilan dan kosakata khusus di Amazon Transcribe. Anda dapat menggunakan langkah yang sama untuk memproses panggilan audio dengan bahasa yang didukung oleh Amazon Transkripsi.

Setelah Anda mendapatkan transkripsi dengan akurasi yang diinginkan, Anda dapat meningkatkan percakapan agen-pelanggan dengan melatih agen Anda. Anda juga dapat memahami sentimen dan tren pelanggan Anda. Dengan bantuan fitur diarisasi speaker, deteksi kenyaringan, dan pemfilteran kosa kata dalam analisis panggilan, Anda dapat mengidentifikasi apakah agen atau pelanggan yang menaikkan nada mereka atau mengucapkan kata-kata tertentu. Anda dapat mengategorikan panggilan berdasarkan kata khusus domain, menangkap wawasan yang dapat ditindaklanjuti, dan menjalankan analitik untuk meningkatkan produk Anda. Akhirnya, Anda dapat menerjemahkan transkrip Anda ke bahasa Inggris atau bahasa lain yang didukung pilihan Anda menggunakan Amazon Terjemahan.


Tentang Penulis

Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Sarat Guttikonda adalah Arsitek Sr. Solutions di AWS World Wide Public Sector. Sarat senang membantu pelanggan mengotomatiskan, mengelola, dan mengatur sumber daya cloud mereka tanpa mengorbankan kelincahan bisnis. Di waktu luangnya, dia suka membuat Lego bersama putranya dan bermain tenis meja.

Tingkatkan akurasi transkripsi panggilan agen pelanggan dengan kosakata khusus di Amazon Transcribe PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Lavanya Sod adalah Arsitek Solusi di AWS World Wide Public Sector yang berbasis di New Delhi, India. Lavanya senang mempelajari teknologi baru dan membantu pelanggan dalam perjalanan adopsi cloud mereka. Di waktu luangnya, dia suka bepergian dan mencoba berbagai makanan.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS