Amazon Polly adalah teks pidato layanan yang menggunakan teknologi deep learning canggih untuk mensintesis ucapan manusia yang terdengar alami. Ini digunakan dalam berbagai kasus penggunaan, seperti sistem pusat kontak, memberikan pengalaman pengguna percakapan dengan suara seperti manusia untuk pemeriksaan status waktu nyata otomatis, pertanyaan akun dan penagihan otomatis, dan oleh kantor berita seperti The Washington Post untuk memungkinkan pembaca mendengarkan artikel berita.
Mulai hari ini, Amazon Polly menyediakan lebih dari 60 suara dalam 30+ varian bahasa. Amazon Polly juga menggunakan konteks untuk mengucapkan kata-kata tertentu secara berbeda berdasarkan bentuk kata kerja dan informasi kontekstual lainnya. Misalnya, "membaca" dalam "Saya membaca buku" (present tense) dan "Saya akan membaca buku" (future tense) diucapkan berbeda.
Namun, dalam beberapa situasi Anda mungkin ingin menyesuaikan cara Amazon Polly mengucapkan sebuah kata. Misalnya, Anda mungkin perlu mencocokkan pengucapannya dengan dialek atau bahasa daerah setempat. Nama-nama benda (misalnya, Tomat dapat diucapkan sebagai tom-ah-ke or tom-ay-ke), orang, jalan, atau tempat sering diucapkan dengan berbagai cara.
Dalam posting ini, kami menunjukkan bagaimana Anda dapat memanfaatkan leksikon untuk membuat pengucapan khusus. Anda dapat menerapkan leksikon untuk kasus penggunaan seperti penerbitan, pendidikan, atau pusat panggilan.
Sesuaikan pengucapan menggunakan tag SSML
Katakanlah Anda melakukan streaming podcast populer dari Australia dan Anda menggunakan suara Amazon Polly Australian English (Olivia) untuk mengubah skrip Anda menjadi ucapan seperti manusia. Di salah satu skrip Anda, Anda ingin menggunakan kata-kata yang tidak dikenal oleh suara Amazon Polly. Misalnya, Anda ingin mengirim salam Mฤtariki (Tahun Baru Mฤori) kepada pendengar di Selandia Baru. Untuk skenario seperti itu, Amazon Polly mendukung pengucapan fonetik, yang dapat Anda gunakan untuk mencapai pengucapan yang mendekati pengucapan yang benar dalam bahasa asing.
Anda dapat menggunakan Bahasa Markup Sintesis Pidato (SSML) untuk menyarankan pengucapan fonetik dalam atribut ph. Biarkan saya menunjukkan kepada Anda bagaimana Anda dapat menggunakan tanda SSML.
Pertama, login ke Anda Konsol AWS dan cari Amazon Polly di bilah pencarian di bagian atas. Pilih Amazon Polly lalu pilih tombol Coba Polly.
Di konsol Amazon Polly, pilih Bahasa Inggris Australia dari tarik-turun bahasa dan masukkan teks berikut di kotak teks Input, lalu klik Dengarkan untuk menguji pengucapannya.
Saya mengucapkan selamat kepada Anda semua, Mฤtariki.
Contoh pidato tanpa menerapkan pengucapan fonetik:
Jika Anda mendengar contoh pidato di atas, Anda dapat memperhatikan bahwa pengucapan matariki โ sebuah kata yang bukan bagian dari Bahasa Inggris Australia โ kurang tepat. Sekarang, mari kita lihat bagaimana dalam skenario seperti itu kita dapat menggunakan pengucapan fonetik menggunakan Tag SSML untuk menyesuaikan ucapan yang dihasilkan oleh Amazon Polly.
Untuk menggunakan tag SSML, AKTIFKAN opsi SSML di konsol Amazon Polly. Kemudian salin dan tempel skrip SSML berikut yang berisi pengucapan fonetik untuk matariki ditentukan di dalam atribut ph dari menandai.
Dengan menandai, Amazon Polly menggunakan pengucapan yang ditentukan oleh atribut ph alih-alih pengucapan standar yang dikaitkan secara default dengan bahasa yang digunakan oleh suara yang dipilih.
Contoh pidato setelah menerapkan pengucapan fonetik:
Jika Anda mendengar suara sampel, Anda akan melihat bahwa kami memilih pengucapan yang berbeda untuk beberapa vokal (misalnya, ฤ) untuk membuat Amazon Polly mensintesis suara yang lebih dekat dengan pengucapan yang benar. Sekarang Anda mungkin memiliki pertanyaan, bagaimana cara menghasilkan transkripsi fonetik โmA:.tA:.ri.kiโ untuk kata matariki?
Anda dapat membuat transkripsi fonetik dengan merujuk ke Tabel fonem dan Viseme untuk bahasa yang didukung. Dalam contoh di atas kita telah menggunakan fonem untuk bahasa Inggris Australia.
Amazon Polly menawarkan dukungan dalam dua alfabet fonetik: IPA dan X-Sampa. Manfaat X-Sampa adalah bahwa mereka adalah karakter ASCII standar, sehingga lebih mudah untuk mengetik transkripsi fonetik dengan keyboard biasa. Anda dapat menggunakan salah satu dari IPA atau X-Sampa untuk menghasilkan transkripsi Anda, tetapi pastikan untuk tetap konsisten dengan pilihan Anda, terutama ketika Anda menggunakan file leksikon yang akan kita bahas di bagian selanjutnya.
Setiap fonem dalam tabel fonem mewakili bunyi ujaran. Huruf yang ditebalkan pada "Contoh" kolom tabel Fonem/Viseme di halaman Bahasa Inggris Australia yang ditautkan di atas mewakili bagian kata yang sesuai dengan "Fonem". Misalnya, fonem /j/ mewakili suara yang dibuat oleh penutur bahasa Inggris Australia ketika mengucapkan huruf "y" dalam "ya."
Sesuaikan pengucapan menggunakan leksikon
Tag fonem cocok untuk situasi satu kali untuk menyesuaikan kasus yang terisolasi, tetapi ini tidak dapat diskalakan. Jika Anda memproses teks dalam jumlah besar, dikelola oleh editor dan pengulas yang berbeda, sebaiknya gunakan leksikon. Dengan menggunakan leksikon, Anda dapat mencapai konsistensi dalam menambahkan pengucapan khusus dan secara bersamaan mengurangi upaya manual memasukkan tag fonem ke dalam skrip.
Praktik yang baik adalah setelah Anda menguji pengucapan khusus di konsol Amazon Polly menggunakan tag, Anda membuat perpustakaan pengucapan yang disesuaikan menggunakan kamus. Setelah file leksikon diunggah, Amazon Polly akan secara otomatis menerapkan pengucapan fonetik yang ditentukan dalam file leksikon dan menghilangkan kebutuhan untuk secara manual memberikan menandai.
Buat file leksikon
File leksikon berisi pemetaan antara kata dan pengucapan fonetiknya. Spesifikasi Lexicon Pengucapan (PLS) adalah rekomendasi W3C untuk menentukan informasi pengucapan yang dapat dioperasikan. Berikut ini adalah contoh dokumen PLS:
Pastikan Anda menggunakan nilai yang benar untuk xml:lang
bidang. Menggunakan en-AU
jika Anda mengunggah file leksikon untuk digunakan dengan suara bahasa Inggris Australia Amazon Polly. Untuk daftar lengkap bahasa yang didukung, lihat Bahasa yang Didukung oleh Amazon Polly.
Untuk menentukan pengucapan khusus, Anda perlu menambahkan elemen yang merupakan wadah untuk entri leksikal dengan satu atau lebih <grapheme>
elemen dan satu atau lebih informasi pengucapan yang disediakan di dalam <phoneme>
elemen.
Grafik <grapheme>
elemen berisi teks yang menjelaskan ortografi dari elemen. Anda dapat menggunakan <grapheme>
elemen untuk menentukan kata yang pengucapannya ingin Anda sesuaikan. Anda dapat menambahkan beberapa <grapheme>
elemen untuk menentukan semua variasi kata, misalnya dengan atau tanpa makron. Itu <grapheme>
elemen peka huruf besar/kecil, dan selama sintesis ucapan, string Amazon Polly cocok dengan kata-kata di dalam skrip yang Anda ubah menjadi ucapan. Jika kecocokan ditemukan, ia menggunakan elemen, yang menjelaskan bagaimana diucapkan untuk menghasilkan transkripsi fonetik.
Anda juga dapat menggunakan <alias>
untuk singkatan yang umum digunakan. Dalam contoh file leksikon sebelumnya, NZ digunakan sebagai alias untuk Selandia Baru. Ini berarti bahwa setiap kali Amazon Polly menemukan "NZ" (dengan huruf yang cocok) di badan teks, kedua huruf tersebut akan terbaca sebagai "Selandia Baru".
Untuk informasi lebih lanjut tentang format file leksikon, lihat Spesifikasi Lexicon Pengucapan (PLS) Versi 1.0 di situs W3C.
Anda dapat menyimpan file leksikon sebagai file .pls atau .xml sebelum mengunggahnya ke Amazon Polly.
Unggah dan terapkan file leksikon
Unggah file leksikon Anda ke Amazon Polly menggunakan petunjuk berikut:
- Di konsol Amazon Polly, pilih leksikon di panel navigasi.
- Pilih Unggah leksikon.
- Masukkan nama untuk leksikon dan kemudian pilih file leksikon.
- Pilih file yang akan diunggah.
- Pilih Unggah leksikon.
Jika leksikon dengan nama yang sama (apakah file .pls atau .xml) sudah ada, mengunggah leksikon akan menimpa leksikon yang ada.
Sekarang Anda dapat menerapkan leksikon untuk menyesuaikan pengucapan.
- Pilih Text-to-Speech di panel navigasi.
- Lihat lebih lanjut Additional settings.
- Aktifkan Sesuaikan pengucapan.
- Pilih leksikon pada menu drop-down.
Anda juga bisa memilih Unggah leksikon untuk mengunggah file leksikon baru (atau versi baru).
Ini adalah praktik yang baik untuk mengontrol versi file leksikon dalam repositori kode sumber. Menyimpan pelafalan khusus dalam file leksikon memastikan bahwa Anda dapat secara konsisten merujuk ke pelafalan fonetik untuk kata-kata tertentu di seluruh organisasi. Juga, ingatlah batas leksikon pengucapan yang disebutkan di Kuota di Amazon Polly .
Uji pengucapan setelah menerapkan leksikon
Mari kita lakukan tes cepat menggunakan "Semoga semua pendengar saya di NZ, Mฤtariki yang sangat Bahagia" sebagai teks input.
Kita dapat membandingkan file audio sebelum dan sesudah menerapkan leksikon.
Sebelum menerapkan leksikon:
Setelah menerapkan leksikon:
Kesimpulan
Dalam posting ini, kami membahas bagaimana Anda dapat menyesuaikan pengucapan akronim yang umum digunakan atau kata-kata yang tidak ditemukan dalam bahasa yang dipilih di Amazon Polly. Anda dapat gunakan Tag SSML yang bagus untuk menyisipkan penyesuaian atau tujuan pengujian satu kali. Kami merekomendasikan penggunaan Lexicon untuk membuat rangkaian pengucapan yang konsisten untuk kata-kata yang sering digunakan di seluruh organisasi Anda. Ini memungkinkan penulis konten Anda menghabiskan waktu untuk menulis alih-alih tugas membosankan menambahkan pengucapan fonetik dalam skrip secara berulang. Anda dapat mencoba ini di akun AWS Anda di konsol Amazon Polly.
Ringkasan sumber daya
Tentang Penulis
Ratan Kumar adalah Arsitek Solusi yang berbasis di Auckland, Selandia Baru. Dia bekerja dengan pelanggan perusahaan besar yang membantu mereka merancang dan membangun aplikasi skala internet yang aman, hemat biaya, dan andal menggunakan AWS cloud. Dia bersemangat tentang teknologi dan suka berbagi pengetahuan melalui posting blog dan sesi kedutan.
Maciek Tegi adalah Perancang Audio Utama dan Manajer Produk untuk Suara Merek Polly. Dia telah bekerja dalam kapasitas profesional di industri teknologi, film, iklan, dan lokalisasi game. Pada 2013, dia adalah teknisi audio pertama yang dipekerjakan di tim Alexa Text-To-Speech. Maciek terlibat dalam merilis 12 suara Alexa TTS di berbagai negara, lebih dari 20 suara Polly, dan 4 suara selebriti Alexa. Maciek adalah seorang atlet triatlon, dan pemain gitar akustik yang rajin.
- "
- 100
- 116
- Tentang Kami
- Akun
- Mencapai
- di seluruh
- maju
- Alexa
- Semua
- sudah
- Amazon
- aplikasi
- Menerapkan
- audio
- Australia
- mobil
- Otomatis
- AWS
- sebelum
- manfaat
- penagihan
- Blog
- Posting blog
- tubuh
- batas
- Kotak
- merek
- membangun
- panggilan
- Kapasitas
- kasus
- Selebriti
- tertentu
- Pilih
- lebih dekat
- awan
- kode
- Kolom
- konsul
- kontak
- Wadah
- mengandung
- Konten
- kontrol
- hemat biaya
- negara
- menutupi
- membuat
- membuat
- adat
- pelanggan
- mengantarkan
- mendemonstrasikan
- Mendesain
- Pengembang
- berbeda
- selama
- Pendidikan
- usaha
- elemen
- menghapuskan
- insinyur
- Inggris
- Enter
- Enterprise
- terutama
- contoh
- ada
- Pengalaman
- Pertama
- berikut
- asing
- format
- ditemukan
- masa depan
- permainan
- menghasilkan
- baik
- besar
- senang
- membantu
- Seterpercayaapakah Olymp Trade? Kesimpulan
- HTTPS
- besar
- manusia
- industri
- informasi
- memasukkan
- Internet
- dapat dioperasikan
- terlibat
- IT
- pemeliharaan
- pengetahuan
- bahasa
- Bahasa
- besar
- pengetahuan
- Leverage
- Perpustakaan
- Daftar
- lokal
- MEMBUAT
- berhasil
- manajer
- panduan
- manual
- pemetaan
- Cocok
- sesuai
- cara
- tersebut
- mungkin
- keberatan
- lebih
- bioskop
- beberapa
- nama
- Navigasi
- Tahun Baru
- Selandia Baru
- berita
- normal
- Penawaran
- pilihan
- organisasi
- Lainnya
- bagian
- bergairah
- Konsultan Ahli
- pemain
- podcast
- Populer
- Posts
- praktek
- menyajikan
- Utama
- proses
- Diproduksi
- Produk
- profesional
- memberikan
- menyediakan
- Penerbitan
- tujuan
- pertanyaan
- Cepat
- pembaca
- real-time
- sarankan
- menurunkan
- dapat diandalkan
- gudang
- mewakili
- merupakan
- terukur
- Skala
- Pencarian
- aman
- terpilih
- layanan
- sesi
- set
- berbagi
- So
- padat
- Solusi
- beberapa
- kode sumber
- Pembicara
- spesifikasi
- menghabiskan
- standar
- Status
- tinggal
- aliran
- mendukung
- Didukung
- Mendukung
- sistem
- tim
- tech
- industri teknologi
- Teknologi
- Teknologi
- uji
- pengujian
- The Washington Post
- Melalui
- waktu
- hari ini
- puncak
- Berkedut
- menggunakan
- nilai
- variasi
- versi
- Suara
- SUARA
- volume
- W3
- Washington
- Situs Web
- apakah
- Wikipedia
- tanpa
- kata
- bekerja
- bekerja
- penulisan
- XML
- tahun