Amazon Polly thổi sức sống vào văn bản bằng cách chuyển nó thành lời nói sống động như thật. Điều này cho phép các nhà phát triển và doanh nghiệp tạo ra các ứng dụng có thể trò chuyện trong thời gian thực, do đó mang lại trải nghiệm tương tác nâng cao. Chuyển văn bản thành giọng nói (TTS) trong Amazon Polly hỗ trợ nhiều loại ngôn ngữ và ngôn ngữ, cho phép bạn thực hiện chuyển đổi TTS theo sở thích của mình. Nhiều yếu tố hướng dẫn sự lựa chọn này, chẳng hạn như vị trí địa lý và ngôn ngữ địa phương.
Amazon Polly sử dụng các công nghệ học sâu nâng cao để tổng hợp văn bản thành giọng nói trong thời gian thực ở nhiều định dạng đầu ra khác nhau, chẳng hạn như MP3, ogg vorbis, JSON hoặc PCM, theo tiêu chuẩn và thần kinh động cơ. Ngôn ngữ đánh dấu tổng hợp giọng nói (SSML) hỗ trợ cho Amazon Polly tăng cường hơn nữa khả năng của dịch vụ trong việc tùy chỉnh giọng nói với nhiều tùy chọn, bao gồm kiểm soát tốc độ và âm lượng giọng nói, thêm tạm dừng, nhấn mạnh các từ hoặc cụm từ nhất định, v.v.
Trong thế giới ngày nay, các doanh nghiệp tiếp tục mở rộng trên nhiều vị trí địa lý và họ liên tục tìm kiếm các cơ chế để cải thiện mức độ tương tác của người dùng cuối được cá nhân hóa. Ví dụ: bạn có thể yêu cầu phát âm chính xác các từ nhất định theo một phong cách cụ thể liên quan đến các vị trí địa lý khác nhau. Doanh nghiệp của bạn cũng có thể cần phát âm một số từ và cụm từ theo những cách nhất định tùy thuộc vào ý nghĩa của chúng. Bạn có thể đạt được điều này với sự trợ giúp của Thẻ SSML được cung cấp bởi Amazon Polly.
Bài đăng này nhằm mục đích hỗ trợ bạn tùy chỉnh cách phát âm khi giao dịch với cơ sở khách hàng toàn cầu thực sự.
Sửa đổi cách phát âm bằng cách sử dụng âm vị
Âm vị có thể được coi là đơn vị nhỏ nhất của tiếng nói. Các <phoneme>
Thẻ SSML trong Amazon Polly giúp tùy chỉnh cách phát âm dựa trên âm vị bằng cách sử dụng IPA (Bảng chữ cái ngữ âm quốc tế) hoặc X-SAMPA (Phương pháp đánh giá giọng nói mở rộng Bảng chữ cái ngữ âm). X-SAMPA là một đại diện của IPA trong mã hóa ASCII. Thẻ âm vị có sẵn và được hỗ trợ đầy đủ trong cả công cụ TTS tiêu chuẩn và thần kinh. Ví dụ, từ “lead” có thể được phát âm như động từ thì hiện tại, hoặc nó có thể chỉ nguyên tố hóa học là chì. Chúng tôi sẽ thảo luận về điều này với một ví dụ thêm trong bài đăng trên blog này.
Bảng chữ cái ngữ âm quốc tế
IPA được sử dụng để mô tả âm thanh trên các ngôn ngữ khác nhau. Để biết danh sách các âm vị mà Amazon Polly hỗ trợ, hãy tham khảo Bảng âm vị và Viseme cho các ngôn ngữ được hỗ trợ.
Theo mặc định, Amazon Polly xác định cách phát âm của từ theo một định dạng cụ thể. Hãy sử dụng ví dụ về từ “chì”, từ này có thể có các cách phát âm khác nhau khi đề cập đến nguyên tố hóa học hoặc động từ. Trong ví dụ này, khi chúng tôi cung cấp từ “lead” làm đầu vào, nó được nói ở dạng thì hiện tại (mà không sử dụng bất kỳ thẻ SSML tùy chỉnh nào). Cách phát âm mặc định cho L E A D
của Amazon Polly là dạng hiện tại của “khách hàng tiềm năng”.
Để trả lại cách phát âm của nguyên tố hóa học (cũng có thể là động từ ở thì quá khứ), chúng ta có thể sử dụng các âm vị cùng với IPA hoặc X-SAMPA. IPA thường được sử dụng để tùy chỉnh cách phát âm của một từ trong một ngôn ngữ nhất định bằng cách sử dụng các âm vị:
Sửa đổi cách phát âm bằng cách chỉ định các phần của bài phát biểu
Nếu chúng ta xem xét cùng một ví dụ về cách phát âm "lead", chúng ta cũng có thể phân biệt giữa nguyên tố hóa học và động từ bằng cách chỉ định các phần của lời nói bằng cách sử dụng Thẻ SSML.
Sản phẩm <w>
thẻ cho phép chúng tôi tùy chỉnh cách phát âm bằng cách chỉ định các phần của bài phát biểu. Bạn có thể định cấu hình cách phát âm theo động từ (thì hiện tại đơn hoặc quá khứ), danh từ, tính từ, giới từ và xác định. Xem ví dụ sau:
Ngoài ra, bạn có thể sử dụng thẻ để chỉ ra cách phát âm của các từ viết tắt và từ viết tắt:
Phương pháp đánh giá giọng nói mở rộng Bảng chữ cái ngữ âm
Sản phẩm X-SAMPA lược đồ phiên âm là một phép ngoại suy cho các bộ âm vị SAMPA dành riêng cho từng ngôn ngữ có sẵn.
Đoạn mã sau đây cho thấy cách bạn có thể sử dụng X-SAMPA để phát âm các biến thể khác nhau của từ “lead”:
Dấu ứng suất trong IPA thường được biểu thị bằng ˈ. Chúng ta thường gặp các tình huống trong đó một dấu nháy đơn được sử dụng thay thế, có thể cho kết quả khác với mong đợi. Trong X-SAMPA, dấu căng thẳng là dấu ngoặc kép, do đó chúng ta nên sử dụng một dấu ngoặc kép duy nhất cho từ và chỉ định bảng chữ cái phiên âm. Xem ví dụ sau:
Trong ví dụ trên, chúng ta có thể thấy ký tự ˈ được sử dụng để nhấn trọng âm từ. Tương tự, dấu ứng suất trong X-SAMPA được hiển thị trong dấu ngoặc kép bên dưới:
Sửa đổi cách phát âm bằng các thẻ SSML khác
Bạn có thể sử dụng <say as>
để sửa đổi cách phát âm bằng cách bật tính năng viết chính tả hoặc ký tự. Hơn nữa, nó tăng cường khả năng phát âm về chữ số, phân số, đơn vị, ngày, giờ, địa chỉ, số điện thoại, số thứ tự và thứ tự, và cũng có thể kiểm duyệt văn bản được bao gồm trong thẻ. Để biết thêm thông tin, hãy tham khảo Kiểm soát cách nói các loại từ đặc biệt. Hãy xem các ví dụ về các thuộc tính này.
Ngày
Theo mặc định, Amazon Polly đọc các đầu vào văn bản khác nhau. Tuy nhiên, để xử lý các thuộc tính cụ thể như ngày tháng, bạn có thể sử dụng date
để tùy chỉnh cách phát âm theo định dạng bắt buộc, chẳng hạn như tháng-ngày-năm hoặc ngày-tháng-năm.
Không có date
thuộc tính, Amazon Polly cung cấp kết quả sau khi nói ra ngày tháng:
Tuy nhiên, nếu bạn muốn ngày được nói ở một định dạng cụ thể, thì thuộc tính date trong thẻ giúp tùy chỉnh cách phát âm:
Đức Hồng Y
Thuộc tính này đại diện cho một số ở định dạng chính của nó. Ví dụ: 124456 được phát âm là "một trăm hai mươi bốn nghìn bốn trăm năm mươi sáu":
Bình thường
Thuộc tính này đại diện cho một số ở định dạng thứ tự của nó. Không có ordinal
thuộc tính, số được phát âm ở dạng số của nó:
Nếu chúng ta muốn phát âm 1242 là "một nghìn hai trăm bốn mươi giây", chúng ta có thể sử dụng ordinal
thuộc tính:
Chữ số
Sản phẩm digits
thuộc tính được sử dụng để nói ra các con số. Ví dụ: “1234” được phát âm là “một hai ba bốn”:
Phần Trăm
Sản phẩm fraction
thuộc tính được sử dụng để tùy chỉnh cách phát âm ở dạng phân số:
Thời gian
Sản phẩm time
thuộc tính được sử dụng để đo thời gian theo phút và giây:
tục tĩu
Sản phẩm expletive
thuộc tính kiểm duyệt văn bản kèm theo trong các thẻ:
Điện thoại
Để phát âm các số điện thoại, bạn có thể sử dụng telephone
thuộc tính để đọc các số điện thoại thay vì phát âm chúng dưới dạng các chữ số độc lập hoặc như một số chính:
Địa Chỉ
Sản phẩm address
thuộc tính được sử dụng để tùy chỉnh cách phát âm của một địa chỉ phù hợp với một định dạng cụ thể:
từ vựng
Chúng tôi đã xem xét một số thẻ SSML sẵn có trong Amazon Polly. Các trường hợp sử dụng khác có thể yêu cầu mức độ kiểm soát cao hơn đối với các cách phát âm tùy chỉnh. Lexicons giúp đạt được yêu cầu này. Bạn có thể sử dụng từ vựng khi một số từ nhất định cần được phát âm ở một dạng nhất định không phổ biến đối với ngôn ngữ cụ thể đó.
Một trường hợp sử dụng khác cho từ vựng là sử dụng các chữ số, là các chữ viết tắt được hình thành với sự trợ giúp của các con số. Ví dụ: Y2K được phát âm là “năm 2000”. Bạn có thể sử dụng các từ vựng để tùy chỉnh các cách phát âm này.
Amazon Polly hỗ trợ các tệp từ vựng ở định dạng .pls và .xml. Để biết thêm thông tin, hãy xem Quản lý Lexicons.
Kết luận
Các thẻ SSML của Amazon Polly có thể giúp bạn tùy chỉnh cách phát âm theo nhiều cách khác nhau. Chúng tôi hy vọng rằng bài đăng này mang lại cho bạn một khởi đầu thuận lợi trong thế giới tổng hợp giọng nói và cung cấp năng lượng cho các ứng dụng của bạn để cung cấp các tương tác giữa con người như thật hơn.
Về các tác giả
Abilashkumar PC là Kỹ sư hỗ trợ đám mây tại AWS. Anh ấy làm việc với khách hàng để cung cấp hướng dẫn xử lý sự cố kỹ thuật, giúp họ đạt được khối lượng công việc của mình trên quy mô lớn. Ngoài giờ làm việc, anh ấy thích lái xe, chạy theo cricket và đọc sách.
Abhishek Soni là Kiến trúc sư Giải pháp Đối tác tại AWS. Anh ấy làm việc với khách hàng để cung cấp hướng dẫn kỹ thuật cho kết quả tốt nhất của khối lượng công việc trên AWS.
- "
- 100
- 7
- a
- Theo
- chính xác
- Đạt được
- ngang qua
- địa chỉ
- tiên tiến
- cho phép
- Bảng chữ cái
- đàn bà gan dạ
- Amazon Web Services
- các ứng dụng
- thẩm định, lượng định, đánh giá
- thuộc tính
- tự động
- có sẵn
- AWS
- phía dưới
- BEST
- giữa
- Blog
- kinh doanh
- các doanh nghiệp
- trường hợp
- trường hợp
- nhất định
- nhân vật
- hóa chất
- sự lựa chọn
- đám mây
- Hãy xem xét
- tiếp tục
- điều khiển
- điều khiển
- Chuyển đổi
- tạo
- dế
- khách hàng
- khách hàng
- tùy chỉnh
- Ngày
- xử lý
- sâu
- Tùy
- phát triển
- khác nhau
- phân biệt
- chữ số
- thảo luận
- tăng gấp đôi
- lái xe
- cho phép
- cho phép
- Tham gia
- Động cơ
- ky sư
- ví dụ
- ví dụ
- Mở rộng
- dự kiến
- kinh nghiệm
- các yếu tố
- Đặc tính
- tiếp theo
- hình thức
- định dạng
- phân số
- xa hơn
- Hơn nữa
- nói chung
- Địa lý
- địa lý
- Toàn cầu
- đi
- hướng dẫn
- Xử lý
- cái đầu
- nghe
- giúp đỡ
- giúp đỡ
- giúp
- cao hơn
- mong
- Độ đáng tin của
- Tuy nhiên
- HTTPS
- Nhân loại
- nâng cao
- Bao gồm
- chỉ
- hệ thống riêng biệt,
- thông tin
- đầu vào
- ví dụ
- tương tác
- Quốc Tế
- IT
- Ngôn ngữ
- Ngôn ngữ
- dẫn
- học tập
- Led
- Danh sách
- địa điểm thư viện nào
- . Các địa điểm
- Xem
- nhìn
- tìm kiếm
- dấu
- có nghĩa là
- đo
- phương pháp
- Might
- chi tiết
- nhiều
- Bắc
- con số
- số
- cung cấp
- Các lựa chọn
- Nền tảng khác
- đối tác
- Cá nhân
- cụm từ
- quá nhiều
- trình bày
- cho
- cung cấp
- cung cấp
- cung cấp
- Reading
- thời gian thực
- đại diện
- đại diện
- đại diện cho
- yêu cầu
- cần phải
- trở lại
- tương tự
- Quy mô
- Đề án
- giây
- dịch vụ
- DỊCH VỤ
- thể hiện
- Tương tự
- Đơn giản
- duy nhất
- Giải pháp
- một số
- nói
- nói
- Nói
- đặc biệt
- riêng
- độc lập
- Tiêu chuẩn
- Bắt đầu
- căng thẳng
- phong cách
- hỗ trợ
- Hỗ trợ
- Hỗ trợ
- Kỹ thuật
- Công nghệ
- về
- Sản phẩm
- thế giới
- bằng cách ấy
- vì thế
- số ba
- thời gian
- hôm nay
- loại
- us
- sử dụng
- thường
- giá trị
- nhiều
- khác nhau
- khối lượng
- W
- cách
- web
- các dịch vụ web
- Wikipedia
- ở trong
- không có
- từ
- Công việc
- công trinh
- thế giới
- XML
- trên màn hình