Tùy chỉnh cách phát âm bằng Amazon Polly PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tùy chỉnh cách phát âm bằng Amazon Polly

Amazon Polly thổi sức sống vào văn bản bằng cách chuyển nó thành lời nói sống động như thật. Điều này cho phép các nhà phát triển và doanh nghiệp tạo ra các ứng dụng có thể trò chuyện trong thời gian thực, do đó mang lại trải nghiệm tương tác nâng cao. Chuyển văn bản thành giọng nói (TTS) trong Amazon Polly hỗ trợ nhiều loại ngôn ngữ và ngôn ngữ, cho phép bạn thực hiện chuyển đổi TTS theo sở thích của mình. Nhiều yếu tố hướng dẫn sự lựa chọn này, chẳng hạn như vị trí địa lý và ngôn ngữ địa phương.

Amazon Polly sử dụng các công nghệ học sâu nâng cao để tổng hợp văn bản thành giọng nói trong thời gian thực ở nhiều định dạng đầu ra khác nhau, chẳng hạn như MP3, ogg vorbis, JSON hoặc PCM, theo tiêu chuẩn và thần kinh động cơ. Ngôn ngữ đánh dấu tổng hợp giọng nói (SSML) hỗ trợ cho Amazon Polly tăng cường hơn nữa khả năng của dịch vụ trong việc tùy chỉnh giọng nói với nhiều tùy chọn, bao gồm kiểm soát tốc độ và âm lượng giọng nói, thêm tạm dừng, nhấn mạnh các từ hoặc cụm từ nhất định, v.v.

Trong thế giới ngày nay, các doanh nghiệp tiếp tục mở rộng trên nhiều vị trí địa lý và họ liên tục tìm kiếm các cơ chế để cải thiện mức độ tương tác của người dùng cuối được cá nhân hóa. Ví dụ: bạn có thể yêu cầu phát âm chính xác các từ nhất định theo một phong cách cụ thể liên quan đến các vị trí địa lý khác nhau. Doanh nghiệp của bạn cũng có thể cần phát âm một số từ và cụm từ theo những cách nhất định tùy thuộc vào ý nghĩa của chúng. Bạn có thể đạt được điều này với sự trợ giúp của Thẻ SSML được cung cấp bởi Amazon Polly.

Bài đăng này nhằm mục đích hỗ trợ bạn tùy chỉnh cách phát âm khi giao dịch với cơ sở khách hàng toàn cầu thực sự.

Sửa đổi cách phát âm bằng cách sử dụng âm vị

Âm vị có thể được coi là đơn vị nhỏ nhất của tiếng nói. Các <phoneme> Thẻ SSML trong Amazon Polly giúp tùy chỉnh cách phát âm dựa trên âm vị bằng cách sử dụng IPA (Bảng chữ cái ngữ âm quốc tế) hoặc X-SAMPA (Phương pháp đánh giá giọng nói mở rộng Bảng chữ cái ngữ âm). X-SAMPA là một đại diện của IPA trong mã hóa ASCII. Thẻ âm vị có sẵn và được hỗ trợ đầy đủ trong cả công cụ TTS tiêu chuẩn và thần kinh. Ví dụ, từ “lead” có thể được phát âm như động từ thì hiện tại, hoặc nó có thể chỉ nguyên tố hóa học là chì. Chúng tôi sẽ thảo luận về điều này với một ví dụ thêm trong bài đăng trên blog này.

Bảng chữ cái ngữ âm quốc tế

IPA được sử dụng để mô tả âm thanh trên các ngôn ngữ khác nhau. Để biết danh sách các âm vị mà Amazon Polly hỗ trợ, hãy tham khảo Bảng âm vị và Viseme cho các ngôn ngữ được hỗ trợ.

Theo mặc định, Amazon Polly xác định cách phát âm của từ theo một định dạng cụ thể. Hãy sử dụng ví dụ về từ “chì”, từ này có thể có các cách phát âm khác nhau khi đề cập đến nguyên tố hóa học hoặc động từ. Trong ví dụ này, khi chúng tôi cung cấp từ “lead” làm đầu vào, nó được nói ở dạng thì hiện tại (mà không sử dụng bất kỳ thẻ SSML tùy chỉnh nào). Cách phát âm mặc định cho L E A D của Amazon Polly là dạng hiện tại của “khách hàng tiềm năng”.

<speak>
The default pronunciation by Amazon Polly for L E A D is <break time = "300ms"/> lead,
which is the present tense form.
</speak>

Để trả lại cách phát âm của nguyên tố hóa học (cũng có thể là động từ ở thì quá khứ), chúng ta có thể sử dụng các âm vị cùng với IPA hoặc X-SAMPA. IPA thường được sử dụng để tùy chỉnh cách phát âm của một từ trong một ngôn ngữ nhất định bằng cách sử dụng các âm vị:

<speak>
This is the pronunciation using the
<say-as interpret-as="characters">IPA</say-as> attribute
in the <say-as interpret-as="characters">SSML</say-as> tag. The verb form for L E A D is <break time="150ms"/> lead.
The chemical element <break time="150ms"/><phoneme alphabet="ipa" ph="lɛd">lead</phoneme> <break time="300ms"/>also has an identical spelling.
</speak>

Sửa đổi cách phát âm bằng cách chỉ định các phần của bài phát biểu

Nếu chúng ta xem xét cùng một ví dụ về cách phát âm "lead", chúng ta cũng có thể phân biệt giữa nguyên tố hóa học và động từ bằng cách chỉ định các phần của lời nói bằng cách sử dụng Thẻ SSML.

Sản phẩm <w> thẻ cho phép chúng tôi tùy chỉnh cách phát âm bằng cách chỉ định các phần của bài phát biểu. Bạn có thể định cấu hình cách phát âm theo động từ (thì hiện tại đơn hoặc quá khứ), danh từ, tính từ, giới từ và xác định. Xem ví dụ sau:

<speak>
The word<p> <say-as interpret-as="characters">lead</say-as></p> may be interpreted as either the present simple form <w role="amazon:VB">lead</w>, or the chemical element <w role="amazon:SENSE_1">lead</w>.
</speak>

Ngoài ra, bạn có thể sử dụng thẻ để chỉ ra cách phát âm của các từ viết tắt và từ viết tắt:

<speak>
Polly is an <sub alias="Amazon Web Services">AWS</sub> offering providing text-to-Speech service. </speak>

Phương pháp đánh giá giọng nói mở rộng Bảng chữ cái ngữ âm

Sản phẩm X-SAMPA lược đồ phiên âm là một phép ngoại suy cho các bộ âm vị SAMPA dành riêng cho từng ngôn ngữ có sẵn.

Đoạn mã sau đây cho thấy cách bạn có thể sử dụng X-SAMPA để phát âm các biến thể khác nhau của từ “lead”:

<speak>
This is the pronunciation using the X-SAMPA attribute, in the verb form <break time="1s"/> lead.
The chemical element <break time="1s"/> <phoneme alphabet='x-sampa' ph='lEd'>lead</phoneme> <break time="0.5s"/>
also has an identical spelling.
</speak>

Dấu ứng suất trong IPA thường được biểu thị bằng ˈ. Chúng ta thường gặp các tình huống trong đó một dấu nháy đơn được sử dụng thay thế, có thể cho kết quả khác với mong đợi. Trong X-SAMPA, dấu căng thẳng là dấu ngoặc kép, do đó chúng ta nên sử dụng một dấu ngoặc kép duy nhất cho từ và chỉ định bảng chữ cái phiên âm. Xem ví dụ sau:

<speak>
You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. </speak>

Trong ví dụ trên, chúng ta có thể thấy ký tự ˈ được sử dụng để nhấn trọng âm từ. Tương tự, dấu ứng suất trong X-SAMPA được hiển thị trong dấu ngoặc kép bên dưới:

<speak>
You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>.
</speak>

Sửa đổi cách phát âm bằng các thẻ SSML khác

Bạn có thể sử dụng <say as> để sửa đổi cách phát âm bằng cách bật tính năng viết chính tả hoặc ký tự. Hơn nữa, nó tăng cường khả năng phát âm về chữ số, phân số, đơn vị, ngày, giờ, địa chỉ, số điện thoại, số thứ tự và thứ tự, và cũng có thể kiểm duyệt văn bản được bao gồm trong thẻ. Để biết thêm thông tin, hãy tham khảo Kiểm soát cách nói các loại từ đặc biệt. Hãy xem các ví dụ về các thuộc tính này.

Ngày

Theo mặc định, Amazon Polly đọc các đầu vào văn bản khác nhau. Tuy nhiên, để xử lý các thuộc tính cụ thể như ngày tháng, bạn có thể sử dụng date để tùy chỉnh cách phát âm theo định dạng bắt buộc, chẳng hạn như tháng-ngày-năm hoặc ngày-tháng-năm.

Không có date thuộc tính, Amazon Polly cung cấp kết quả sau khi nói ra ngày tháng:

<speak>
The default pronunciation when using date is 01-11-1996
</speak>

Tuy nhiên, nếu bạn muốn ngày được nói ở một định dạng cụ thể, thì thuộc tính date trong thẻ giúp tùy chỉnh cách phát âm:

<speak>
We will see the examples of different date formats using the date SSML tag.
The following date is written in the day-month-year format.
<say-as interpret-as="date" format="dmy">01-11-1995</say-as><break time="500ms"/>
The following date is written in the month-day-year format.
<say-as interpret-as="date" format="mdy">09-24-1995</say-as>
</speak>

Đức Hồng Y

Thuộc tính này đại diện cho một số ở định dạng chính của nó. Ví dụ: 124456 được phát âm là "một trăm hai mươi bốn nghìn bốn trăm năm mươi sáu":

<speak> The following number is pronounced in it's cardinal form.
<say-as interpret-as="cardinal">124456</say-as>
</speak>

Bình thường

Thuộc tính này đại diện cho một số ở định dạng thứ tự của nó. Không có ordinal thuộc tính, số được phát âm ở dạng số của nó:

<speak>
The following number is pronounced in it's ordinal form without the use of any SSML attribute in the say as tag - 1242 </speak>

Nếu chúng ta muốn phát âm 1242 là "một nghìn hai trăm bốn mươi giây", chúng ta có thể sử dụng ordinal thuộc tính:

<speak>
The following number is pronounced in it's ordinal form.
<say-as interpret-as="ordinal">1242</say-as>
</speak>

Chữ số

Sản phẩm digits thuộc tính được sử dụng để nói ra các con số. Ví dụ: “1234” được phát âm là “một hai ba bốn”:

<speak>
The following number is pronounced as individual digits.
<say-as interpret-as="digits">1242</say-as>
</speak>

Phần Trăm

Sản phẩm fraction thuộc tính được sử dụng để tùy chỉnh cách phát âm ở dạng phân số:

<speak> The following are examples of pronunciations when <prosody volume="loud"> fraction</prosody>
is used as an attribute in the say -as tag. <break time="500ms"/>Seven one by two is pronounced as
<say-as interpret-as="fraction">7 ½ </say-as>
whereas three by twenty is pronounced as <say-as interpret-as="fraction">3/20</say-as>
</speak>

Thời gian

Sản phẩm time thuộc tính được sử dụng để đo thời gian theo phút và giây:

<speak>
Polly also supports customizing pronunciation in terms of minutes and seconds. For example, <say-as interpret-as="time">2'42"</say-as>
</speak>

tục tĩu

Sản phẩm expletive thuộc tính kiểm duyệt văn bản kèm theo trong các thẻ:

<speak> The value that is going to be censored is
<say-as interpret-as="expletive">this is not good</say-as>
You should have heard the beep sound.
</speak>

Điện thoại

Để phát âm các số điện thoại, bạn có thể sử dụng telephone thuộc tính để đọc các số điện thoại thay vì phát âm chúng dưới dạng các chữ số độc lập hoặc như một số chính:

<speak>
The telephone number is <say-as interpret-as="telephone">1800 3000 9009</say-as>
</speak>

Địa Chỉ

Sản phẩm address thuộc tính được sử dụng để tùy chỉnh cách phát âm của một địa chỉ phù hợp với một định dạng cụ thể:

<speak> The address is<break time="1s"/>
<say-as interpret-as="address">440 Terry Avenue North, Seattle
WA 98109 USA</say-as>
</speak>

từ vựng

Chúng tôi đã xem xét một số thẻ SSML sẵn có trong Amazon Polly. Các trường hợp sử dụng khác có thể yêu cầu mức độ kiểm soát cao hơn đối với các cách phát âm tùy chỉnh. Lexicons giúp đạt được yêu cầu này. Bạn có thể sử dụng từ vựng khi một số từ nhất định cần được phát âm ở một dạng nhất định không phổ biến đối với ngôn ngữ cụ thể đó.

Một trường hợp sử dụng khác cho từ vựng là sử dụng các chữ số, là các chữ viết tắt được hình thành với sự trợ giúp của các con số. Ví dụ: Y2K được phát âm là “năm 2000”. Bạn có thể sử dụng các từ vựng để tùy chỉnh các cách phát âm này.

Amazon Polly hỗ trợ các tệp từ vựng ở định dạng .pls và .xml. Để biết thêm thông tin, hãy xem Quản lý Lexicons.

Kết luận

Các thẻ SSML của Amazon Polly có thể giúp bạn tùy chỉnh cách phát âm theo nhiều cách khác nhau. Chúng tôi hy vọng rằng bài đăng này mang lại cho bạn một khởi đầu thuận lợi trong thế giới tổng hợp giọng nói và cung cấp năng lượng cho các ứng dụng của bạn để cung cấp các tương tác giữa con người như thật hơn.


Về các tác giả

Tùy chỉnh cách phát âm bằng Amazon Polly PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Abilashkumar PC là Kỹ sư hỗ trợ đám mây tại AWS. Anh ấy làm việc với khách hàng để cung cấp hướng dẫn xử lý sự cố kỹ thuật, giúp họ đạt được khối lượng công việc của mình trên quy mô lớn. Ngoài giờ làm việc, anh ấy thích lái xe, chạy theo cricket và đọc sách.

Tùy chỉnh cách phát âm bằng Amazon Polly PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Abhishek Soni là Kiến trúc sư Giải pháp Đối tác tại AWS. Anh ấy làm việc với khách hàng để cung cấp hướng dẫn kỹ thuật cho kết quả tốt nhất của khối lượng công việc trên AWS.

Dấu thời gian:

Thêm từ Học máy AWS