Personalizza le pronunce utilizzando Amazon Polly

Ripubblicato da Platone

Seguaci: 0

Amazon Polly dà vita al testo convertendolo in un discorso realistico. Ciò consente a sviluppatori e aziende di creare applicazioni in grado di conversare in tempo reale, offrendo così un'esperienza interattiva migliorata. La sintesi vocale (TTS) in Amazon Polly supporta una varietà di le lingue e locali, che ti consente di eseguire la conversione TTS in base alle tue preferenze. Molteplici fattori guidano questa scelta, come la posizione geografica e le impostazioni linguistiche.

Amazon Polly utilizza tecnologie avanzate di deep learning per sintetizzare la sintesi vocale in tempo reale in vari formati di output, come MP3, ogg vorbis, JSON o PCM, tra standard e neurale motori. Il linguaggio di marcatura della sintesi vocale (SSML) il supporto per Amazon Polly rafforza ulteriormente la capacità del servizio di personalizzare la voce con una pletora di opzioni, tra cui il controllo della velocità e del volume della voce, l'aggiunta di pause, l'enfatizzazione di determinate parole o frasi e altro ancora.

Nel mondo di oggi, le aziende continuano ad espandersi in più località geografiche e sono continuamente alla ricerca di meccanismi per migliorare il coinvolgimento personalizzato degli utenti finali. Ad esempio, potresti richiedere una pronuncia accurata di determinate parole in uno stile specifico relativo a diverse località geografiche. La tua azienda potrebbe anche dover pronunciare determinate parole e frasi in determinati modi a seconda del significato previsto. Puoi raggiungere questo obiettivo con l'aiuto di Tag SSML fornito da Amazon Polly.

Questo post mira ad assisterti nella personalizzazione della pronuncia quando hai a che fare con una base di clienti veramente globale.

Modifica la pronuncia usando i fonemi

Un fonema può essere considerato come la più piccola unità di discorso. Il <phoneme> Il tag SSML in Amazon Polly aiuta a personalizzare la pronuncia in base ai fonemi utilizzando IPA (International Phonetic Alphabets) o X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet). X-SAMPA è una rappresentazione di IPA nella codifica ASCII. I tag fonemi sono disponibili e completamente supportati sia nel motore TTS standard che neurale. Ad esempio, la parola "piombo" può essere pronunciata come il verbo presente, oppure può riferirsi all'elemento chimico piombo. Ne discuteremo con un esempio più avanti in questo post sul blog.

Alfabeto fonetico internazionale

L'IPA viene utilizzato per ritrarre i suoni in diverse lingue. Per un elenco dei fonemi supportati da Amazon Polly, fare riferimento a Tabelle dei fonemi e dei visemi per le lingue supportate.

Per impostazione predefinita, Amazon Polly determina la pronuncia della parola in un formato specifico. Usiamo l'esempio della parola “piombo”, che può avere pronunce diverse quando ci si riferisce all'elemento chimico o al verbo. In questo esempio, quando forniamo la parola "lead" come input, viene pronunciata nella forma presente (senza l'uso di tag SSML di personalizzazione). La pronuncia predefinita per L E A D di Amazon Polly è la forma presente di "lead".

<speak>
The default pronunciation by Amazon Polly for L E A D is <break time = "300ms"/> lead,
which is the present tense form.
</speak>

Per restituire la pronuncia dell'elemento chimico piombo (che può essere anche il verbo al passato), possiamo usare i fonemi insieme a IPA o X-SAMPA. L'IPA viene generalmente utilizzato per personalizzare la pronuncia di una parola in una determinata lingua utilizzando i fonemi:

<speak>
This is the pronunciation using the
<say-as interpret-as="characters">IPA</say-as> attribute
in the <say-as interpret-as="characters">SSML</say-as> tag. The verb form for L E A D is <break time="150ms"/> lead.
The chemical element <break time="150ms"/><phoneme alphabet="ipa" ph="lɛd">lead</phoneme> <break time="300ms"/>also has an identical spelling.
</speak>

Modifica la pronuncia specificando parti del discorso

Se consideriamo lo stesso esempio di pronuncia di "piombo", possiamo anche distinguere tra l'elemento chimico e il verbo specificando le parti del discorso usando il Tag SSML.

Il <w> tag ci consente di personalizzare la pronuncia specificando parti del discorso. Puoi configurare la pronuncia in termini di verbo (present simple o past tense), sostantivo, aggettivo, preposizione e determinante. Vedere il seguente esempio:

<speak>
The word<p> <say-as interpret-as="characters">lead</say-as></p> may be interpreted as either the present simple form <w role="amazon:VB">lead</w>, or the chemical element <w role="amazon:SENSE_1">lead</w>.
</speak>

Inoltre, puoi usare il file tag per indicare la pronuncia di acronimi e abbreviazioni:

<speak>
Polly is an <sub alias="Amazon Web Services">AWS</sub> offering providing text-to-Speech service. </speak>

Metodi estesi di valutazione del discorso Alfabeto fonetico

Il X-SAMPA lo schema di trascrizione è un'estrapolazione ai vari set di fonemi SAMPA specifici della lingua disponibili.

Il seguente frammento mostra come utilizzare X-SAMPA per pronunciare diverse varianti della parola "lead":

<speak>
This is the pronunciation using the X-SAMPA attribute, in the verb form <break time="1s"/> lead.
The chemical element <break time="1s"/> <phoneme alphabet='x-sampa' ph='lEd'>lead</phoneme> <break time="0.5s"/>
also has an identical spelling.
</speak>

Il segno di stress in IPA è solitamente rappresentato da ˈ. Spesso incontriamo scenari in cui un apostrofo viene invece utilizzato, che potrebbe fornire un output diverso da quello previsto. In X-SAMPA, il segno di stress è il virgolette doppie, quindi dovremmo usare una virgoletta singola per la parola e specificare l'alfabeto fonemico. Vedere il seguente esempio:

<speak>
You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. </speak>

Nell'esempio sopra, possiamo vedere il personaggio ˈ usato per sottolineare la parola. Allo stesso modo, il segno di stress in X-SAMPA è mostrato tra virgolette di seguito:

<speak>
You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>.
</speak>

Modifica le pronunce usando altri tag SSML

È possibile utilizzare il <say as> tag per modificare la pronuncia abilitando l'ortografia o la funzione del carattere. Inoltre, migliora le pronunce in termini di cifre, frazioni, unità, data, ora, indirizzo, telefono, cardinale e ordinale e può anche censurare il testo racchiuso all'interno del tag. Per ulteriori informazioni, fare riferimento a Controllare come vengono pronunciati tipi speciali di parole. Diamo un'occhiata agli esempi di questi attributi.

Data

Per impostazione predefinita, Amazon Polly pronuncia diversi input di testo. Tuttavia, per gestire attributi specifici come le date, puoi utilizzare il date attributo per personalizzare la pronuncia nel formato richiesto, ad esempio mese-giorno-anno o giorno-mese-anno.

Senza il date attributo, Amazon Polly fornisce il seguente output quando pronuncia le date:

<speak>
The default pronunciation when using date is 01-11-1996
</speak>

Tuttavia, se si desidera che le date vengano pronunciate in un formato specifico, l'attributo date in tags aiuta a personalizzare la pronuncia:

<speak>
We will see the examples of different date formats using the date SSML tag.
The following date is written in the day-month-year format.
<say-as interpret-as="date" format="dmy">01-11-1995</say-as><break time="500ms"/>
The following date is written in the month-day-year format.
<say-as interpret-as="date" format="mdy">09-24-1995</say-as>
</speak>

Cardinale

Questo attributo rappresenta un numero nel suo formato cardinale. Ad esempio, 124456 si pronuncia “centoventiquattromilaquattrocentocinquantasei”:

<speak> The following number is pronounced in it's cardinal form.
<say-as interpret-as="cardinal">124456</say-as>
</speak>

ordinale

Questo attributo rappresenta un numero nel suo formato ordinale. Senza il ordinal attributo, il numero è pronunciato nella sua forma numerica:

<speak>
The following number is pronounced in it's ordinal form without the use of any SSML attribute in the say as tag - 1242 </speak>

Se vogliamo pronunciare 1242 come "milleduecentoquaranta secondi", possiamo usare il ordinal attributo:

<speak>
The following number is pronounced in it's ordinal form.
<say-as interpret-as="ordinal">1242</say-as>
</speak>

Cifre

Il digits l'attributo viene utilizzato per pronunciare i numeri. Ad esempio, "1234" è pronunciato come "uno due tre quattro":

<speak>
The following number is pronounced as individual digits.
<say-as interpret-as="digits">1242</say-as>
</speak>

frazione

Il fraction l'attributo viene utilizzato per personalizzare le pronunce nella forma frazionaria:

<speak> The following are examples of pronunciations when <prosody volume="loud"> fraction</prosody>
is used as an attribute in the say -as tag. <break time="500ms"/>Seven one by two is pronounced as
<say-as interpret-as="fraction">7 ½ </say-as>
whereas three by twenty is pronounced as <say-as interpret-as="fraction">3/20</say-as>
</speak>

Ora

Il time L'attributo viene utilizzato per misurare il tempo in minuti e secondi:

<speak>
Polly also supports customizing pronunciation in terms of minutes and seconds. For example, <say-as interpret-as="time">2'42"</say-as>
</speak>

Esplicativo

Il expletive attributo censura il testo racchiuso all'interno dei tag:

<speak> The value that is going to be censored is
<say-as interpret-as="expletive">this is not good</say-as>
You should have heard the beep sound.
</speak>

Telefono

Per pronunciare i numeri di telefono, puoi usare il telephone attribuire per pronunciare i numeri di telefono invece di pronunciarli come cifre autonome o come numero cardinale:

<speak>
The telephone number is <say-as interpret-as="telephone">1800 3000 9009</say-as>
</speak>

Indirizzo

Il address L'attributo viene utilizzato per personalizzare la pronuncia di un indirizzo allineandolo a un formato specifico:

<speak> The address is<break time="1s"/>
<say-as interpret-as="address">440 Terry Avenue North, Seattle
WA 98109 USA</say-as>
</speak>

lessici

Abbiamo esaminato alcuni dei tag SSML prontamente disponibili in Amazon Polly. Altri casi d'uso potrebbero richiedere un livello di controllo più elevato per le pronunce personalizzate. I lessici aiutano a raggiungere questo requisito. Puoi usare i lessici quando alcune parole devono essere pronunciate in una determinata forma che non è comune a quella lingua specifica.

Un altro caso d'uso per i lessici è con l'uso di numeronimi, che sono abbreviazioni formate con l'aiuto di numeri. Ad esempio, Y2K è pronunciato come "anno 2000". Puoi usare i lessici per personalizzare queste pronunce.

Amazon Polly supporta i file di lessico nei formati .pls e .xml. Per ulteriori informazioni, vedere Gestione dei lessici.

Conclusione

I tag SSML Amazon Polly possono aiutarti a personalizzare la pronuncia in vari modi. Ci auguriamo che questo post ti dia un vantaggio nel mondo della sintesi vocale e consenta alle tue applicazioni di fornire interazioni umane più realistiche.

Informazioni sugli autori

Abilashkumar PC è un ingegnere di supporto cloud presso AWS. Lavora con i clienti fornendo una guida tecnica per la risoluzione dei problemi, aiutandoli a raggiungere i loro carichi di lavoro su larga scala. Al di fuori del lavoro, ama guidare, seguire il cricket e leggere.

Abhishek Soni è Partner Solutions Architect presso AWS. Collabora con i clienti per fornire una guida tecnica per il miglior risultato dei carichi di lavoro su AWS.