Personalizza la pronuncia utilizzando i lessici in Amazon Polly

Ripubblicato da Platone

Seguaci: 0

Amazon Polly è un text-to-speech servizio che utilizza tecnologie avanzate di apprendimento profondo per sintetizzare il linguaggio umano dal suono naturale. Viene utilizzato in una varietà di casi d'uso, come i sistemi di contact center, offrendo esperienze utente conversazionali con voci simili a quelle umane per il controllo automatizzato dello stato in tempo reale, richieste automatizzate di account e fatturazione e da agenzie di stampa come The Washington Post per consentire ai lettori di ascoltare le notizie.

Ad oggi, Amazon Polly fornisce oltre 60 voci in oltre 30 varianti linguistiche. Amazon Polly utilizza anche il contesto per pronunciare determinate parole in modo diverso in base al tempo verbale e ad altre informazioni contestuali. Ad esempio, "leggi" in "Leggo un libro" (tempo presente) e "Leggerò un libro" (tempo futuro) si pronuncia in modo diverso.

Tuttavia, in alcune situazioni potresti voler personalizzare il modo in cui Amazon Polly pronuncia una parola. Ad esempio, potrebbe essere necessario abbinare la pronuncia al dialetto locale o al volgare. Nomi di cose (es. Pomodoro può essere pronunciato come tom-ah-a or tom-ay-to), persone, strade o luoghi sono spesso pronunciati in molti modi diversi.

In questo post, dimostriamo come puoi sfruttare i lessici per creare pronunce personalizzate. Puoi applicare lessici per casi d'uso come editoria, istruzione o call center.

Personalizza la pronuncia usando il tag SSML

Supponiamo che tu trasmetta in streaming un popolare podcast dall'Australia e utilizzi la voce Amazon Polly Australian English (Olivia) per convertire la tua sceneggiatura in un discorso simile a quello umano. In uno dei tuoi script, vuoi usare parole sconosciute alla voce di Amazon Polly. Ad esempio, vuoi inviare i saluti Mātariki (Maori Capodanno) ai tuoi ascoltatori neozelandesi. Per tali scenari, Amazon Polly supporta la pronuncia fonetica, che puoi utilizzare per ottenere una pronuncia vicina alla pronuncia corretta nella lingua straniera.

Puoi usare il Linguaggio di markup della sintesi vocale (SSML) per suggerire una pronuncia fonetica nell'attributo ph. Lascia che ti mostri come puoi usare Tag SSML.

Per prima cosa, accedi al tuo Console AWS e cerca Amazon Polly nella barra di ricerca in alto. Seleziona Amazon Polly e quindi scegli il pulsante Prova Polly.

Nella console Amazon Polly, seleziona Inglese australiano dal menu a discesa della lingua e inserisci il testo seguente nella casella di testo Input, quindi fai clic su Ascolta per testare la pronuncia.

Auguro a tutti un felice Mātariki.

Esempio di discorso senza applicare la pronuncia fonetica:

Se ascolti il discorso di esempio sopra, puoi notare che la pronuncia di Matariki – una parola che non fa parte dell'inglese australiano – non è proprio azzeccata. Ora, diamo un'occhiata a come in tali scenari possiamo usare la pronuncia fonetica usando Tag SSML per personalizzare il parlato prodotto da Amazon Polly.

Per utilizzare i tag SSML, attiva l'opzione SSML nella console Amazon Polly. Quindi copia e incolla il seguente script SSML contenente la pronuncia fonetica per Matariki specificato all'interno dell'attributo ph di etichetta.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Grazie alla etichetta, Amazon Polly utilizza la pronuncia specificata dall'attributo ph invece della pronuncia standard associata per impostazione predefinita alla lingua utilizzata dalla voce selezionata.

Esempio di discorso dopo aver applicato la pronuncia fonetica:

Se senti il suono di esempio, noterai che abbiamo optato per una pronuncia diversa per alcune vocali (ad esempio, ā) per fare in modo che Amazon Polly sintetizzi i suoni più vicini alla pronuncia corretta. Ora potresti avere una domanda, come faccio a generare la trascrizione fonetica "mA:.tA:.ri.ki” per la parola Matariki?

È possibile creare trascrizioni fonetiche facendo riferimento a Tabelle dei fonemi e dei visemi per le lingue supportate. Nell'esempio sopra abbiamo usato il fonemi per l'inglese australiano.

Amazon Polly offre supporto in due alfabeti fonetici: IPA e X-Sampa. Il vantaggio di X-Sampa è che sono caratteri ASCII standard, quindi è più facile digitare la trascrizione fonetica con una normale tastiera. Puoi utilizzare IPA o X-Sampa per generare le tue trascrizioni, ma assicurati di rimanere coerente con la tua scelta, specialmente quando usi un file lessico di cui parleremo nella prossima sezione.

Ogni fonema nella tabella dei fonemi rappresenta un suono vocale. Le lettere in grassetto nel "Esempio" la colonna della tabella Phoneme/Viseme nella pagina inglese australiana collegata sopra rappresenta la parte della parola a cui corrisponde il "fonema". Ad esempio, il fonema /j/ rappresenta il suono che emette un anglofono australiano quando pronuncia la lettera "y" in "yes".

Personalizza la pronuncia usando i lessici

I tag fonemi sono adatti per situazioni una tantum per personalizzare casi isolati, ma non sono scalabili. Se elabori enormi volumi di testo, gestiti da diversi editori e revisori, ti consigliamo di utilizzare i lessici. Usando i lessici, puoi ottenere coerenza nell'aggiunta di pronunce personalizzate e contemporaneamente ridurre lo sforzo manuale di inserimento di tag fonemi nello script.

Una buona pratica è che dopo aver testato la pronuncia personalizzata sulla console Amazon Polly utilizzando il file tag, crei una libreria di pronunce personalizzate usando lessici. Una volta caricato il file lessico, Amazon Polly applicherà automaticamente le pronunce fonetiche specificate nel file lessico ed eliminerà la necessità di fornire manualmente un etichetta.

Crea un file di lessico

Un file lessico contiene la mappatura tra le parole e le loro pronunce fonetiche. Specifica del lessico di pronuncia (PLS) è una raccomandazione del W3C per specificare informazioni sulla pronuncia interoperabile. Quello che segue è un esempio di documento PLS:

<?xml version="1.0" encoding="UTF-8"?> <lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="x-sampa" xml:lang="en-AU"> <lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme> <lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme> </lexicon>

Assicurati di utilizzare il valore corretto per il xml:lang campo. Utilizzo en-AU se stai caricando il file del lessico da utilizzare con la voce inglese australiana Amazon Polly. Per un elenco completo delle lingue supportate, fare riferimento a Lingue supportate da Amazon Polly.

Per specificare una pronuncia personalizzata, è necessario aggiungere a elemento che è un contenitore per una voce lessicale con uno o più <grapheme> elemento e una o più informazioni sulla pronuncia fornite all'interno <phoneme> elemento.

I <grapheme> l'elemento contiene il testo che descrive il ortografia della elemento. Puoi usare un <grapheme> elemento per specificare la parola di cui si desidera personalizzare la pronuncia. Puoi aggiungerne più <grapheme> elementi per specificare tutte le variazioni di parola, ad esempio con o senza macron. Il <grapheme> l'elemento fa distinzione tra maiuscole e minuscole e durante la sintesi vocale la stringa Amazon Polly corrisponde alle parole all'interno dello script che stai convertendo in voce. Se viene trovata una corrispondenza, utilizza il elemento, che descrive come il è pronunciato per generare trascrizione fonetica.

È inoltre possibile utilizzare <alias> per le abbreviazioni di uso comune. Nell'esempio precedente di un file lessico, NZ è usato come alias per Nuova Zelanda. Ciò significa che ogni volta che Amazon Polly incontra "NZ" (con maiuscolo corrispondente) nel corpo del testo, leggerà quelle due lettere come "Nuova Zelanda".

Per ulteriori informazioni sul formato del file del lessico, vedere Specifica del lessico di pronuncia (PLS) Versione 1.0 sul sito del W3C.

Puoi salvare un file lessico come file .pls o .xml prima di caricarlo su Amazon Polly.

Carica e applica il file del lessico

Carica il file del tuo lessico su Amazon Polly utilizzando le seguenti istruzioni:

Sulla console Amazon Polly, scegli lessici nel pannello di navigazione.
Scegli Carica lessico.
Immettere un nome per il lessico e quindi scegliere un file di lessico.
Scegli il file da caricare.
Scegli Carica lessico.

Se esiste già un lessico con lo stesso nome (che sia un file .pls o .xml), il caricamento del lessico sovrascrive il lessico esistente.

Ora puoi applicare il lessico per personalizzare la pronuncia.

Scegli Text-to-Speech nel pannello di navigazione.
Espandere impostazioni aggiuntive.
Accendi Personalizza la pronuncia.
Scegli il lessico dal menu a tendina.

Puoi anche scegliere Carica lessico per caricare un nuovo file di lessico (o una nuova versione).

È buona norma controllare la versione del file lessico in un repository di codice sorgente. Mantenere le pronunce personalizzate in un file lessico garantisce che tu possa fare costantemente riferimento alle pronunce fonetiche per determinate parole in tutta l'organizzazione. Inoltre, tieni presente i limiti del lessico di pronuncia menzionati Quote in Amazon Polly .

Verifica la pronuncia dopo aver applicato il lessico

Eseguiamo un rapido test utilizzando "Augurando a tutti i miei ascoltatori in Nuova Zelanda, un Mātariki molto felice" come testo di input.

Possiamo confrontare i file audio prima e dopo l'applicazione del lessico.

Prima di applicare il lessico:

Dopo aver applicato il lessico:

Conclusione

In questo post, abbiamo discusso di come personalizzare le pronunce di acronimi o parole di uso comune che non si trovano nella lingua selezionata in Amazon Polly. Puoi usare Tag SSML che è ottimo per inserire personalizzazioni una tantum o scopi di test. Ti consigliamo di utilizzare Lexicon per creare un insieme coerente di pronunce per le parole usate di frequente nella tua organizzazione. Ciò consente ai tuoi autori di contenuti di dedicare tempo alla scrittura invece del noioso compito di aggiungere ripetutamente pronunce fonetiche nella sceneggiatura. Puoi provarlo nel tuo account AWS sulla console Amazon Polly.

Riepilogo delle risorse

Informazioni sugli autori

Ratan Kumar è un Solutions Architect con sede ad Auckland, in Nuova Zelanda. Lavora con grandi clienti aziendali aiutandoli a progettare e creare applicazioni su scala Internet sicure, convenienti e affidabili utilizzando il cloud AWS. È appassionato di tecnologia e gli piace condividere le conoscenze attraverso post sul blog e sessioni di twitch.

Macek Tegi è Principal Audio Designer e Product Manager per Polly Brand Voices. Ha lavorato a titolo professionale nel settore tecnologico, film, pubblicità e localizzazione di giochi. Nel 2013 è stato il primo ingegnere audio assunto nel team di sintesi vocale di Alexa. Maciek è stato coinvolto nel rilascio di 12 voci di Alexa TTS in diversi paesi, oltre 20 voci di Polly e 4 voci di celebrità di Alexa. Maciek è un triatleta e un appassionato chitarrista acustico.