Personalizar a pronúncia usando léxicos no Amazon Polly

Republicado por Platão

seguidores: 0

Amazon Polly é um Texto-a-fala serviço que usa tecnologias avançadas de aprendizado profundo para sintetizar a fala humana com som natural. Ele é usado em uma variedade de casos de uso, como sistemas de contact center, oferecendo experiências de usuário de conversação com vozes humanas para verificação automatizada de status em tempo real, contas automatizadas e consultas de cobrança, e por agências de notícias como The Washington Post para permitir que os leitores ouçam artigos de notícias.

A partir de hoje, o Amazon Polly fornece mais de 60 vozes em mais de 30 variantes de idioma. O Amazon Polly também usa o contexto para pronunciar determinadas palavras de maneira diferente com base no tempo verbal e em outras informações contextuais. Por exemplo, “ler” em “eu li um livro” (tempo presente) e “vou ler um livro” (tempo futuro) é pronunciado de forma diferente.

No entanto, em algumas situações, você pode querer personalizar a forma como o Amazon Polly pronuncia uma palavra. Por exemplo, pode ser necessário combinar a pronúncia com o dialeto local ou vernáculo. Nomes de coisas (por exemplo, Tomato pode ser pronunciado como tom-ah-para or tom-ay-to), pessoas, ruas ou lugares costumam ser pronunciados de muitas maneiras diferentes.

Neste post, demonstramos como você pode aproveitar os léxicos para criar pronúncias personalizadas. Você pode aplicar léxicos para casos de uso como publicação, educação ou call centers.

Personalize a pronúncia usando a tag SSML

Digamos que você transmita um podcast popular da Austrália e use a voz Amazon Polly Australian English (Olivia) para converter seu script em fala humana. Em um de seus scripts, você deseja usar palavras desconhecidas para a voz do Amazon Polly. Por exemplo, você deseja enviar saudações Mātariki (Ano Novo Māori) para seus ouvintes da Nova Zelândia. Para esses cenários, o Amazon Polly oferece suporte à pronúncia fonética, que você pode usar para obter uma pronúncia próxima da pronúncia correta no idioma estrangeiro.

Você pode usar o Linguagem de marcação de síntese de fala (SSML) para sugerir uma pronúncia fonética no atributo ph. Deixe-me mostrar como você pode usar etiqueta SSML.

Primeiro, faça login no seu Console AWS e procure por Amazon Polly na barra de pesquisa na parte superior. Selecione Amazon Polly e, em seguida, escolha o botão Try Polly.

No console do Amazon Polly, selecione Australian English na lista suspensa de idiomas e insira o texto a seguir na caixa de texto de entrada e clique em Ouvir para testar a pronúncia.

Desejo a todos um feliz Mātariki.

Exemplo de fala sem aplicar a pronúncia fonética:

Se você ouvir o exemplo de fala acima, poderá notar que a pronúncia de Matariki – uma palavra que não faz parte do inglês australiano – não é muito exata. Agora, vamos ver como em tais cenários podemos usar a pronúncia fonética usando Tag SSML para personalizar a fala produzida pelo Amazon Polly.

Para usar tags SSML, ative a opção SSML no console do Amazon Polly. Em seguida, copie e cole o seguinte script SSML contendo pronúncia fonética para Matariki especificado dentro do atributo ph do marcação.

<speak>
I’m wishing you all a very Happy
<phoneme alphabet="x-sampa" ph="mA:.tA:.ri.ki">Mātariki</phoneme>.
</speak>

Com o marcação, o Amazon Polly usa a pronúncia especificada pelo atributo ph em vez da pronúncia padrão associada por padrão ao idioma usado pela voz selecionada.

Exemplo de fala após aplicar a pronúncia fonética:

Se você ouvir o som de amostra, notará que optamos por uma pronúncia diferente para algumas das vogais (por exemplo, ā) para fazer o Amazon Polly sintetizar os sons mais próximos da pronúncia correta. Agora você pode ter uma pergunta, como faço para gerar a transcrição fonética “mA:.tA:.ri.ki” pela palavra Matariki?

Você pode criar transcrições fonéticas consultando o Tabelas de fonemas e visemas para os idiomas suportados. No exemplo acima usamos o fonemas para o inglês australiano.

O Amazon Polly oferece suporte em dois alfabetos fonéticos: IPA e X-Sampa. A vantagem do X-Sampa é que eles são caracteres ASCII padrão, por isso é mais fácil digitar a transcrição fonética com um teclado normal. Você pode usar IPA ou X-Sampa para gerar suas transcrições, mas certifique-se de ser consistente com sua escolha, especialmente quando usar um arquivo de léxico que abordaremos na próxima seção.

Cada fonema na tabela de fonemas representa um som de fala. As letras em negrito no "Exemplo" coluna da tabela Fonema/Visema na página em inglês australiano vinculada acima representam a parte da palavra à qual o “Fonema” corresponde. Por exemplo, o fonema /j/ representa o som que um falante de inglês australiano faz ao pronunciar a letra “y” em “yes”.

Personalize a pronúncia usando léxicos

As etiquetas de fonema são adequadas para situações pontuais para personalizar casos isolados, mas não são escaláveis. Se você processa grande volume de texto, gerenciado por diferentes editores e revisores, recomendamos o uso de léxicos. Usando léxicos, você pode obter consistência na adição de pronúncias personalizadas e, simultaneamente, reduzir o esforço manual de inserir tags de fonema no script.

Uma boa prática é que depois de testar a pronúncia personalizada no console do Amazon Polly usando o tag, você cria uma biblioteca de pronúncias personalizadas usando léxicos. Depois que o arquivo de léxicos for carregado, o Amazon Polly aplicará automaticamente as pronúncias fonéticas especificadas no arquivo de léxicos e eliminará a necessidade de fornecer manualmente um marcação.

Criar um arquivo de léxico

Um arquivo de léxico contém o mapeamento entre as palavras e suas pronúncias fonéticas. Especificação do Léxico de Pronúncia (PLS) é uma recomendação do W3C para especificar informações de pronúncia interoperáveis. Veja a seguir um exemplo de documento PLS:

<?xml version="1.0" encoding="UTF-8"?> <lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="x-sampa" xml:lang="en-AU"> <lexeme>
<grapheme>Matariki</grapheme>
<grapheme>Mātariki</grapheme>
<phoneme>mA:.tA:.ri.ki</phoneme>
</lexeme> <lexeme>
<grapheme>NZ</grapheme>
<alias>New Zealand</alias>
</lexeme> </lexicon>

Certifique-se de usar o valor correto para o xml:lang campo. Usar en-AU se você estiver fazendo upload do arquivo de léxico para usar com a voz em inglês australiano do Amazon Polly. Para obter uma lista completa de idiomas suportados, consulte Idiomas compatíveis com o Amazon Polly.

Para especificar uma pronúncia personalizada, você precisa adicionar um elemento que é um recipiente para uma entrada lexical com um ou mais <grapheme> elemento e uma ou mais informações de pronúncia fornecidas dentro <phoneme> elemento.

A <grapheme> elemento contém o texto que descreve o ortografia da elemento. Você pode usar um <grapheme> elemento para especificar a palavra cuja pronúncia você deseja personalizar. Você pode adicionar vários <grapheme> elementos para especificar todas as variações de palavras, por exemplo, com ou sem macrons. o <grapheme> O elemento diferencia maiúsculas de minúsculas e, durante a síntese de fala, a string do Amazon Polly corresponde às palavras dentro do script que você está convertendo em fala. Se uma correspondência for encontrada, ele usa o elemento, que descreve como o é pronunciada para gerar transcrição fonética.

Você também pode usar <alias> para abreviaturas comumente usadas. No exemplo anterior de um arquivo de léxico, NZ é usado como um alias para Nova Zelândia. Isso significa que sempre que o Amazon Polly encontrar “NZ” (com maiúsculas e minúsculas) no corpo do texto, ele lerá essas duas letras como “Nova Zelândia”.

Para obter mais informações sobre o formato do arquivo léxico, consulte Especificação do Léxico de Pronúncia (PLS) Versão 1.0 no site do W3C.

Você pode salvar um arquivo de léxico como um arquivo .pls ou .xml antes de carregá-lo no Amazon Polly.

Carregue e aplique o arquivo de léxico

Carregue seu arquivo de léxico para o Amazon Polly usando as seguintes instruções:

No console do Amazon Polly, escolha Léxicos no painel de navegação.
Escolha Carregar léxico.
Insira um nome para o léxico e escolha um arquivo de léxico.
Escolha o arquivo para upload.
Escolha Carregar léxico.

Se já existir um léxico com o mesmo nome (seja um arquivo .pls ou .xml), o upload do léxico substituirá o léxico existente.

Agora você pode aplicar o léxico para personalizar a pronúncia.

Escolha Texto a Voz no painel de navegação.
Expandir Configurações adicionais.
Ligar Personalizar a pronúncia.
Escolha o léxico no menu suspenso.

Você também pode escolher Carregar léxico para carregar um novo arquivo de léxico (ou uma nova versão).

É uma boa prática controlar a versão do arquivo de léxico em um repositório de código-fonte. Manter as pronúncias personalizadas em um arquivo de léxico garante que você possa consultar consistentemente as pronúncias fonéticas de determinadas palavras em toda a organização. Além disso, tenha em mente os limites do léxico de pronúncia mencionados no Cotas no Amazon Polly Disputas de Comerciais.

Teste a pronúncia depois de aplicar o léxico

Vamos fazer um teste rápido usando “Desejando a todos os meus ouvintes da Nova Zelândia, um Mātariki muito feliz” como texto de entrada.

Podemos comparar os arquivos de áudio antes e depois de aplicar o léxico.

Antes de aplicar o léxico:

Após aplicar o léxico:

Conclusão

Nesta postagem, discutimos como você pode personalizar as pronúncias de acrônimos ou palavras comumente usadas não encontradas no idioma selecionado no Amazon Polly. Você pode usar Tag SSML que é ótima para inserir personalizações pontuais ou fins de teste. Recomendamos usar o Lexicon para criar um conjunto consistente de pronúncias para palavras usadas com frequência em sua organização. Isso permite que seus redatores de conteúdo gastem tempo escrevendo em vez da tediosa tarefa de adicionar pronúncias fonéticas no script repetidamente. Você pode tentar isso em sua conta da AWS no console do Amazon Polly.

Resumo dos recursos

Sobre os autores

Ratan Kumar é um Arquiteto de Soluções baseado em Auckland, Nova Zelândia. Ele trabalha com grandes clientes corporativos, ajudando-os a projetar e criar aplicativos de escala de internet seguros, econômicos e confiáveis usando a Nuvem AWS. Ele é apaixonado por tecnologia e gosta de compartilhar conhecimento por meio de postagens em blogs e sessões de twitch.

Maciek Tegi é Designer Principal de Áudio e Gerente de Produto da Polly Brand Voices. Ele trabalhou em capacidade profissional na indústria de tecnologia, filmes, comerciais e localização de jogos. Em 2013, ele foi o primeiro engenheiro de áudio contratado para a equipe Alexa Text-To-Speech. Maciek esteve envolvido no lançamento de 12 vozes Alexa TTS em diferentes países, mais de 20 vozes Polly e 4 vozes de celebridades Alexa. Maciek é um triatleta e um ávido guitarrista acústico.