Amazon Polly, um serviço de conversão de texto em fala gerado por IA, permite automatizar e dimensionar suas soluções interativas de voz, ajudando a melhorar a produtividade e reduzir custos.
À medida que nossos clientes continuam usando o Amazon Polly por seu rico conjunto de recursos e facilidade de uso, observamos uma demanda pela capacidade de gerar simultaneamente áudio e legendas sincronizadas ou legendas ocultas para uma determinada entrada de texto. Na AWS, trabalhamos continuamente para trás das solicitações de nossos clientes, portanto, neste post, descrevemos um método para gerar áudio e legendas ao mesmo tempo para um determinado texto.
Embora legendas e legendas sejam frequentemente usadas de forma intercambiável, inclusive neste post, existem diferenças sutis entre elas:
- Legendas – Nas legendas, o idioma do texto exibido na tela é diferente do idioma do áudio e não exibe nada para não diálogos, como sons significativos. O objetivo principal é alcançar o público que não fala o idioma do áudio do vídeo.
- Legendas (fechado/aberto) – As legendas exibem os diálogos que estão sendo falados no áudio no mesmo idioma. Seu objetivo principal é aumentar a acessibilidade nos casos em que o áudio não pode ser ouvido pelo consumidor final devido a uma série de problemas. As legendas ocultas fazem parte de um arquivo diferente da fonte de áudio/vídeo e podem ser desativadas e ativadas a critério do usuário, enquanto as legendas abertas fazem parte do arquivo de vídeo e não podem ser desativadas pelo usuário.
Benefícios de usar o Amazon Polly para gerar áudio com legendas ou closed captions
Imagine o seguinte caso de uso: você prepara uma apresentação baseada em slides para um portal de aprendizado online. Cada slide inclui conteúdo e narração na tela. O conteúdo na tela é um esboço básico, e a narração entra em detalhes. Em vez de gravar uma voz humana, que pode ser complicada e inconsistente, você pode usar o Amazon Polly para gerar a narração. O Amazon Polly produz vozes consistentes e de alta qualidade. Não há necessidade de pós-produção. No futuro, se você precisar atualizar uma parte da apresentação, precisará atualizar apenas os slides afetados. A voz corresponde aos slides originais. Além disso, quando o Amazon Polly gera seu áudio, são incluídas legendas que aparecem no tempo com o áudio. Você economiza tempo porque não há gravação manual envolvida e economiza tempo adicional quando as atualizações são necessárias. Sua apresentação também agrega mais valor porque as legendas ajudam os alunos a consumir o conteúdo. É uma solução ganha-ganha.
Há uma infinidade de casos de uso para legendas, como anúncios em espaços sociais, ginásios, cafeterias e outros lugares onde normalmente há algo na televisão com o áudio silenciado e música ao fundo; treinamentos e aulas online; reuniões virtuais; anúncios eletrônicos públicos; assistir a vídeos enquanto se desloca sem fones de ouvido e sem incomodar os co-passageiros; e vários outros.
Independentemente do campo de aplicação, as legendas ocultas podem ajudar no seguinte:
- Acessibilidade – Pessoas com deficiência auditiva podem consumir melhor seu conteúdo.
- Retenção – A aprendizagem online é mais fácil para os e-formandos compreenderem e reterem quando mais sentidos humanos estão envolvidos.
- Acessibilidade – Seu conteúdo pode alcançar pessoas com prioridades concorrentes, como jogar e assistir notícias simultaneamente, ou pessoas que têm um idioma nativo diferente do idioma do áudio.
- Searchability – O conteúdo é pesquisável pelos motores de busca. Enquanto os vídeos não podem ser pesquisados de forma otimizada pela maioria dos mecanismos de pesquisa, os mecanismos de pesquisa podem usar os arquivos de texto de legenda e tornar seu conteúdo mais detectável.
- Cortesia social – Às vezes, pode ser rude reproduzir áudio devido ao ambiente ao seu redor, ou o áudio pode ser difícil de ouvir devido ao ruído do ambiente.
- Compreensão – O conteúdo é mais fácil de compreender, independentemente do sotaque do falante, do idioma nativo do falante ou da velocidade da fala. Você também pode fazer anotações sem assistir repetidamente à mesma cena.
Visão geral da solução
A biblioteca apresentada neste post usa o Amazon Polly para gerar som e legendas para um texto de entrada. Você pode integrar facilmente essa biblioteca em seus aplicativos de conversão de texto em fala. Ele suporta vários formatos de áudio e legendas nos formatos de arquivo VTT e SRT, que são os mais usados em todo o setor.
Neste post, focamos na PollyVTT()
sintaxe e opções, e oferecem alguns exemplos que demonstram como usar o Python SubtitleGeneratorForPolly
para gerar simultaneamente arquivos síncronos de áudio e legenda para uma determinada entrada de texto. O formato do arquivo de áudio de saída pode ser PCM(wav), OGG ou MP3, e o formato do arquivo de legenda pode ser VTT ou SRT. Além disso, SubtitleGeneratorForPolly
suporta todos os Amazon Polly synthesize_speech
parâmetros e adiciona ao rico conjunto de recursos do Amazon Polly.
A polly-vtt
biblioteca e suas dependências estão disponíveis em GitHub.
Instale e use a função
Antes de vermos alguns exemplos de uso PollyVTT()
, a função que alimenta SubtitleGeneratorForPolly
, vamos ver a instalação e a sintaxe dele.
Instale a biblioteca usando o seguinte código:
Para executar a partir da linha de comando, basta executar polly-vtt
:
O código a seguir mostra suas opções:
Vejamos alguns exemplos agora.
Exemplo 1
Este exemplo gera um arquivo de áudio PCM junto com um arquivo de legenda SRT para duas frases simples:
Exemplo 2
Este exemplo demonstra como usar um parágrafo de texto como entrada. Isso gera arquivos de áudio em WAV, MP3 e OGG e legendas em SRT e VTT. O exemplo a seguir cria seis arquivos para o texto de entrada fornecido:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Veja o seguinte código:
Exemplo 3
Na maioria dos casos, entretanto, você deseja passar o texto como um arquivo de entrada. Veja a seguir um exemplo disso em Python, com a mesma saída do exemplo anterior:
Veja a seguir uma postagem de depoimento da equipe de treinamento interna da AWS sobre o uso do Amazon Polly com legendas ocultas:
O vídeo a seguir oferece uma breve demonstração de como a equipe de treinamento interno da AWS usa PollyVTT()
:
Conclusão
Neste post, compartilhamos um método para gerar áudio e legendas ao mesmo tempo para um determinado texto. o PollyVTT()
função e SubtitleGeneratorForPolly
abordar um requisito comum para legendas de forma eficiente e eficaz. A equipe do Amazon Polly continua inventando e oferecendo soluções simplificadas para os requisitos complexos dos clientes.
Para obter mais tutoriais e informações sobre o Amazon Polly, confira o Blog do AWS Machine Learning.
Sobre os autores
Abhishek Soni é arquiteto de soluções de parceiro na AWS. Ele trabalha com os clientes para fornecer orientação técnica para o melhor resultado das cargas de trabalho na AWS.
Dan McKee usa áudio, vídeo e café para destilar conteúdo em cursos direcionados, modulares e estruturados. Em sua função como Gerente de Projeto de Desenvolvedor de Currículo para o Domínio NetSec na Amazon Web Services, ele aproveita sua experiência em Rede de Data Center para ajudar especialistas no assunto a dar vida a ideias.
Orlando Karam é Desenvolvedor de Currículo Técnico na Amazon Web Services, o que significa que ele pode brincar com novas tecnologias legais e depois falar sobre isso. Ocasionalmente, ele também usa essas tecnologias legais para facilitar seu trabalho.
- AI
- arte ai
- gerador de arte ai
- ai robô
- Amazon Polly
- inteligência artificial
- certificação de inteligência artificial
- inteligência artificial em bancos
- robô de inteligência artificial
- robôs de inteligência artificial
- software de inteligência artificial
- Aprendizado de máquina da AWS
- blockchain
- conferência blockchain ai
- Coingenius
- inteligência artificial conversacional
- conferência de criptografia ai
- dall's
- deep learning
- google ai
- aprendizado de máquina
- platão
- platão ai
- Inteligência de Dados Platão
- Jogo de Platão
- PlatãoData
- jogo de platô
- escala ai
- sintaxe
- zefirnet