Crie legendas de vídeo com o Amazon Transcribe usando este fluxo de trabalho sem código

Republicado por Platão

seguidores: 0

A criação de legendas em conteúdo de vídeo apresenta desafios, não importa quão grande ou pequena seja a organização. Para enfrentar esses desafios, Amazon Transcribe tem um recurso útil que permite a criação de legendas diretamente no serviço. Não há aprendizado de máquina (ML) ou escrita de código necessária para começar. Esta postagem orienta você na configuração de um fluxo de trabalho sem código para criar legendas de vídeo usando o Amazon Transcribe em sua conta da Amazon Web Services.

Legendas x legendas ocultas

Os termos legendas e Legendas fechadas são comumente usados de forma intercambiável, e ambos se referem ao texto falado exibido na tela. No entanto, a principal diferença entre legendas e legendas ocultas (com base nas definições do setor e de acessibilidade) é que as legendas ocultas contêm tanto a transcrição da palavra falada quanto uma descrição da música de fundo ou sons que ocorrem na faixa de áudio para uma experiência de acessibilidade mais rica . Esta postagem se concentra apenas na criação de arquivos de legendas de palavras faladas transcritas usando a tecnologia de reconhecimento automático de fala (ASR) que não contém identificação de locutor, efeitos sonoros ou descrições de música. O Amazon Transcribe oferece suporte aos formatos SubRip Text (*.srt) e Web Video Text Tracks (*.vtt) padrão do setor para criação de legendas.

A imagem a seguir mostra um exemplo de legendas ativadas em um player de vídeo da web.

As legendas beneficiam os criadores de vídeo, estendendo o alcance e a inclusão de seu conteúdo de vídeo. Ao exibir a parte de áudio falado de um vídeo na tela, as legendas tornam o conteúdo de áudio/vídeo acessível a um público maior, incluindo aqueles que não são falantes nativos e aqueles que estão em um ambiente onde o som é inaudível.

Embora os benefícios das legendas sejam claros, os criadores de vídeo tradicionalmente enfrentam obstáculos na criação de legendas. Os obstáculos surgem devido aos requisitos demorados e intensivos em recursos do processo de criação tradicional que dependem muito do esforço manual. Os métodos tradicionais de legendagem são manuais e podem levar dias ou semanas para serem concluídos e, portanto, podem não ser compatíveis com todos os cronogramas de produção. Da mesma forma, muitas empresas utilizam serviços de transcrição manual, mas esses processos geralmente não são dimensionados e são caros para manter. O Amazon Transcribe facilita a conversão de fala em texto usando tecnologias baseadas em ML e ajuda os criadores de vídeo a resolver esses problemas.

Visão geral da solução

Esta postagem percorre um fluxo de trabalho sem código para gerar legendas usando Serviço de armazenamento simples da Amazon (Amazon S3) e Amazon Transcribe.

O Amazon S3 é um armazenamento de objetos criado para armazenar e recuperar qualquer quantidade de dados de qualquer lugar. Este post percorre o processo para criar um balde S3 e faça o upload de um arquivo de áudio. Quando os usuários armazenam dados no Amazon S3, eles trabalham com recursos conhecidos como buckets e objetos. UMA balde é um recipiente para objetos. A objeto é um arquivo e todos os metadados que descrevem esse arquivo.

O Amazon Transcribe é um serviço ASR que usa modelos de ML totalmente gerenciados e treinados continuamente para converter arquivos de áudio/vídeo em texto. As entradas e saídas do Amazon Transcribe são armazenadas no Amazon S3. O Amazon Transcribe pega dados de áudio, seja um arquivo de mídia em um bucket do Amazon S3 ou um fluxo de mídia, e os converte em dados de texto. O Amazon Transcribe permite que você ingira entrada de áudio, produza transcrições fáceis de ler com alto grau de precisão, personalize sua saída para vocabulário específico de domínio usando modelos de linguagem personalizados (CLM) e vocabulários personalizados e filtrar conteúdo para garantir a privacidade do cliente. Os clientes podem optar por usar o Amazon Transcribe para uma variedade de aplicativos de negócios, incluindo transcrição de chamadas de atendimento ao cliente baseadas em voz, geração de legendas em conteúdo de áudio/vídeo e realizar análise de conteúdo (baseada em texto) no conteúdo de áudio/vídeo. Para esta postagem, demonstramos a criação de um trabalho de transcrição e a revisão da saída do trabalho.

Se você preferir um passo a passo em vídeo, consulte o episódio de lanches em vídeo do Amazon Transcribe Criando legendas de vídeo sem escrever nenhum código.

Pré-requisitos

Para percorrer a solução, você deve ter os seguintes pré-requisitos:

An Conta da AWS com suficiente Gerenciamento de acesso e identidade da AWS (IAM) privilégios de usuário
Um arquivo de áudio/vídeo com palavras faladas em um Idioma compatível com o Amazon Transcribe e em um formato de entrada suportado

Se você ainda não tiver um arquivo de áudio/vídeo de amostra, poderá criar um usando um aplicativo de gravação de vídeo em seu computador ou smartphone. Certifique-se de estar falando claramente no microfone para garantir o mais alto nível de qualidade de transcrição durante a gravação. Outra opção é encontrar um download disponível gratuitamente com palavras faladas, como um podcastou o passo a passo em vídeo fornecido neste post, que pode ser ingerido pelo Amazon Transcribe. O arquivo gravado ou baixado precisa estar acessível em sua área de trabalho para upload em sua conta da AWS.

Antes de começar, revise o Amazon Transcribe e Amazon S3 páginas de preços para preços de serviço.

Crie os depósitos S3

Para esta postagem, criamos dois buckets do S3 para manter a entrada e a saída separadas.

No console do Amazon S3, escolha Criar balde.
Dê a cada bucket um nome globalmente exclusivo.
Use as configurações padrão para garantir a conformidade com as políticas de sua organização.
permitir versionamento de bucket e criptografia padrão do lado do servidor (recomendado).
Escolha Criar balde.

A captura de tela a seguir mostra a configuração do bucket de entrada.

O bucket do S3 para entrada agora está pronto para o upload do arquivo de áudio/vídeo. No momento desta publicação, o o tamanho máximo de entrada para o Amazon Transcribe é 2 GB. Se o arquivo de vídeo exceder esse valor ou estiver em um formato que não é suportado nativamente pelo Amazon Transcribe, considere usar AWS Elemental MediaConvert para criar uma saída somente de áudio. Isso é benéfico porque os arquivos de áudio geralmente são muito menores que os arquivos de vídeo e o Amazon Transcribe requer apenas a faixa de áudio, e não a faixa de vídeo, para gerar transcrições e legendas.

Faça upload do arquivo de origem para o bucket do S3

Para fazer upload do arquivo de origem, conclua as etapas a seguir:

No console do Amazon S3, selecione seu bucket de entrada.
Escolha Escolher arquivo.
Escolha o arquivo da sua área de trabalho.
Aceite a classe de armazenamento padrão e as configurações de criptografia ou modifique-as com base nas políticas de sua organização.
Escolha Escolher arquivo.

Criar um job de transcrição

Com o arquivo de entrada pronto no Amazon S3, agora criamos um trabalho de transcrição no Amazon Transcribe.

No Console do Amazon Transcribe, escolha Trabalhos de transcrição no painel de navegação.
Escolha Criar emprego.

Este passo a passo usa amplamente as opções padrão; no entanto, você deve escolher a configuração mais adequada aos requisitos de sua organização.

Escolha Nome, insira um nome para este trabalho e o arquivo resultante.
Escolha Opções de linguagem, selecione Idioma específico.
Escolha Língua, escolha o idioma de origem do arquivo de entrada.
Escolha Tipo de modelo¸ selecionar Modelo geral.

Usamos o modelo geral para esta demonstração, mas incentivamos você a explorar o treinamento e o uso modelos de linguagem personalizados para maior precisão para casos de uso específicos, como termos ou acrônimos específicos do setor. Para se aprofundar nos modelos de linguagem personalizados, assista ao vídeo do Amazon Transcribe Usando modelos de linguagem personalizados (CLM) para aumentar a precisão da transcrição.

Escolha Local do arquivo de entrada no S3, escolha Navegar S3.
Escolha o bucket de entrada e o arquivo de áudio/vídeo a ser transcrito.
Escolha Informações do tipo de localização de dados de saída, selecione Bucket S3 especificado pelo cliente.
Escolha Destino do arquivo de saída no S3, escolha Navegar S3.
Escolha o bucket de saída recém-criado.

A Formato de arquivo de legenda seção fornece as duas opções mais essenciais de todo este post. Você pode selecionar as saídas formatadas em *.srt e *.vtt como parte do trabalho de transcrição do Amazon Transcribe. No momento da redação deste artigo, selecionar um ou ambos não adiciona nenhum custo adicional ao trabalho do Amazon Transcribe.

Para esta postagem, selecione ambos SRT e VTT.
Escolha Especifique o índice inicial, escolha 0 or 1.

Este valor refere-se ao número inicial da primeira legenda na sequência. Se você não tiver certeza de qual valor escolher, 1 é o mais comum.

Quando as configurações estiverem no lugar, escolha Próximo.
Configure quaisquer configurações opcionais de acordo com suas necessidades.

Amazon Transcribe apresenta opções de identificação de áudio para canais or caixas de som, resultados alternativos, Redação de PII, filtragem de vocabulário e vocabulário personalizado. Para esta postagem em particular, você pode pular essas opções de configuração. Para se aprofundar nas opções de configuração do trabalho, assista aos episódios de lanches de vídeo do Amazon Transcribe para vocabulário personalizado, modelos de linguagem personalizados e filtragem de vocabulário.

Escolha Criar emprego.

Revise a saída do trabalho

O trabalho de transcrição para criar suas legendas de vídeo é iniciado. O status do trabalho, conforme mostrado na captura de tela a seguir, é exibido no painel de detalhes do trabalho. Quando o trabalho estiver concluído, escolha o local dos dados de saída para localizar as legendas recém-criadas no bucket do S3.

As legendas são identificadas pelas extensões *.srt ou *.vtt. Ao selecionar o objeto no bucket do S3, você tem a opção de fazer download do arquivo.

Como essas legendas estão em formato de texto simples, qualquer editor de texto pode visualizar e editar a transcrição resultante. A comparação dos arquivos *.srt e *.vtt revela muitas semelhanças, com diferenças sutis.

Veja a seguir um exemplo de formato *.srt:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

O seguinte é um exemplo de formato *.vtt:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Os números indicam a ordem em que as legendas são exibidas. O timecode indica quando a legenda é exibida. O texto é o próprio texto da legenda.

Quaisquer alterações ou revisões agora são possíveis diretamente no editor de texto e permanecem compatíveis quando salvas com a extensão *.srt ou *.vtt. Você também pode visualizar as alterações na própria plataforma de vídeo, dentro de um aplicativo de edição de vídeo ou em um player de vídeo.

VLC é um popular player de vídeo de código aberto e multiplataforma que suporta legendas *.srt e *.vtt. Para reproduzir legendas automaticamente em um vídeo no VLC, coloque o vídeo original e o arquivo de legenda no mesmo diretório com exatamente o mesmo nome de arquivo antes da extensão do arquivo.

Agora, quando você abre o arquivo de vídeo no VLC, o arquivo de legenda deve detectar e reproduzir automaticamente na janela do player de vídeo.

limpar

Para evitar cobranças futuras, vazio e excluir os buckets do S3 usados para entrada e saída. Certifique-se de ter todos os arquivos necessários armazenados, pois isso removerá permanentemente todos os objetos contidos nos buckets. No Console de transcrição, selecione e exclua quaisquer trabalhos que não sejam mais necessários.

Conclusão

Agora você criou um fluxo de trabalho completo de criação de legendas de ponta a ponta para aumentar e acelerar seu processo de criação de legendas de vídeo e tudo sem escrever nenhum código. Em questão de minutos, você criou buckets de armazenamento do S3, carregou um arquivo no Amazon S3 e usou o Amazon Transcribe para a criação de legendas. Você pode baixar os arquivos de legenda *.srt e *.vtt resultantes para revisão e enviá-los para a plataforma de destino.

Esse fluxo de trabalho se concentrou em legendas de áudio/vídeo criadas usando a tecnologia de reconhecimento automático de fala (ASR) no Amazon Transcribe especificamente para fluxos de trabalho de vídeo. Este fluxo de trabalho por si só não é um substituto para um processo de legendagem baseado em humanos, que é capaz de atender a padrões mais altos de acessibilidade, incluindo identificação de alto-falante, efeitos sonoros, descrição de música e revisão de edição de texto para precisão. Você pode utilizar o método de edição de texto descrito nesta postagem para adicionar esses elementos após a conclusão do trabalho inicial do Amazon Transcribe. Além disso, para criar, visualizar e editar legendas mais avançadas com base em navegador, você pode explorar a implantação do Localização de conteúdo na AWS solução que é avaliada por AWS Solution Architects e inclui um guia de implementação. Esta solução oferece recursos adicionais, como visualização no navegador e edição de legendas, tradução de legendas desenvolvida por Amazon Tradutor, e recursos de visão computacional oferecidos por Reconhecimento da Amazônia.

Se você gostou desta demonstração da capacidade do Amazon Transcribe de criar legendas, considere mergulhar mais fundo nos recursos e capacidades adicionais para acelerar seus fluxos de trabalho de áudio/vídeo. Para obter detalhes adicionais e exemplos de código para dar suporte à automatização e dimensionamento da criação de legendas, consulte Criação de legendas de vídeo. Boa sorte em sua exploração e desenvolvimento de seu fluxo de trabalho de criação de legendas.

Sobre o autor

Jason O'Malley é arquiteto de soluções de parceiros sênior da AWS, oferecendo suporte a parceiros de arquitetura de mídia, comunicações e soluções do setor de tecnologia. Antes de ingressar na AWS, Jason passou 13 anos no setor de mídia e entretenimento em empresas como Team Coco, WarnerMedia e Media.Monks, de Conan O'Brien. Jason iniciou sua carreira na produção e pós-produção de televisão antes de criar cargas de trabalho de mídia na AWS. Quando Jason não está criando soluções para parceiros e clientes, ele pode ser encontrado se aventurando com sua esposa e filho, ou lendo sobre sustentabilidade.

Carimbo de hora: 10 de maio de 2022

Carimbo de hora: 10 de janeiro de 2023

Crie legendas de vídeo com o Amazon Transcribe usando este fluxo de trabalho sem código

Republicado por Platão

Legendas x legendas ocultas

Visão geral da solução

Pré-requisitos

Crie os depósitos S3

Faça upload do arquivo de origem para o bucket do S3

Criar um job de transcrição

Revise a saída do trabalho

limpar

Conclusão

Sobre o autor

Mais de Aprendizado de máquina da AWS

Melhore a precisão da transcrição de chamadas de agente do cliente com vocabulário personalizado no Amazon Transcribe

Anunciando o conector ServiceNow atualizado (V2) para Amazon Kendra

Como os provedores de serviços podem usar o processamento de linguagem natural para obter insights de tíquetes de clientes com o Amazon Comprehend

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta