Amazon Transcribe é um serviço de reconhecimento automático de fala (ASR) totalmente gerenciado que facilita a adição de recursos de fala para texto aos seus aplicativos. Hoje, temos o prazer de anunciar um sistema baseado em modelo de base de fala de vários bilhões de parâmetros de próxima geração que expande o reconhecimento automático de fala para mais de Linguagens 100. Neste post, discutimos alguns dos benefícios desse sistema, como as empresas o estão utilizando e como começar. Também fornecemos um exemplo da saída da transcrição abaixo.
O modelo básico de fala do Transcribe é treinado usando os melhores algoritmos autosupervisionados da categoria para aprender os padrões universais inerentes à fala humana em vários idiomas e sotaques. Ele é treinado em milhões de horas de dados de áudio não rotulados em mais de 100 idiomas. As receitas de treinamento são otimizadas por meio de amostragem inteligente de dados para equilibrar os dados de treinamento entre idiomas, garantindo que idiomas tradicionalmente sub-representados também alcancem altos níveis de precisão.
Carbyne é uma empresa de software que desenvolve soluções de contact center de missão crítica baseadas em nuvem para atendentes de chamadas de emergência. A missão de Carbyne é ajudar equipes de emergência a salvar vidas, e a linguagem não pode atrapalhar seus objetivos. Veja como eles usam o Amazon Transcribe para cumprir sua missão:
“A Carbyne Live Audio Translation, alimentada por IA, visa diretamente ajudar a melhorar a resposta de emergência para os 68 milhões de americanos que falam um idioma diferente do inglês em casa, além dos até 79 milhões de visitantes estrangeiros que visitam o país anualmente. Ao aproveitar o novo modelo multilíngue de base multilíngue do Amazon Transcribe, a Carbyne estará ainda melhor equipada para democratizar os serviços de emergência que salvam vidas, porque Every. Pessoa. Conta.
– Alex Dizengof, cofundador e CTO da Carbyne.
Ao aproveitar o modelo de base de fala, o Amazon Transcribe oferece uma melhoria significativa na precisão entre 20% e 50% na maioria dos idiomas. Na fala telefônica, que é um domínio desafiador e com escassez de dados, a melhoria da precisão está entre 30% e 70%. Além da melhoria substancial da precisão, este grande modelo ASR também oferece melhorias na legibilidade com pontuação e letras maiúsculas mais precisas. Com o advento da IA generativa, milhares de empresas estão usando o Amazon Transcribe para obter insights valiosos de seu conteúdo de áudio. Com precisão significativamente melhorada e suporte para mais de 100 idiomas, o Amazon Transcribe terá um impacto positivo em todos esses casos de uso. Todos os clientes novos e existentes que usam o Amazon Transcribe no modo em lote podem acessar o reconhecimento de fala baseado no modelo Speech Foundation sem precisar de qualquer alteração no endpoint da API ou nos parâmetros de entrada.
O novo sistema ASR oferece vários recursos importantes em mais de 100 idiomas relacionados à facilidade de uso, personalização, segurança do usuário e privacidade. Isso inclui recursos como pontuação automática, vocabulário personalizado, identificação automática de idioma, diarização do locutor, pontuações de confiança em nível de palavra e filtro de vocabulário personalizado. O suporte expandido do sistema para diferentes sotaques, ambientes de ruído e condições acústicas permite produzir saídas mais precisas e, assim, ajuda a incorporar efetivamente tecnologias de voz em suas aplicações.
Com a alta precisão do Amazon Transcribe em diferentes sotaques e condições de ruído, seu suporte para um grande número de idiomas e sua variedade de conjuntos de recursos de valor agregado, milhares de empresas terão a capacidade de desbloquear insights valiosos de seu conteúdo de áudio, bem como aumentar a acessibilidade e a descoberta de seu conteúdo de áudio e vídeo em vários domínios. Por exemplo, os contact centers transcrevem e analisam as chamadas dos clientes para identificar insights e, posteriormente, melhorar a experiência do cliente e a produtividade dos agentes. Produtores de conteúdo e distribuidores de mídia geram legendas automaticamente usando o Amazon Transcribe para melhorar a acessibilidade do conteúdo.
Comece a usar o Amazon Transcribe
Você pode usar o Interface de linha de comando da AWS (AWSCLI), Console de gerenciamento da AWSe vários SDKs da AWS para transcrições em lote e continuar a usar o mesmo StartTranscriptionJob
API para obter benefícios de desempenho do modelo ASR aprimorado sem a necessidade de fazer qualquer alteração de código ou parâmetro de sua parte. Para obter mais informações sobre como usar a AWS CLI e o console, consulte Transcrever com a AWS CLI e Transcrever com o AWS Management Console, Respectivamente.
O primeiro passo é enviar seus arquivos de mídia para um Serviço de armazenamento simples da Amazon (Amazon S3), um serviço de armazenamento de objetos desenvolvido para armazenar e recuperar qualquer quantidade de dados de qualquer lugar. O Amazon S3 oferece durabilidade, disponibilidade, desempenho, segurança e escalabilidade praticamente ilimitadas líderes do setor a um custo muito baixo. Você pode optar por salvar sua transcrição em seu próprio bucket do S3 ou fazer com que o Amazon Transcribe use um bucket padrão seguro. Para saber mais sobre como usar buckets S3, consulte Criar, configurar e trabalhar com buckets do Amazon S3.
Saída de transcrição
O Amazon Transcribe usa representação JSON para sua saída. Ele fornece o resultado da transcrição em dois formatos diferentes: formato de texto e formato discriminado. Nada muda em relação ao endpoint da API ou aos parâmetros de entrada.
O formato de texto fornece a transcrição como um bloco de texto, enquanto o formato detalhado fornece a transcrição na forma de itens transcritos ordenados em tempo hábil, juntamente com metadados adicionais por item. Ambos os formatos existem em paralelo no arquivo de saída.
Dependendo dos recursos selecionados ao criar o trabalho de transcrição, o Amazon Transcribe cria visualizações adicionais e enriquecidas do resultado da transcrição. Veja o seguinte código de exemplo:
As opiniões são as seguintes:
- transcrições – Representado pelo
transcripts
elemento, ele contém apenas o formato de texto da transcrição. Em cenários com vários alto-falantes e canais múltiplos, a concatenação de todas as transcrições é fornecida como um único bloco. - Oradores – Representado pelo
speaker_labels
elemento, ele contém o texto e os formatos detalhados da transcrição agrupados por locutor. Está disponível apenas quando o recurso de vários alto-falantes está ativado. - Canais – Representado pelo
channel_labels
elemento, contém o texto e os formatos detalhados da transcrição, agrupados por canal. Está disponível apenas quando o recurso multicanais está ativado. - Unid – Representado pelo
items
elemento, ele contém apenas o formato detalhado da transcrição. Em cenários com vários alto-falantes e multicanais, os itens são enriquecidos com propriedades adicionais, indicando alto-falante e canal. - Segmentos – Representado pelo
segments
elemento, contém o texto e os formatos discriminados da transcrição, agrupados por transcrição alternativa. Está disponível apenas quando o recurso de resultados alternativos está ativado.
Conclusão
Na AWS, estamos constantemente inovando em nome de nossos clientes. Ao estender o suporte a idiomas no Amazon Transcribe para mais de 100 idiomas, permitimos que nossos clientes atendam usuários de diversas origens linguísticas. Isto não só melhora a acessibilidade, mas também abre novos caminhos para a comunicação e a troca de informações à escala global. Para saber mais sobre os recursos discutidos nesta postagem, confira página de recursos e o que há de novo postagem.
Sobre os autores
Sumit Kumar é gerente de produto principal e técnico da equipe AWS AI Language Services. Ele tem 10 anos de experiência em gerenciamento de produtos em diversos domínios e é apaixonado por IA/ML. Fora do trabalho, Sumit adora viajar e gosta de jogar críquete e tênis de grama.
Vivek Singh é gerente sênior de gerenciamento de produtos da equipe AWS AI Language Services. Ele lidera a equipe de produtos do Amazon Transcribe. Antes de ingressar na AWS, ele ocupou cargos de gerenciamento de produtos em várias outras organizações da Amazon, como pagamentos ao consumidor e varejo. Vivek mora em Seattle, WA e gosta de correr e fazer caminhadas.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :tem
- :é
- :não
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- Sobre
- Acesso
- acessibilidade
- precisão
- preciso
- em
- adicionar
- Adição
- Adicional
- advento
- Agente
- AI
- AI / ML
- Destinado
- alex
- algoritmos
- Todos os Produtos
- juntamente
- tb
- alternativa
- Amazon
- Amazon Transcribe
- Amazon Web Services
- Americanos
- quantidade
- an
- analisar
- e
- Anunciar
- Anuncia
- Anualmente
- qualquer
- qualquer lugar
- api
- aplicações
- SOMOS
- AS
- At
- auditivo
- Automático
- automaticamente
- disponibilidade
- disponível
- avenidas
- AWS
- fundos
- Equilíbrio
- BE
- Porque
- lado
- abaixo
- Benefícios
- Melhor
- entre
- Bloquear
- ambos
- largura
- construído
- mas a
- by
- chamada
- chamadas
- CAN
- capacidades
- capitalização
- casos
- Centralização de
- Centros
- desafiante
- alterar
- Alterações
- Canal
- canais
- verificar
- Escolha
- Co-fundador
- código
- Comunicação
- Empresas
- Empresa
- Efetuado
- condições
- confiança
- configurando
- cônsul
- constantemente
- consumidor
- Contacto
- contact center
- contém
- conteúdo
- continuar
- Custo
- país
- cria
- Criar
- Grilo
- CTO
- personalizadas
- cliente
- experiência do cliente
- Clientes
- personalização
- dados,
- Padrão
- entrega
- democratizar
- desenvolve
- diferente
- diretamente
- discutir
- discutido
- distribuidores
- diferente
- domínio
- domínios
- durabilidade
- facilidade
- facilidade de utilização
- efetivamente
- ou
- elemento
- embutir
- kit
- habilitada
- permitir
- habilitado
- permite
- final
- Ponto final
- Inglês
- aprimorada
- Melhora
- enriquecido
- assegurando
- empresas
- ambientes
- equipado
- Mesmo
- Cada
- exemplo
- exchange
- existir
- existente
- expandido
- expande
- vasta experiência
- estendendo
- Característica
- Funcionalidades
- Envie o
- Arquivos
- filtro
- Primeiro nome
- seguinte
- segue
- Escolha
- estrangeiro
- formulário
- formato
- Foundation
- da
- totalmente
- gerar
- generativo
- IA generativa
- ter
- Global
- escala global
- Objetivos
- feliz
- Ter
- he
- Herói
- ajudar
- ajuda
- ajuda
- SUA PARTICIPAÇÃO FAZ A DIFERENÇA
- hi
- Alta
- Início
- HORÁRIO
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- http
- HTTPS
- humano
- identificação
- identificar
- Impacto
- melhorar
- melhorado
- melhoria
- melhorias
- in
- incluir
- Crescimento
- líder da indústria
- INFORMAÇÕES
- inerente
- inovando
- entrada
- insights
- instância
- para dentro
- IT
- Unid
- ESTÁ
- Trabalho
- juntando
- jpg
- json
- Chave
- língua
- Idiomas
- grande
- Leads
- APRENDER
- níveis
- aproveitando
- Line
- viver
- Vidas
- ama
- Baixo
- fazer
- FAZ
- gerenciados
- de grupos
- Gerente
- Mídia
- metadados
- milhão
- milhões
- Missão
- Moda
- modelo
- mais
- a maioria
- necessitando
- Novo
- próxima geração
- Ruído
- nada
- número
- objeto
- of
- Oferece
- on
- só
- abre
- otimizado
- or
- organizações
- Outros
- A Nossa
- Fora
- saída
- outputs
- lado de fora
- Acima de
- próprio
- Paralelo
- parâmetro
- parâmetros
- apaixonado
- padrões
- pagamentos
- para
- atuação
- pessoa
- platão
- Inteligência de Dados Platão
- PlatãoData
- jogar
- positivamente
- Publique
- alimentado
- Diretor
- Prévio
- política de privacidade
- produzir
- Produtores
- Produto
- gestão de produtos
- gerente de produto
- produtividade
- Propriedades
- fornecer
- fornecido
- fornece
- prosseguir
- alcançar
- reconhecimento
- referir
- relacionado
- representação
- representado
- respeito
- respectivamente
- resposta
- resultar
- Resultados
- varejo
- Rico
- papéis
- corrida
- Segurança
- mesmo
- Salvar
- AMPLIAR
- Escala
- cenários
- Seattle
- seguro
- segurança
- Vejo
- segmentos
- selecionar
- senior
- servir
- serviço
- Serviços
- Conjuntos
- vários
- periodo
- de forma considerável
- simples
- solteiro
- smart
- Software
- Soluções
- alguns
- falar
- Palestrantes
- caixas de som
- discurso
- Reconhecimento de Voz
- fala para texto
- começado
- Status
- Passo
- armazenamento
- loja
- franco
- Subseqüentemente
- substancial
- legendas
- tal
- ajuda
- .
- Profissionais
- Dados Técnicos:
- Tecnologias
- texto
- do que
- que
- A
- deles
- assim
- Este
- deles
- isto
- milhares
- Através da
- oportuno
- para
- hoje
- tradicionalmente
- treinado
- Training
- Cópia
- Tradução
- viagens
- dois
- Universal
- ilimitado
- destravar
- usar
- Utilizador
- usuários
- usos
- utilização
- variedade
- vário
- muito
- Vídeo
- visualizações
- praticamente
- visitantes
- voz
- Caminho..
- we
- web
- serviços web
- boas-vindas
- BEM
- quando
- enquanto que
- qual
- QUEM
- precisarão
- de
- sem
- Atividades:
- trabalhar
- anos
- Vocês
- investimentos
- zefirnet