Amazon Transcribe es un servicio de reconocimiento automático de voz (ASR) totalmente administrado que le facilita agregar capacidades de voz a texto a sus aplicaciones. Hoy, nos complace anunciar un sistema de próxima generación basado en un modelo de base de voz con parámetros multimillonarios que amplía el reconocimiento automático de voz a más de 100 idiomas.. En esta publicación, analizamos algunos de los beneficios de este sistema, cómo lo utilizan las empresas y cómo empezar. También proporcionamos un ejemplo del resultado de la transcripción a continuación.
El modelo básico del habla de Transcribe se entrena utilizando los mejores algoritmos autosupervisados de su clase para aprender los patrones universales inherentes del habla humana en todos los idiomas y acentos. Está entrenado en millones de horas de datos de audio sin etiquetar de más de 100 idiomas. Las recetas de capacitación se optimizan mediante muestreo de datos inteligente para equilibrar los datos de capacitación entre idiomas, garantizando que los idiomas tradicionalmente subrepresentados también alcancen altos niveles de precisión.
Carbyne es una empresa de software que desarrolla soluciones de centros de contacto de misión crítica basadas en la nube para servicios de respuesta a llamadas de emergencia. La misión de Carbyne es ayudar a los servicios de emergencia a salvar vidas, y el lenguaje no puede interponerse en el camino de sus objetivos. Así es como utilizan Amazon Transcribe para llevar a cabo su misión:
“Carbyne Live Audio Translation, impulsada por IA, tiene como objetivo directo ayudar a mejorar la respuesta de emergencia para los 68 millones de estadounidenses que hablan un idioma distinto del inglés en casa, además de los hasta 79 millones de visitantes extranjeros que visitan el país anualmente. Al aprovechar el nuevo modelo básico multilingüe ASR de Amazon Transcribe, Carbyne estará aún mejor equipado para democratizar los servicios de emergencia que salvan vidas, porque Every. Persona. Cuenta.”
– Alex Dizengof, cofundador y director de tecnología de Carbyne.
Al aprovechar el modelo básico del habla, Amazon Transcribe ofrece una mejora significativa en la precisión de entre el 20 % y el 50 % en la mayoría de los idiomas. En el caso de la telefonía, que es un ámbito desafiante y con escasez de datos, la mejora en la precisión se sitúa entre el 30% y el 70%. Además de una mejora sustancial en la precisión, este gran modelo ASR también ofrece mejoras en la legibilidad con puntuación y mayúsculas más precisas. Con la llegada de la IA generativa, miles de empresas están utilizando Amazon Transcribe para desbloquear información valiosa a partir de su contenido de audio. Con una precisión significativamente mejorada y soporte para más de 100 idiomas, Amazon Transcribe tendrá un impacto positivo en todos estos casos de uso. Todos los clientes nuevos y existentes que utilizan Amazon Transcribe en modo por lotes pueden acceder al reconocimiento de voz basado en el modelo de la base de voz sin necesidad de ningún cambio en el punto final de la API ni en los parámetros de entrada.
El nuevo sistema ASR ofrece varias funciones clave en más de 100 idiomas relacionadas con la facilidad de uso, la personalización, la seguridad del usuario y la privacidad. Estas incluyen características como puntuación automática, vocabulario personalizado, identificación automática de idioma, diario del hablante, puntuaciones de confianza a nivel de palabras y filtro de vocabulario personalizado. El soporte ampliado del sistema para diferentes acentos, entornos de ruido y condiciones acústicas le permite producir resultados más precisos y, por lo tanto, le ayuda a integrar eficazmente tecnologías de voz en sus aplicaciones.
Gracias a la alta precisión de Amazon Transcribe en diferentes acentos y condiciones de ruido, su compatibilidad con una gran cantidad de idiomas y su variedad de conjuntos de características de valor agregado, miles de empresas podrán desbloquee información valiosa de su contenido de audio, así como aumente la accesibilidad y la capacidad de descubrimiento de su contenido de audio y video en varios dominios. Por ejemplo, los centros de contacto transcriben y analizan las llamadas de los clientes para identificar información y posteriormente mejorar la experiencia del cliente y la productividad de los agentes. Los productores de contenido y distribuidores de medios generan subtítulos automáticamente utilizando Amazon Transcribe para mejorar la accesibilidad del contenido.
Comience con Amazon Transcribe
Puede utilizar el Interfaz de línea de comandos de AWS (CLI de AWS), Consola de administración de AWS, Y varios SDK de AWS para transcripciones por lotes y continuar usando el mismo StartTranscriptionJob
API para obtener beneficios de rendimiento del modelo ASR mejorado sin necesidad de realizar ningún cambio de código o parámetro por su parte. Para obtener más información sobre el uso de AWS CLI y la consola, consulte Transcripción con la CLI de AWS y Transcripción con la Consola de administración de AWS, respectivamente.
El primer paso es cargar sus archivos multimedia en un Servicio de almacenamiento simple de Amazon (Amazon S3), un servicio de almacenamiento de objetos creado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar. Amazon S3 ofrece durabilidad, disponibilidad, rendimiento, seguridad y escalabilidad prácticamente ilimitada líderes en la industria a un costo muy bajo. Puede optar por guardar su transcripción en su propio depósito de S3 o hacer que Amazon Transcribe utilice un depósito predeterminado seguro. Para obtener más información sobre el uso de depósitos de S3, consulte Crear, configurar y trabajar con depósitos de Amazon S3.
Salida de transcripción
Amazon Transcribe utiliza representación JSON para su salida. Proporciona el resultado de la transcripción en dos formatos diferentes: formato de texto y formato detallado. Nada cambia con respecto al punto final de la API o los parámetros de entrada.
El formato de texto proporciona la transcripción como un bloque de texto, mientras que el formato detallado proporciona la transcripción en forma de elementos transcritos ordenados oportunamente, junto con metadatos adicionales por elemento. Ambos formatos existen en paralelo en el archivo de salida.
Según las características que seleccione al crear el trabajo de transcripción, Amazon Transcribe crea vistas adicionales y enriquecidas del resultado de la transcripción. Vea el siguiente código de ejemplo:
Las vistas son las siguientes:
- Expedientes académicos – Representado por el
transcripts
elemento, contiene sólo el formato de texto de la transcripción. En escenarios de múltiples hablantes y múltiples canales, la concatenación de todas las transcripciones se proporciona como un solo bloque. - Ponentes – Representado por el
speaker_labels
elemento, contiene el texto y los formatos detallados de la transcripción agrupados por hablante. Está disponible solo cuando la función de varios altavoces está habilitada. - Canales – Representado por el
channel_labels
elemento, contiene el texto y los formatos detallados de la transcripción, agrupados por canal. Está disponible solo cuando la función multicanal está habilitada. - Objetos – Representado por el
items
elemento, contiene sólo el formato detallado de la transcripción. En escenarios de múltiples hablantes y múltiples canales, los elementos se enriquecen con propiedades adicionales, que indican el hablante y el canal. - Segmentos – Representado por el
segments
elemento, contiene el texto y los formatos detallados de la transcripción, agrupados por transcripción alternativa. Está disponible solo cuando la función de resultados alternativos está habilitada.
Conclusión
En AWS, innovamos constantemente en nombre de nuestros clientes. Al ampliar el soporte lingüístico en Amazon Transcribe a más de 100 idiomas, permitimos a nuestros clientes atender a usuarios de diversos orígenes lingüísticos. Esto no sólo mejora la accesibilidad, sino que también abre nuevas vías de comunicación e intercambio de información a escala global. Para obtener más información sobre las funciones analizadas en esta publicación, consulte página de características y que hay de nueva publicacion.
Sobre los autores
Sumit Kumar es gerente principal de productos y técnico en el equipo de servicios lingüísticos de IA de AWS. Tiene 10 años de experiencia en gestión de productos en una variedad de dominios y le apasiona la IA/ML. Fuera del trabajo, a Sumit le encanta viajar y le gusta jugar al cricket y al tenis.
Vivek Singh es gerente sénior de gestión de productos en el equipo de servicios lingüísticos de IA de AWS. Dirige el equipo de productos de Amazon Transcribe. Antes de unirse a AWS, ocupó puestos de gestión de productos en otras organizaciones de Amazon, como pagos de consumidores y venta minorista. Vivek vive en Seattle, WA y le gusta correr y hacer senderismo.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :posee
- :es
- :no
- $ UP
- 10
- 100
- 14
- 24
- 7
- a
- Nuestra Empresa
- de la máquina
- accesibilidad
- la exactitud
- preciso
- a través de
- add
- adición
- Adicionales
- adviento
- Agente
- AI
- AI / ML
- Dirigido
- alex
- algoritmos
- Todos
- a lo largo de
- también
- alternativa
- Amazon
- Amazon Transcribe
- Amazon Web Services
- Estadounidenses
- cantidad
- an
- analizar
- y
- Anunciar
- Anuncia
- Anualmente
- cualquier
- dondequiera
- abejas
- aplicaciones
- somos
- AS
- At
- audio
- Automático
- automáticamente
- disponibilidad
- Hoy Disponibles
- avenidas
- AWS
- antecedentes
- Balance
- BE
- porque
- favor
- a continuación
- beneficios
- mejores
- entre
- Bloquear
- ambas
- amplitud
- construido
- pero
- by
- llamar al
- Calls
- PUEDEN
- capacidades
- capitalización
- cases
- Reubicación
- Centros
- desafiante
- el cambio
- Cambios
- Channel
- canales
- comprobar
- Elige
- Co-founder
- código
- Comunicación
- Empresas
- compañía
- Completado
- condiciones
- confianza
- Configurando
- Consola
- constantemente
- consumidor
- contacte
- contact center
- contiene
- contenido
- continue
- Cost
- país
- crea
- Creamos
- cricket
- CTO
- personalizado
- cliente
- experiencia del cliente
- Clientes
- personalización
- datos
- Predeterminado
- entrega
- democratizar
- desarrolla el
- una experiencia diferente
- directamente
- discutir
- discutido
- distribuidores
- diverso
- dominio
- dominios
- durabilidad
- facilidad
- facilidad de uso
- de manera eficaz
- ya sea
- elementos
- incrustar
- Emergencia Dental
- poder
- habilitar
- facilita
- permite
- final
- Punto final
- Inglés
- mejorado
- Mejora
- enriquecido
- asegurando que
- empresas
- ambientes
- equipado
- Incluso
- Cada
- ejemplo
- Intercambio
- existe
- existente
- expandido
- se expande
- experience
- extensión
- Feature
- Caracteristicas
- Archive
- archivos
- filtrar
- Nombre
- siguiendo
- siguiente
- extranjero
- formulario
- formato
- Fundación
- Desde
- completamente
- generar
- generativo
- IA generativa
- obtener
- Buscar
- escala global
- Goals
- Ahorrar
- Tienen
- he
- Retenida
- ayuda
- ayudando
- ayuda
- esta página
- hi
- Alta
- Inicio
- HORAS
- Cómo
- Como Hacer
- HTML
- http
- HTTPS
- humana
- Identificación
- Identifique
- Impacto
- mejorar
- mejorado
- es la mejora continua
- mejoras
- in
- incluir
- aumente
- líderes en la industria
- información
- inherente
- innovando
- Las opciones de entrada
- Insights
- ejemplo
- dentro
- IT
- artículos
- SUS
- Trabajos
- unión
- jpg
- json
- Clave
- idioma
- Idiomas
- large
- Prospectos
- APRENDE:
- aprovechando
- línea
- para vivir
- Vidas
- ama
- Baja
- para lograr
- HACE
- gestionado
- Management
- gerente
- Medios
- metadatos
- millones
- millones
- misión
- Moda
- modelo
- más,
- MEJOR DE TU
- necesidad
- Nuevo
- próxima generación
- ruido
- nada
- número
- objeto
- of
- Ofertas
- on
- , solamente
- abre
- optimizado
- or
- para las fiestas.
- Otro
- nuestros
- salir
- salida
- salidas
- afuera
- Más de
- EL DESARROLLADOR
- Paralelo
- parámetro
- parámetros
- apasionado
- .
- pagos
- para
- actuación
- persona
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- jugando
- positivamente
- Publicación
- alimentado
- Director de la escuela
- Anterior
- política de privacidad
- producir
- Productores
- Producto
- gestión de producto
- gerente de producto
- productividad
- propiedades
- proporcionar
- previsto
- proporciona un
- perseguir
- en comunicarse
- reconocimiento
- remitir
- relacionado
- representación
- representado
- respeto
- respectivamente
- respuesta
- resultado
- Resultados
- el comercio minorista
- Rico
- También soy miembro del cuerpo docente de World Extreme Medicine (WEM) y embajadora europea de igualdad para The Transformational Travel Council (TTC). En mi tiempo libre, soy una incansable aventurera, escaladora, patrona de día, buceadora y defensora de la igualdad de género en el deporte y la aventura. En XNUMX, fundé Almas Libres, una ONG nacida para involucrar, educar y empoderar a mujeres y niñas a través del deporte urbano, la cultura y la tecnología.
- correr
- Safety
- mismo
- Guardar
- Escalabilidad
- Escala
- escenarios
- Seattle
- seguro
- EN LINEA
- ver
- segmentos
- selecciona
- mayor
- ayudar
- de coches
- Servicios
- Sets
- Varios
- importante
- significativamente
- sencillos
- soltero
- inteligente
- Software
- Soluciones
- algo
- De una Charla a tu equipo
- Speaker
- altavoces
- habla
- Reconocimiento de voz
- de voz a texto
- fundó
- Estado
- paso
- STORAGE
- tienda
- sencillo
- Después
- sustancial
- subtítulos
- tal
- SOPORTE
- te
- equipo
- Técnico
- Tecnologías
- texto
- que
- esa
- La
- su
- de este modo
- Estas
- ellos
- así
- miles
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- oportuno
- a
- hoy
- tradicionalmente
- entrenado
- Formación
- Expediente académico
- Traducción
- viajes
- dos
- Universal
- ilimitado
- desbloquear
- utilizan el
- Usuario
- usuarios
- usos
- usando
- variedad
- diversos
- muy
- Video
- vistas
- virtualmente
- visitantes
- Voz
- Camino..
- we
- web
- servicios web
- bienvenido
- WELL
- cuando
- mientras
- que
- QUIENES
- seguirá
- sin
- Actividades:
- trabajando
- años
- Usted
- tú
- zephyrnet