Amazon Transcribe anuncia un nuevo sistema ASR basado en el modelo Speech Foundation que amplía el soporte a más de 100 idiomas

Reeditado por Platón

seguidores: 0

Amazon Transcribe es un servicio de reconocimiento automático de voz (ASR) totalmente administrado que le facilita agregar capacidades de voz a texto a sus aplicaciones. Hoy, nos complace anunciar un sistema de próxima generación basado en un modelo de base de voz con parámetros multimillonarios que amplía el reconocimiento automático de voz a más de 100 idiomas.. En esta publicación, analizamos algunos de los beneficios de este sistema, cómo lo utilizan las empresas y cómo empezar. También proporcionamos un ejemplo del resultado de la transcripción a continuación.

El modelo básico del habla de Transcribe se entrena utilizando los mejores algoritmos autosupervisados de su clase para aprender los patrones universales inherentes del habla humana en todos los idiomas y acentos. Está entrenado en millones de horas de datos de audio sin etiquetar de más de 100 idiomas. Las recetas de capacitación se optimizan mediante muestreo de datos inteligente para equilibrar los datos de capacitación entre idiomas, garantizando que los idiomas tradicionalmente subrepresentados también alcancen altos niveles de precisión.

Carbyne es una empresa de software que desarrolla soluciones de centros de contacto de misión crítica basadas en la nube para servicios de respuesta a llamadas de emergencia. La misión de Carbyne es ayudar a los servicios de emergencia a salvar vidas, y el lenguaje no puede interponerse en el camino de sus objetivos. Así es como utilizan Amazon Transcribe para llevar a cabo su misión:

“Carbyne Live Audio Translation, impulsada por IA, tiene como objetivo directo ayudar a mejorar la respuesta de emergencia para los 68 millones de estadounidenses que hablan un idioma distinto del inglés en casa, además de los hasta 79 millones de visitantes extranjeros que visitan el país anualmente. Al aprovechar el nuevo modelo básico multilingüe ASR de Amazon Transcribe, Carbyne estará aún mejor equipado para democratizar los servicios de emergencia que salvan vidas, porque Every. Persona. Cuenta.”

– Alex Dizengof, cofundador y director de tecnología de Carbyne.

Al aprovechar el modelo básico del habla, Amazon Transcribe ofrece una mejora significativa en la precisión de entre el 20 % y el 50 % en la mayoría de los idiomas. En el caso de la telefonía, que es un ámbito desafiante y con escasez de datos, la mejora en la precisión se sitúa entre el 30% y el 70%. Además de una mejora sustancial en la precisión, este gran modelo ASR también ofrece mejoras en la legibilidad con puntuación y mayúsculas más precisas. Con la llegada de la IA generativa, miles de empresas están utilizando Amazon Transcribe para desbloquear información valiosa a partir de su contenido de audio. Con una precisión significativamente mejorada y soporte para más de 100 idiomas, Amazon Transcribe tendrá un impacto positivo en todos estos casos de uso. Todos los clientes nuevos y existentes que utilizan Amazon Transcribe en modo por lotes pueden acceder al reconocimiento de voz basado en el modelo de la base de voz sin necesidad de ningún cambio en el punto final de la API ni en los parámetros de entrada.

El nuevo sistema ASR ofrece varias funciones clave en más de 100 idiomas relacionadas con la facilidad de uso, la personalización, la seguridad del usuario y la privacidad. Estas incluyen características como puntuación automática, vocabulario personalizado, identificación automática de idioma, diario del hablante, puntuaciones de confianza a nivel de palabras y filtro de vocabulario personalizado. El soporte ampliado del sistema para diferentes acentos, entornos de ruido y condiciones acústicas le permite producir resultados más precisos y, por lo tanto, le ayuda a integrar eficazmente tecnologías de voz en sus aplicaciones.

Gracias a la alta precisión de Amazon Transcribe en diferentes acentos y condiciones de ruido, su compatibilidad con una gran cantidad de idiomas y su variedad de conjuntos de características de valor agregado, miles de empresas podrán desbloquee información valiosa de su contenido de audio, así como aumente la accesibilidad y la capacidad de descubrimiento de su contenido de audio y video en varios dominios. Por ejemplo, los centros de contacto transcriben y analizan las llamadas de los clientes para identificar información y posteriormente mejorar la experiencia del cliente y la productividad de los agentes. Los productores de contenido y distribuidores de medios generan subtítulos automáticamente utilizando Amazon Transcribe para mejorar la accesibilidad del contenido.

Comience con Amazon Transcribe

Puede utilizar el Interfaz de línea de comandos de AWS (CLI de AWS), Consola de administración de AWS, Y varios SDK de AWS para transcripciones por lotes y continuar usando el mismo StartTranscriptionJob API para obtener beneficios de rendimiento del modelo ASR mejorado sin necesidad de realizar ningún cambio de código o parámetro por su parte. Para obtener más información sobre el uso de AWS CLI y la consola, consulte Transcripción con la CLI de AWS y Transcripción con la Consola de administración de AWS, respectivamente.

El primer paso es cargar sus archivos multimedia en un Servicio de almacenamiento simple de Amazon (Amazon S3), un servicio de almacenamiento de objetos creado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar. Amazon S3 ofrece durabilidad, disponibilidad, rendimiento, seguridad y escalabilidad prácticamente ilimitada líderes en la industria a un costo muy bajo. Puede optar por guardar su transcripción en su propio depósito de S3 o hacer que Amazon Transcribe utilice un depósito predeterminado seguro. Para obtener más información sobre el uso de depósitos de S3, consulte Crear, configurar y trabajar con depósitos de Amazon S3.

Salida de transcripción

Amazon Transcribe utiliza representación JSON para su salida. Proporciona el resultado de la transcripción en dos formatos diferentes: formato de texto y formato detallado. Nada cambia con respecto al punto final de la API o los parámetros de entrada.

El formato de texto proporciona la transcripción como un bloque de texto, mientras que el formato detallado proporciona la transcripción en forma de elementos transcritos ordenados oportunamente, junto con metadatos adicionales por elemento. Ambos formatos existen en paralelo en el archivo de salida.

Según las características que seleccione al crear el trabajo de transcripción, Amazon Transcribe crea vistas adicionales y enriquecidas del resultado de la transcripción. Vea el siguiente código de ejemplo:

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

Las vistas son las siguientes:

Expedientes académicos – Representado por el transcripts elemento, contiene sólo el formato de texto de la transcripción. En escenarios de múltiples hablantes y múltiples canales, la concatenación de todas las transcripciones se proporciona como un solo bloque.
Ponentes – Representado por el speaker_labels elemento, contiene el texto y los formatos detallados de la transcripción agrupados por hablante. Está disponible solo cuando la función de varios altavoces está habilitada.
Canales – Representado por el channel_labels elemento, contiene el texto y los formatos detallados de la transcripción, agrupados por canal. Está disponible solo cuando la función multicanal está habilitada.
Objetos – Representado por el items elemento, contiene sólo el formato detallado de la transcripción. En escenarios de múltiples hablantes y múltiples canales, los elementos se enriquecen con propiedades adicionales, que indican el hablante y el canal.
Segmentos – Representado por el segments elemento, contiene el texto y los formatos detallados de la transcripción, agrupados por transcripción alternativa. Está disponible solo cuando la función de resultados alternativos está habilitada.

Conclusión

En AWS, innovamos constantemente en nombre de nuestros clientes. Al ampliar el soporte lingüístico en Amazon Transcribe a más de 100 idiomas, permitimos a nuestros clientes atender a usuarios de diversos orígenes lingüísticos. Esto no sólo mejora la accesibilidad, sino que también abre nuevas vías de comunicación e intercambio de información a escala global. Para obtener más información sobre las funciones analizadas en esta publicación, consulte página de características y que hay de nueva publicacion.

Sobre los autores

Sumit Kumar es gerente principal de productos y técnico en el equipo de servicios lingüísticos de IA de AWS. Tiene 10 años de experiencia en gestión de productos en una variedad de dominios y le apasiona la IA/ML. Fuera del trabajo, a Sumit le encanta viajar y le gusta jugar al cricket y al tenis.

Amazon Transcribe anuncia un nuevo sistema ASR basado en un modelo de base de voz que amplía el soporte a más de 100 idiomas | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Vivek Singh es gerente sénior de gestión de productos en el equipo de servicios lingüísticos de IA de AWS. Dirige el equipo de productos de Amazon Transcribe. Antes de unirse a AWS, ocupó puestos de gestión de productos en otras organizaciones de Amazon, como pagos de consumidores y venta minorista. Vivek vive en Seattle, WA y le gusta correr y hacer senderismo.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/

Sello de tiempo: 26 de noviembre.

Sello de tiempo: 14 de septiembre de 2022

Reeditado por Platón

Presentamos Fortuna: una biblioteca para la cuantificación de la incertidumbre

Prácticas recomendadas de implementación de MLOps para el modelo de inferencia en tiempo real que sirve puntos finales con Amazon SageMaker

Presentamos la administración de cuotas de autoservicio y cuotas de servicio predeterminadas más altas para Amazon Textract

Cómo Amazon Search logra una inferencia T5 de baja latencia y alto rendimiento con NVIDIA Triton en AWS

Cree arquitecturas de capacitación distribuidas flexibles y escalables con Kubeflow en AWS y Amazon SageMaker

Cómo evaluar la calidad de los datos sintéticos: medir desde la perspectiva de la fidelidad, la utilidad y la privacidad

Prediga el estado de supervivencia del cáncer de pulmón utilizando datos multimodales en Amazon SageMaker JumpStart

Aprenda a crear e implementar agentes LLM que utilicen herramientas utilizando los modelos de AWS SageMaker JumpStart Foundation | Servicios web de Amazon

Anuncio de Visual Conversation Builder para Amazon Lex

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta