En la vista de elementos, los elementos se proporcionan en forma de una lista ordenada oportunamente, y cada elemento contiene información de metadatos adicional:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Los metadatos son los siguientes:
- Tipo de Propiedad – El valor de tipo indica si el elemento específico es una puntuación o una pronunciación. Ejemplos de puntuaciones admitidas son coma, punto y signo de interrogación.
- Alternativas – Una matriz de objetos que contienen la transcripción real, junto con el nivel de confianza, ordenados por nivel de confianza. Cuando la función de resultados alternativos no está habilitada, esta lista siempre tiene un solo elemento.
- Confianza – Una indicación de la confianza que tiene Amazon Transcribe en la corrección de la transcripción. Utiliza valores de 0 a 1, donde 1 indica un 100 % de confianza.
- Contenido – La palabra transcrita.
- Hora de inicio – Un puntero de tiempo del archivo de audio o video que indica el inicio del elemento en formato ss.SSS.
- Hora de finalización – Un puntero de tiempo del archivo de audio o video que indica el final del elemento en formato ss.SSS.
- Etiqueta de canal – El identificador de canal, que está presente en el elemento solo cuando se habilitó la función de identificación de canal en la configuración del trabajo.
- Etiqueta de altavoz – El identificador del hablante, que está presente en el elemento solo cuando se habilitó la función de particionamiento del hablante en la configuración del trabajo.
Identificación de párrafos
La identificación de los párrafos se basa en la información de los metadatos en la vista de elementos. En particular, utilizamos la información de tiempo de inicio y finalización junto con el tipo de transcripción y el contenido para identificar oraciones y luego decidir qué oraciones son las mejores candidatas para puntos de entrada de párrafo.
Se considera que una oración es una lista de elementos de transcripción que existe entre los elementos de puntuación que indican un punto final. Las excepciones a esto son el inicio y el final de la transcripción, que son límites de oración predeterminados. La siguiente figura muestra un ejemplo de estos elementos.
La identificación de oraciones es sencilla con Amazon Transcribe porque la puntuación es una función lista para usar, junto con los tipos de puntuación coma, punto y signo de interrogación. En este concepto, utilizamos un punto como límite de la oración.
No todas las oraciones deben ser un punto de párrafo. Para identificar los párrafos, presentamos una nueva perspectiva a nivel de la oración llamada retraso de inicio, como se ilustra en la siguiente figura. Usamos un retraso de inicio para definir el retraso de tiempo que el hablante introduce en la pronunciación de la oración actual en comparación con la anterior.
El cálculo del retraso de inicio requiere la hora de inicio de la oración actual y la hora de finalización de la anterior por hablante. Dado que Amazon Transcribe proporciona horas de inicio y finalización por elemento, el cálculo requiere el uso del primer y último elemento de las oraciones actual y anterior, respectivamente.
Al conocer los retrasos de inicio de cada oración, podemos aplicar análisis estadísticos y determinar la importancia de cada retraso en comparación con la población total de retrasos. En nuestro contexto, los retrasos significativos son aquellos que superan la duración típica de la población. El siguiente gráfico muestra un ejemplo.
Para este concepto, decidimos aceptar las oraciones con retrasos de inicio mayores que el valor medio como significativas, e introducir un punto de párrafo al comienzo de cada oración. Además del valor medio, existen otras opciones, como aceptar todos los retrasos de inicio superiores a la mediana, o el tercer cuantil o el valor de la valla superior de la población.
Añadimos un paso más al proceso de identificación de párrafos, teniendo en cuenta el número de palabras que contiene cada párrafo. Cuando los párrafos contienen una cantidad significativa de palabras, ejecutamos una operación de división, agregando así un párrafo más al resultado final.
En el contexto de los recuentos de palabras, definimos como significativos los recuentos de palabras que superan el valor límite superior. Tomamos esta decisión deliberadamente, de modo que restringimos las operaciones de división a los párrafos que realmente se comportan como valores atípicos en nuestros resultados. El siguiente gráfico muestra un ejemplo.
La operación de división selecciona el nuevo punto de entrada de párrafo teniendo en cuenta la percepción máxima de demora de inicio de oración. De esta manera, el nuevo párrafo se introduce en la oración que muestra el retraso de inicio máximo dentro del párrafo actual. Las divisiones se pueden repetir hasta que ningún recuento de palabras exceda el límite seleccionado, en nuestro caso, el valor del límite superior. La siguiente figura muestra un ejemplo.
Conclusión
En esta publicación, presentamos un concepto para introducir párrafos automáticamente en sus transcripciones, sin intervención manual, según los metadatos que proporciona Amazon Transcribe junto con la transcripción real.
Este concepto no es específico del idioma ni del acento, ya que se basa en metadatos no lingüísticos para sugerir puntos de entrada al párrafo. Las variaciones futuras pueden incluir información gramatical o semántica en un caso por idioma, mejorando aún más la lógica de identificación de párrafos.
Si tiene comentarios sobre esta publicación, envíe sus comentarios en la sección de comentarios. Esperamos con interés escuchar de usted. Verificar Características de Amazon Transcribe para obtener funciones adicionales que lo ayudarán a obtener el máximo valor de sus transcripciones.
Acerca de los autores
Kostas Tzouvanas es Arquitecto de Soluciones Empresariales en Amazon Web Services. Ayuda a los clientes a diseñar soluciones basadas en la nube para alcanzar su potencial comercial. Su enfoque principal son las plataformas comerciales y los sistemas informáticos de alto rendimiento. También es un apasionado de la genómica y la bioinformática.
pavlos kaimakis es un arquitecto de soluciones empresariales que se ocupa de los clientes empresariales en GR/CY/MT y los apoya con su experiencia para diseñar e implementar soluciones que generen valor para ellos. Pavlos ha pasado la mayor parte del tiempo de su carrera en el sector de productos y atención al cliente, tanto desde una perspectiva de ingeniería como de gestión. A Pavlos le encanta viajar y siempre está dispuesto a explorar nuevos lugares en el mundo.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
- Acuñando el futuro con Adryenn Ashley. Accede Aquí.
- Compra y Vende Acciones en Empresas PRE-IPO con PREIPO®. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- :posee
- :es
- :no
- $ UP
- 1
- 100
- 22
- 7
- 9
- a
- Nuestra Empresa
- Aceptar
- aceptar
- Lograr
- real
- add
- la adición de
- Adicionales
- Después
- Todos
- a lo largo de
- también
- alternativa
- alternativas
- hacerlo
- Amazon
- Amazon Transcribe
- Amazon Web Services
- cantidad
- an
- análisis
- y
- aparte
- Aplicá
- somos
- Formación
- AS
- At
- audio
- automáticamente
- basado
- BE
- porque
- Comienzo
- MEJOR
- entre
- Mayor
- ambas
- límites
- límite
- Box
- by
- , que son
- PUEDEN
- candidatos
- Propósito
- case
- Channel
- comprobar
- comentarios
- comparación
- informática
- concepto
- confianza
- seguros
- Configuración
- consideración
- considerado
- en vista de
- que no contengo
- contenida
- contenido
- contexto
- Current
- cliente
- Atención al cliente
- Clientes
- decidir
- Koops
- Predeterminado
- retrasar
- retrasos
- Diseño
- documento
- el lado de la transmisión
- duración
- cada una
- facilita
- final
- Ingeniería
- mejorar
- Empresa
- entrada
- Cada
- ejemplo
- ejemplos
- exceden
- excede
- exposiciones
- existe
- experience
- Explorar
- Feature
- Caracteristicas
- realimentación
- Figura
- Archive
- final
- Nombre
- Focus
- siguiendo
- siguiente
- formulario
- formato
- adelante
- Desde
- ser completados
- promover
- futuras
- genómica
- obtener
- gráfica
- mayor
- Tienen
- he
- .
- ayuda
- ayuda
- hi
- Alta
- su
- Cómo
- HTTPS
- Identificación
- identificador
- Identifique
- if
- implementar
- in
- incluir
- indicar
- Indica
- indicación
- información
- penetración
- intervención
- dentro
- introducir
- Introducido
- Presenta
- IT
- artículos
- Trabajos
- jpg
- idioma
- Apellido
- Nivel
- como
- Lista
- lógica
- Mira
- mirando
- ama
- Inicio
- para lograr
- Management
- manual
- marca
- max
- máximas
- personalizado
- metadatos
- más,
- MEJOR DE TU
- Nuevo
- no
- número
- objetos
- of
- on
- ONE
- , solamente
- Inteligente
- Operaciones
- Opciones
- or
- Otro
- nuestros
- salir
- Más de
- particular
- apasionado
- actuación
- la perspectiva
- Lugares
- Plataformas
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- punto
- puntos
- población
- Publicación
- posible
- presente
- presentó
- anterior
- Producto
- previsto
- proporciona un
- pregunta
- repetido
- requiere
- respectivamente
- restringir
- resultado
- Resultados
- Ejecutar
- Sección
- sector
- seleccionado
- sentencia
- Servicios
- tienes
- Shows
- significado
- importante
- So
- a medida
- Soluciones
- Speaker
- soluciones y
- gastado
- dividido
- escisiones
- comienzo
- estadístico
- paso
- Detener
- sencillo
- enviar
- tal
- sugieren
- SOPORTE
- Soportado
- Apoyar
- Todas las funciones a su disposición
- toma
- que
- esa
- La
- el mundo
- su
- Les
- luego
- Ahí.
- de este modo
- Estas
- Código
- así
- aquellos
- equipo
- veces
- a
- Total
- Plataforma de
- Plataformas de Trading
- Expediente académico
- verdaderamente
- tipo
- tipos
- principiante
- hasta
- Uso
- utilizan el
- usos
- utilizar
- propuesta de
- Valores
- Video
- Ver
- fue
- Camino..
- we
- web
- servicios web
- bienvenido
- cuando
- que
- seguirá
- sin
- Palabra
- palabras
- mundo
- Usted
- tú
- zephyrnet