Amazon Textil es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y datos de cualquier documento o imagen. Amazon Texttract tiene una función de tablas dentro de la AnalizarDocumento API que ofrece la capacidad de extraer automáticamente estructuras tabulares de cualquier documento. En esta publicación, discutimos las mejoras realizadas en el Mesas característica y cómo facilita la extracción de información en estructuras tabulares de una amplia variedad de documentos.
Las estructuras tabulares en documentos como informes financieros, talones de pago y archivos de certificados de análisis a menudo tienen un formato que permite una fácil interpretación de la información. A menudo también incluyen información como el título de la tabla, el pie de página de la tabla, el título de la sección y las filas de resumen dentro de la estructura tabular para mejorar la legibilidad y la organización. Para un documento similar anterior a esta mejora, la característica Tablas dentro AnalyzeDocument
habría identificado esos elementos como celdas, y no extrajo títulos y pies de página que están presentes fuera de los límites de la tabla. En tales casos, era necesaria una lógica de posprocesamiento personalizada para identificar dicha información o extraerla por separado de la salida JSON de la API. Con este anuncio de mejoras a la función Tabla, la extracción de varios aspectos de los datos tabulares se vuelve mucho más simple.
En abril de 2023, Amazon Textract introdujo la capacidad de detectar automáticamente títulos, pies de página, títulos de sección y filas de resumen presentes en documentos a través de la función Tablas. En esta publicación, analizamos estas mejoras y brindamos ejemplos para ayudarlo a comprenderlas y usarlas en sus flujos de trabajo de procesamiento de documentos. Explicamos cómo usar estas mejoras a través de ejemplos de código para usar la API y procesar la respuesta con el Biblioteca de texturizadores de Amazon Textract.
Resumen de la solución
La siguiente imagen muestra que el modelo actualizado no solo identifica la tabla en el documento, sino también todos los encabezados y pies de página correspondientes. Este documento de informe financiero de muestra contiene el título de la tabla, el pie de página, el título de la sección y las filas de resumen.
La mejora de la función Tablas agrega soporte para cuatro nuevos elementos en la respuesta de la API que le permite extraer cada uno de estos elementos de la tabla con facilidad y agrega la capacidad de distinguir el tipo de tabla.
Elementos de la mesa
Amazon Textract puede identificar varios componentes de una tabla, como celdas de tabla y celdas combinadas. Estos componentes, conocidos como Block
objetos, encapsule los detalles relacionados con el componente, como la geometría límite, las relaciones y la puntuación de confianza. A Block
representa elementos que se reconocen en un documento dentro de un grupo de píxeles cercanos entre sí. Los siguientes son los nuevos Bloques de mesa introducido en esta mejora:
- Título de la tabla - Un nuevo
Block
tipo llamadoTABLE_TITLE
que le permite identificar el título de una tabla determinada. Los títulos pueden ser una o más líneas, que normalmente se encuentran encima de una tabla o incrustados como una celda dentro de la tabla. - Pies de tabla - Un nuevo
Block
tipo llamadoTABLE_FOOTER
que le permite identificar los pies de página asociados con una tabla dada. Los pies de página pueden ser una o más líneas que normalmente están debajo de la tabla o incrustadas como una celda dentro de la tabla. - Sección de título - Un nuevo
Block
tipo llamadoTABLE_SECTION_TITLE
que le permite identificar si la celda detectada es un título de sección. - Celdas de resumen - Un nuevo
Block
tipo llamadoTABLE_SUMMARY
eso le permite identificar si la celda es una celda de resumen, como una celda para totales en un talón de pago.
tipos de mesas
Cuando Amazon Textract identifica una tabla en un documento, extrae todos los detalles de la tabla en un nivel superior Block
tipo de TABLE
. Las mesas pueden venir en varias formas y tamaños. Por ejemplo, los documentos a menudo contienen tablas que pueden o no tener un encabezado de tabla discernible. Para ayudar a distinguir estos tipos de tablas, agregamos dos nuevos tipos de entidad para un TABLE Block
: SEMI_STRUCTURED_TABLE
y STRUCTURED_TABLE
. Estos tipos de entidades lo ayudan a distinguir entre una tabla estructurada y una semiestructurada.
Las tablas estructuradas son tablas que tienen encabezados de columna claramente definidos. Pero con las tablas semiestructuradas, es posible que los datos no sigan una estructura estricta. Por ejemplo, los datos pueden aparecer en una estructura tabular que no es una tabla con encabezados definidos. Los nuevos tipos de entidades ofrecen la flexibilidad de elegir qué tablas conservar o eliminar durante el posprocesamiento. La siguiente imagen muestra un ejemplo de STRUCTURED_TABLE
y SEMI_STRUCTURED_TABLE
.
Analizando la salida de la API
En esta sección, exploramos cómo puede utilizar el Biblioteca de texturizadores de Amazon Textract para posprocesar la salida de la API de AnalyzeDocument
con las mejoras de la función Tablas. Esto le permite extraer información relevante de las tablas.
Textractor es una biblioteca creada para funcionar sin problemas con las API y las utilidades de Amazon Textract para convertir posteriormente las respuestas JSON devueltas por las API en objetos programables. También puede usarlo para visualizar entidades en el documento y exportar los datos en formatos como archivos de valores separados por comas (CSV). Su objetivo es ayudar a los clientes de Amazon Textract a configurar sus canalizaciones de posprocesamiento.
En nuestros ejemplos, usamos la siguiente página de muestra de un documento de presentación 10-K SEC.
El siguiente código se puede encontrar dentro de nuestro Repositorio GitHub. Para procesar este documento, utilizamos la biblioteca Textractor y la importamos para que podamos posprocesar las salidas de la API y visualizar los datos:
El primer paso es llamar a Amazon Texttract AnalyzeDocument
con función Tablas, denotado por el features=[TextractFeatures.TABLES]
parámetro para extraer la información de la tabla. Tenga en cuenta que este método invoca el tiempo real (o síncrono) AnalizarDocumento API, que admite documentos de una sola página. Sin embargo, puede utilizar el asincrónico StartDocumentAnalysis
API para procesar documentos de varias páginas (con hasta 3,000 páginas).
La document
El objeto contiene metadatos sobre el documento que se pueden revisar. Observe que reconoce una tabla en el documento junto con otras entidades en el documento:
Ahora que tenemos la salida de la API que contiene la información de la tabla, visualizamos los diferentes elementos de la tabla utilizando la estructura de respuesta discutida anteriormente:
La biblioteca de Textractor resalta las diversas entidades dentro de la tabla detectada con un código de color diferente para cada elemento de la tabla. Profundicemos más en cómo podemos extraer cada elemento. El siguiente fragmento de código muestra cómo extraer el título de la tabla:
De manera similar, podemos usar el siguiente código para extraer los pies de página de la tabla. Tenga en cuenta que table_footers es una lista, lo que significa que puede haber uno o más pies de página asociados con la tabla. Podemos iterar sobre esta lista para ver todos los pies de página presentes y, como se muestra en el siguiente fragmento de código, el resultado muestra tres pies de página:
Generación de datos para la ingesta posterior
La biblioteca Textractor también lo ayuda a simplificar la ingesta de datos de tablas en sistemas posteriores u otros flujos de trabajo. Por ejemplo, puede exportar los datos de la tabla extraídos a un archivo de Microsoft Excel legible por humanos. En el momento de escribir este artículo, este es el único formato que admite tablas combinadas.
También podemos convertirlo en un Marco de datos de pandas. DataFrame es una opción popular para la manipulación, el análisis y la visualización de datos en lenguajes de programación como Python y R.
En Python, DataFrame es una estructura de datos principal en la biblioteca de Pandas. Es flexible y potente, y suele ser la primera opción de los profesionales del análisis de datos para diversas tareas de análisis de datos y aprendizaje automático. El siguiente fragmento de código muestra cómo convertir la información de la tabla extraída en un DataFrame con una sola línea de código:
Por último, podemos convertir los datos de la tabla en un archivo CSV. Los archivos CSV a menudo se usan para ingerir datos en bases de datos relacionales o almacenes de datos. Ver el siguiente código:
Conclusión
La introducción de estos nuevos tipos de bloques y entidades (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
y TABLE_SUMMARY
) marca un avance significativo en la extracción de estructuras tabulares de documentos con Amazon Textract.
Estas herramientas brindan un enfoque más matizado y flexible, que se adapta a tablas estructuradas y semiestructuradas y se asegura de que no se pase por alto ningún dato importante, independientemente de su ubicación en un documento.
Esto significa que ahora podemos manejar diversos tipos de datos y estructuras de tablas con mayor eficiencia y precisión. A medida que seguimos adoptando el poder de la automatización en los flujos de trabajo de procesamiento de documentos, estas mejoras sin duda allanarán el camino para flujos de trabajo más optimizados, mayor productividad y análisis de datos más detallados. Para más información sobre AnalyzeDocument
y la función Tablas, consulte AnalizarDocumento.
Sobre los autores
Raj Pathak es Arquitecto de Soluciones Senior y Tecnólogo especializado en Servicios Financieros (Seguros, Banca, Mercados de Capitales) y Aprendizaje Automático. Se especializa en procesamiento de lenguaje natural (NLP), modelos de lenguaje grande (LLM) y proyectos de infraestructura y operaciones de aprendizaje automático (MLOps).
anjan biswas es un arquitecto sénior de soluciones de servicios de IA con enfoque en IA/ML y análisis de datos. Anjan es parte del equipo mundial de servicios de IA y trabaja con los clientes para ayudarlos a comprender y desarrollar soluciones a los problemas comerciales con IA y ML. Anjan tiene más de 14 años de experiencia trabajando con organizaciones globales de cadena de suministro, fabricación y venta al por menor y está ayudando activamente a los clientes a comenzar y escalar en los servicios de IA de AWS.
Lalita Reddi es gerente sénior de productos técnicos en el equipo de Amazon Textract. Se centra en la creación de servicios basados en el aprendizaje automático para los clientes de AWS. En su tiempo libre, a Lalita le gusta jugar juegos de mesa y hacer caminatas.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- EVM Finanzas. Interfaz unificada para finanzas descentralizadas. Accede Aquí.
- Grupo de medios cuánticos. IR/PR amplificado. Accede Aquí.
- PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :posee
- :es
- :no
- $ UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- capacidad
- Nuestra Empresa
- arriba
- Cuentas
- la exactitud
- activamente
- adicional
- Añade
- avance
- AI
- Servicios de IA
- AI / ML
- Ayudar
- Todos
- permite
- a lo largo de
- también
- Amazon
- Amazon Textil
- Amazon Web Services
- cantidades
- an
- análisis
- Analytics
- y
- Anuncio
- Anunciando
- cualquier
- abejas
- API
- Aparecer
- enfoque
- aproximadamente
- Abril
- somos
- AS
- aspectos
- Activos
- asociado
- At
- automáticamente
- Automatización
- AWS
- Balance
- balances
- Bancario
- base
- BE
- se convierte en
- a continuación
- mejores
- entre
- mil millones
- Bloquear
- tablero
- Juegos de Mesa
- ambas
- Construir la
- pero
- by
- llamar al
- , que son
- PUEDEN
- capital
- Los mercados de capitales
- cases
- efectivo
- Células
- a ciertos
- certificado
- cadena
- manera?
- Elige
- clasificar
- con claridad.
- cliente
- Cerrar
- código
- Colateral
- Color
- Columna
- cómo
- compromisos
- componente
- componentes
- confianza
- que no contengo
- contiene
- continue
- convertir
- Sector empresarial
- Correspondiente
- Cost
- creado
- crédito
- personalizado
- Clientes
- datos
- análisis de los datos
- Data Analytics
- Estructura de datos
- bases de datos
- Deuda
- Diciembre
- más profundo
- se define
- demuestra
- detalles
- detectado
- desarrollar
- una experiencia diferente
- dirección
- El descuento
- discutir
- discutido
- distinguir
- diverso
- documento
- documentos
- duda
- dos
- durante
- cada una
- facilidad
- más fácil
- de forma sencilla
- eficiencia
- elementos
- elementos
- integrado
- Abrazar
- permite
- mejorado
- mejoras
- entidades
- entidad
- equidad
- equivalentes
- inmuebles
- estimado
- ejemplo
- ejemplos
- Excel
- experience
- explorar
- exportar
- extraerlos
- Extractos
- feria
- Feature
- Archive
- archivos
- Presentación
- financiero
- informe financiero
- servicios financieros
- Nombre
- fijas
- ingreso fijo
- Flexibilidad
- flexible
- Focus
- centrado
- seguir
- siguiendo
- extranjero
- formato
- encontrado
- Digital XNUMXk
- Desde
- fondos
- Obtén
- Ganancias
- Juegos
- obtener
- GitHub
- Donar
- dado
- Buscar
- Go
- Gobierno
- bruto
- Grupo procesos
- tenido
- encargarse de
- Tienen
- he
- cabeceras
- ayuda
- ayudando
- ayuda
- aquí
- jerarquía
- más alto
- Destacado
- destacados
- Caminatas
- mantiene
- Cómo
- Como Hacer
- Sin embargo
- HTML
- HTTPS
- humana
- no haber aun identificado una solucion para el problema
- identifica
- Identifique
- Identidad
- if
- imagen
- importar
- importante
- mejoras
- in
- incluir
- por
- información
- EN LA MINA
- instalar
- aseguradora
- Destinado a
- Automática
- dentro
- Introducido
- Introducción
- inversión extranjera
- invoca
- IT
- artículos
- SUS
- jpg
- json
- jurisdicciones
- Guardar
- conocido
- Falta
- idioma
- Idiomas
- large
- aprendizaje
- menos
- Nivel
- Biblioteca
- Me gusta
- línea
- líneas
- Lista
- LLM
- cargas
- Ubicación
- lógica
- por más tiempo
- de
- pérdidas
- máquina
- máquina de aprendizaje
- hecho
- gran
- para lograr
- HACE
- Realizar
- gerente
- Manipulación
- Fabricación
- Mercado
- Industrias
- Puede..
- significa
- metadatos
- Método
- Microsoft
- podría
- millones
- millones
- ML
- MLOps
- modelo
- modelos
- modificar
- dinero
- mercado de dinero
- meses
- más,
- mucho más
- Natural
- Procesamiento natural del lenguaje
- necesario
- red
- Nuevo
- nlp
- no
- Aviso..
- ahora
- objeto
- objetos
- of
- LANZAMIENTO
- Ofertas
- a menudo
- on
- ONE
- , solamente
- Operaciones
- or
- organización
- para las fiestas.
- Otro
- de otra manera
- nuestros
- salida
- afuera
- Más de
- página
- Los pandas
- parámetro
- parte
- pavimentar
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- Jugar
- Popular
- parte
- Publicación
- industria
- poderoso
- presente
- previamente
- las cuales
- primario
- Imprimir
- Anterior
- problemas
- tratamiento
- Producto
- gerente de producto
- productividad
- profesionales
- Programación
- lenguajes de programación
- proyecta
- proporcionar
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- consultas
- real
- bienes raíces
- en tiempo real
- reconocido
- reconoce
- grabado
- periódico
- Independientemente
- región
- regulador
- relacionado
- Relaciones
- remove
- reporte
- Informes
- representa
- Requisitos
- respectivamente
- respuesta
- respuestas
- restringir
- límite
- restricciones
- resultante
- el comercio minorista
- revisado
- s
- ventas
- Escala
- Puntuación
- sin problemas
- SEG
- Presentación en la SEC
- Sección
- Valores
- EN LINEA
- ver
- Vendedores
- mayor
- Septiembre
- de coches
- Servicios
- pólipo
- Varios
- formas
- ella
- mostrado
- Shows
- Firmas
- importante
- similares
- simplificar
- soltero
- tamaños
- Soluciones
- se especializa
- especializada
- fundó
- paso
- racionalizado
- Estricto
- estructura
- estructurado
- sujeto
- Después
- tal
- RESUMEN
- suministro
- cadena de suministro
- SOPORTE
- soportes
- Todas las funciones a su disposición
- mesa
- tareas
- equipo
- Técnico
- tecnólogo
- que
- esa
- La
- su
- Les
- Ahí.
- Estas
- ellos
- terceros.
- así
- aquellos
- Tres
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- Título
- títulos
- a
- nivel superior
- Total
- comercio
- dos
- tipo
- tipos
- típicamente
- nosotros
- Del gobierno de EE.UU.
- entender
- pérdidas no realizadas
- actualizado
- us
- utilizan el
- usado
- usando
- utilidades
- propuesta de
- Valores
- variedad
- diversos
- Versus
- vía
- visualización
- fue
- Camino..
- we
- web
- servicios web
- que
- amplio
- seguirá
- dentro de
- palabras
- Actividades:
- flujos de trabajo
- trabajando
- funciona
- se
- la escritura
- años
- Usted
- tú
- zephyrnet