Anuncio de extracciones de tablas mejoradas con Amazon Textract

Reeditado por Platón

seguidores: 0

Amazon Textil es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y datos de cualquier documento o imagen. Amazon Texttract tiene una función de tablas dentro de la AnalizarDocumento API que ofrece la capacidad de extraer automáticamente estructuras tabulares de cualquier documento. En esta publicación, discutimos las mejoras realizadas en el Mesas característica y cómo facilita la extracción de información en estructuras tabulares de una amplia variedad de documentos.

Las estructuras tabulares en documentos como informes financieros, talones de pago y archivos de certificados de análisis a menudo tienen un formato que permite una fácil interpretación de la información. A menudo también incluyen información como el título de la tabla, el pie de página de la tabla, el título de la sección y las filas de resumen dentro de la estructura tabular para mejorar la legibilidad y la organización. Para un documento similar anterior a esta mejora, la característica Tablas dentro AnalyzeDocument habría identificado esos elementos como celdas, y no extrajo títulos y pies de página que están presentes fuera de los límites de la tabla. En tales casos, era necesaria una lógica de posprocesamiento personalizada para identificar dicha información o extraerla por separado de la salida JSON de la API. Con este anuncio de mejoras a la función Tabla, la extracción de varios aspectos de los datos tabulares se vuelve mucho más simple.

En abril de 2023, Amazon Textract introdujo la capacidad de detectar automáticamente títulos, pies de página, títulos de sección y filas de resumen presentes en documentos a través de la función Tablas. En esta publicación, analizamos estas mejoras y brindamos ejemplos para ayudarlo a comprenderlas y usarlas en sus flujos de trabajo de procesamiento de documentos. Explicamos cómo usar estas mejoras a través de ejemplos de código para usar la API y procesar la respuesta con el Biblioteca de texturizadores de Amazon Textract.

Resumen de la solución

La siguiente imagen muestra que el modelo actualizado no solo identifica la tabla en el documento, sino también todos los encabezados y pies de página correspondientes. Este documento de informe financiero de muestra contiene el título de la tabla, el pie de página, el título de la sección y las filas de resumen.

Informe financiero con tabla

La mejora de la función Tablas agrega soporte para cuatro nuevos elementos en la respuesta de la API que le permite extraer cada uno de estos elementos de la tabla con facilidad y agrega la capacidad de distinguir el tipo de tabla.

Elementos de la mesa

Amazon Textract puede identificar varios componentes de una tabla, como celdas de tabla y celdas combinadas. Estos componentes, conocidos como Blockobjetos, encapsule los detalles relacionados con el componente, como la geometría límite, las relaciones y la puntuación de confianza. A Block representa elementos que se reconocen en un documento dentro de un grupo de píxeles cercanos entre sí. Los siguientes son los nuevos Bloques de mesa introducido en esta mejora:

Título de la tabla - Un nuevo Block tipo llamado TABLE_TITLE que le permite identificar el título de una tabla determinada. Los títulos pueden ser una o más líneas, que normalmente se encuentran encima de una tabla o incrustados como una celda dentro de la tabla.
Pies de tabla - Un nuevo Block tipo llamado TABLE_FOOTER que le permite identificar los pies de página asociados con una tabla dada. Los pies de página pueden ser una o más líneas que normalmente están debajo de la tabla o incrustadas como una celda dentro de la tabla.
Sección de título - Un nuevo Block tipo llamado TABLE_SECTION_TITLE que le permite identificar si la celda detectada es un título de sección.
Celdas de resumen - Un nuevo Block tipo llamado TABLE_SUMMARY eso le permite identificar si la celda es una celda de resumen, como una celda para totales en un talón de pago.

Informe financiero con elementos de tabla

tipos de mesas

Cuando Amazon Textract identifica una tabla en un documento, extrae todos los detalles de la tabla en un nivel superior Block tipo de TABLE. Las mesas pueden venir en varias formas y tamaños. Por ejemplo, los documentos a menudo contienen tablas que pueden o no tener un encabezado de tabla discernible. Para ayudar a distinguir estos tipos de tablas, agregamos dos nuevos tipos de entidad para un TABLE Block: SEMI_STRUCTURED_TABLE y STRUCTURED_TABLE. Estos tipos de entidades lo ayudan a distinguir entre una tabla estructurada y una semiestructurada.

Las tablas estructuradas son tablas que tienen encabezados de columna claramente definidos. Pero con las tablas semiestructuradas, es posible que los datos no sigan una estructura estricta. Por ejemplo, los datos pueden aparecer en una estructura tabular que no es una tabla con encabezados definidos. Los nuevos tipos de entidades ofrecen la flexibilidad de elegir qué tablas conservar o eliminar durante el posprocesamiento. La siguiente imagen muestra un ejemplo de STRUCTURED_TABLE y SEMI_STRUCTURED_TABLE.

Tipos de tablas

Analizando la salida de la API

En esta sección, exploramos cómo puede utilizar el Biblioteca de texturizadores de Amazon Textract para posprocesar la salida de la API de AnalyzeDocument con las mejoras de la función Tablas. Esto le permite extraer información relevante de las tablas.

Textractor es una biblioteca creada para funcionar sin problemas con las API y las utilidades de Amazon Textract para convertir posteriormente las respuestas JSON devueltas por las API en objetos programables. También puede usarlo para visualizar entidades en el documento y exportar los datos en formatos como archivos de valores separados por comas (CSV). Su objetivo es ayudar a los clientes de Amazon Textract a configurar sus canalizaciones de posprocesamiento.

En nuestros ejemplos, usamos la siguiente página de muestra de un documento de presentación 10-K SEC.

Documento de presentación 10-K SEC

El siguiente código se puede encontrar dentro de nuestro Repositorio GitHub. Para procesar este documento, utilizamos la biblioteca Textractor y la importamos para que podamos posprocesar las salidas de la API y visualizar los datos:

pip install amazon-textract-textractor

El primer paso es llamar a Amazon Texttract AnalyzeDocument con función Tablas, denotado por el features=[TextractFeatures.TABLES] parámetro para extraer la información de la tabla. Tenga en cuenta que este método invoca el tiempo real (o síncrono) AnalizarDocumento API, que admite documentos de una sola página. Sin embargo, puede utilizar el asincrónico StartDocumentAnalysis API para procesar documentos de varias páginas (con hasta 3,000 páginas).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

La document El objeto contiene metadatos sobre el documento que se pueden revisar. Observe que reconoce una tabla en el documento junto con otras entidades en el documento:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Ahora que tenemos la salida de la API que contiene la información de la tabla, visualizamos los diferentes elementos de la tabla utilizando la estructura de respuesta discutida anteriormente:

table = EntityList(document.tables[0])
document.tables[0].visualize()

Tabla de documentos de presentación de 10-K SEC resaltada

La biblioteca de Textractor resalta las diversas entidades dentro de la tabla detectada con un código de color diferente para cada elemento de la tabla. Profundicemos más en cómo podemos extraer cada elemento. El siguiente fragmento de código muestra cómo extraer el título de la tabla:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

De manera similar, podemos usar el siguiente código para extraer los pies de página de la tabla. Tenga en cuenta que table_footers es una lista, lo que significa que puede haber uno o más pies de página asociados con la tabla. Podemos iterar sobre esta lista para ver todos los pies de página presentes y, como se muestra en el siguiente fragmento de código, el resultado muestra tres pies de página:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Generación de datos para la ingesta posterior

La biblioteca Textractor también lo ayuda a simplificar la ingesta de datos de tablas en sistemas posteriores u otros flujos de trabajo. Por ejemplo, puede exportar los datos de la tabla extraídos a un archivo de Microsoft Excel legible por humanos. En el momento de escribir este artículo, este es el único formato que admite tablas combinadas.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabla a Excel

También podemos convertirlo en un Marco de datos de pandas. DataFrame es una opción popular para la manipulación, el análisis y la visualización de datos en lenguajes de programación como Python y R.

En Python, DataFrame es una estructura de datos principal en la biblioteca de Pandas. Es flexible y potente, y suele ser la primera opción de los profesionales del análisis de datos para diversas tareas de análisis de datos y aprendizaje automático. El siguiente fragmento de código muestra cómo convertir la información de la tabla extraída en un DataFrame con una sola línea de código:

df=table[0].to_pandas()
df

Tabla a marco de datos

Por último, podemos convertir los datos de la tabla en un archivo CSV. Los archivos CSV a menudo se usan para ingerir datos en bases de datos relacionales o almacenes de datos. Ver el siguiente código:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Conclusión

La introducción de estos nuevos tipos de bloques y entidades (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTERy TABLE_SUMMARY) marca un avance significativo en la extracción de estructuras tabulares de documentos con Amazon Textract.

Estas herramientas brindan un enfoque más matizado y flexible, que se adapta a tablas estructuradas y semiestructuradas y se asegura de que no se pase por alto ningún dato importante, independientemente de su ubicación en un documento.

Esto significa que ahora podemos manejar diversos tipos de datos y estructuras de tablas con mayor eficiencia y precisión. A medida que seguimos adoptando el poder de la automatización en los flujos de trabajo de procesamiento de documentos, estas mejoras sin duda allanarán el camino para flujos de trabajo más optimizados, mayor productividad y análisis de datos más detallados. Para más información sobre AnalyzeDocument y la función Tablas, consulte AnalizarDocumento.

Sobre los autores

Raj Pathak es Arquitecto de Soluciones Senior y Tecnólogo especializado en Servicios Financieros (Seguros, Banca, Mercados de Capitales) y Aprendizaje Automático. Se especializa en procesamiento de lenguaje natural (NLP), modelos de lenguaje grande (LLM) y proyectos de infraestructura y operaciones de aprendizaje automático (MLOps).

anjan biswas es un arquitecto sénior de soluciones de servicios de IA con enfoque en IA/ML y análisis de datos. Anjan es parte del equipo mundial de servicios de IA y trabaja con los clientes para ayudarlos a comprender y desarrollar soluciones a los problemas comerciales con IA y ML. Anjan tiene más de 14 años de experiencia trabajando con organizaciones globales de cadena de suministro, fabricación y venta al por menor y está ayudando activamente a los clientes a comenzar y escalar en los servicios de IA de AWS.

Lalita Reddi es gerente sénior de productos técnicos en el equipo de Amazon Textract. Se centra en la creación de servicios basados en el aprendizaje automático para los clientes de AWS. En su tiempo libre, a Lalita le gusta jugar juegos de mesa y hacer caminatas.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
EVM Finanzas. Interfaz unificada para finanzas descentralizadas. Accede Aquí.
Grupo de medios cuánticos. IR/PR amplificado. Accede Aquí.
PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Sello de tiempo: Sábado, Junio 7, 2023

Sello de tiempo: 11 de jul, 2023

Reeditado por Platón

ByteDance ahorra hasta un 60 % en costos de inferencia mientras reduce la latencia y aumenta el rendimiento con AWS Inferentia

Cree subtítulos de video con Amazon Transcribe usando este flujo de trabajo sin código

Bongo Learn proporciona comentarios en tiempo real para mejorar los resultados de aprendizaje con Amazon Transcribe

Realice análisis hipotéticos con Amazon Forecast, hasta un 80 % más rápido que antes

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta