Annuncio delle estrazioni di tabelle migliorate con Amazon Textract

Ripubblicato da Platone

Seguaci: 0

Testo Amazon è un servizio di machine learning (ML) che estrae automaticamente testo, scrittura a mano e dati da qualsiasi documento o immagine. Amazon Textract ha una funzione Tabelle all'interno di AnalizzaDocumento API che offre la possibilità di estrarre automaticamente strutture tabulari da qualsiasi documento. In questo post, discutiamo i miglioramenti apportati al tavoli caratteristica e come semplifichi l'estrazione di informazioni in strutture tabulari da un'ampia varietà di documenti.

Le strutture tabulari in documenti come report finanziari, buste paga e file di certificato di analisi sono spesso formattate in modo da consentire una facile interpretazione delle informazioni. Spesso includono anche informazioni come titolo della tabella, piè di pagina della tabella, titolo della sezione e righe di riepilogo all'interno della struttura tabulare per una migliore leggibilità e organizzazione. Per un documento simile prima di questo miglioramento, la funzione Tabelle all'interno AnalyzeDocument avrebbe identificato quegli elementi come celle e non avrebbe estratto titoli e piè di pagina presenti al di fuori dei limiti della tabella. In tali casi, era necessaria una logica di post-elaborazione personalizzata per identificare tali informazioni o estrarle separatamente dall'output JSON dell'API. Con questo annuncio di miglioramenti alla funzione Tabella, l'estrazione di vari aspetti dei dati tabulari diventa molto più semplice.

Nell'aprile 2023, Amazon Textract ha introdotto la possibilità di rilevare automaticamente titoli, piè di pagina, titoli di sezione e righe di riepilogo presenti nei documenti tramite la funzione Tabelle. In questo post, discutiamo di questi miglioramenti e forniamo esempi per aiutarti a comprenderli e utilizzarli nei flussi di lavoro di elaborazione dei documenti. Descriviamo come utilizzare questi miglioramenti attraverso esempi di codice per utilizzare l'API ed elaborare la risposta con il Libreria Amazon Textract Texttractor.

Panoramica della soluzione

L'immagine seguente mostra che il modello aggiornato non identifica solo la tabella nel documento, ma anche tutte le intestazioni e i piè di pagina corrispondenti. Questo documento di resoconto finanziario di esempio contiene il titolo della tabella, il piè di pagina, il titolo della sezione e le righe di riepilogo.

Relazione finanziaria con tabella

Il miglioramento della funzionalità Tabelle aggiunge il supporto per quattro nuovi elementi nella risposta API che consente di estrarre ciascuno di questi elementi della tabella con facilità e aggiunge la possibilità di distinguere il tipo di tabella.

Elementi della tabella

Amazon Textract può identificare diversi componenti di una tabella come celle di tabella e celle unite. Questi componenti, noti come Blockoggetti, incapsulano i dettagli relativi al componente, come la geometria di delimitazione, le relazioni e il punteggio di confidenza. UN Block rappresenta gli elementi riconosciuti in un documento all'interno di un gruppo di pixel vicini tra loro. I seguenti sono i nuovi Blocchi tabella introdotto in questo miglioramento:

Titolo della tavola - Un nuovo Block tipo chiamato TABLE_TITLE che consente di identificare il titolo di una determinata tabella. I titoli possono essere costituiti da una o più righe, generalmente sopra una tabella o incorporate come cella all'interno della tabella.
Piè di pagina della tabella - Un nuovo Block tipo chiamato TABLE_FOOTER che consente di identificare i piè di pagina associati a una determinata tabella. I piè di pagina possono essere una o più righe che si trovano in genere sotto la tabella o incorporate come cella all'interno della tabella.
Titolo della sezione - Un nuovo Block tipo chiamato TABLE_SECTION_TITLE che permette di identificare se la cella rilevata è un titolo di sezione.
Celle di riepilogo - Un nuovo Block tipo chiamato TABLE_SUMMARY che consente di identificare se la cella è una cella di riepilogo, ad esempio una cella per i totali su una busta paga.

Relazione finanziaria con elementi della tabella

Tipi di tavoli

Quando Amazon Textract identifica una tabella in un documento, estrae tutti i dettagli della tabella in un livello superiore Block tipo di TABLE. I tavoli possono essere di varie forme e dimensioni. Ad esempio, i documenti spesso contengono tabelle che possono avere o meno un'intestazione di tabella riconoscibile. Per aiutare a distinguere questi tipi di tabelle, abbiamo aggiunto due nuovi tipi di entità per a TABLE Block: SEMI_STRUCTURED_TABLE ed STRUCTURED_TABLE. Questi tipi di entità consentono di distinguere tra una tabella strutturata e una tabella semistrutturata.

Le tabelle strutturate sono tabelle con intestazioni di colonna chiaramente definite. Ma con le tabelle semistrutturate, i dati potrebbero non seguire una struttura rigida. Ad esempio, i dati possono essere visualizzati in una struttura tabulare che non è una tabella con intestazioni definite. I nuovi tipi di entità offrono la flessibilità di scegliere quali tabelle mantenere o rimuovere durante la post-elaborazione. L'immagine seguente mostra un esempio di STRUCTURED_TABLE ed SEMI_STRUCTURED_TABLE.

Tipi di tabelle

Analisi dell'output dell'API

In questa sezione, esploriamo come è possibile utilizzare il Libreria Amazon Textract Texttractor per postelaborare l'output dell'API di AnalyzeDocument con i miglioramenti della funzione Tabelle. Ciò consente di estrarre informazioni rilevanti dalle tabelle.

Textractor è una libreria creata per funzionare perfettamente con le API e le utilità di Amazon Textract per convertire successivamente le risposte JSON restituite dalle API in oggetti programmabili. Puoi anche usarlo per visualizzare entità sul documento ed esportare i dati in formati come file con valori separati da virgole (CSV). Ha lo scopo di aiutare i clienti di Amazon Textract a configurare le loro pipeline di post-elaborazione.

Nei nostri esempi, utilizziamo la seguente pagina di esempio da un documento di archiviazione SEC 10-K.

Documento di deposito 10-K SEC

Il seguente codice può essere trovato all'interno del nostro Repository GitHub. Per elaborare questo documento, utilizziamo la libreria Texttractor e la importiamo per postelaborare gli output dell'API e visualizzare i dati:

pip install amazon-textract-textractor

Il primo passo è chiamare Amazon Textract AnalyzeDocument con la funzione Tabelle, indicata da features=[TextractFeatures.TABLES] parametro per estrarre le informazioni della tabella. Si noti che questo metodo richiama il tempo reale (o sincrono) AnalizzaDocumento API, che supporta documenti a pagina singola. Tuttavia, puoi utilizzare il asincrono StartDocumentAnalysis API per elaborare documenti multipagina (con un massimo di 3,000 pagine).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

Il document L'oggetto contiene metadati relativi al documento che possono essere rivisti. Si noti che riconosce una tabella nel documento insieme ad altre entità nel documento:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Ora che abbiamo l'output dell'API contenente le informazioni sulla tabella, visualizziamo i diversi elementi della tabella utilizzando la struttura di risposta discussa in precedenza:

table = EntityList(document.tables[0])
document.tables[0].visualize()

Evidenziata la tabella dei documenti di archiviazione SEC 10-K

La libreria Texttractor evidenzia le varie entità all'interno della tabella rilevata con un codice colore diverso per ogni elemento della tabella. Approfondiamo come possiamo estrarre ogni elemento. Il seguente frammento di codice mostra l'estrazione del titolo della tabella:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

Allo stesso modo, possiamo utilizzare il seguente codice per estrarre i piè di pagina della tabella. Si noti che table_footers è un elenco, il che significa che possono esserci uno o più piè di pagina associati alla tabella. Possiamo iterare su questo elenco per vedere tutti i piè di pagina presenti e, come mostrato nel seguente frammento di codice, l'output mostra tre piè di pagina:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Generazione di dati per l'acquisizione a valle

La libreria Textractor ti aiuta anche a semplificare l'inserimento dei dati della tabella nei sistemi a valle o in altri flussi di lavoro. Ad esempio, puoi esportare i dati della tabella estratti in un file Microsoft Excel leggibile dall'uomo. Al momento della stesura di questo documento, questo è l'unico formato che supporta le tabelle unite.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabella in Excel

Possiamo anche convertirlo in a Panda DataFrame. DataFrame è una scelta popolare per la manipolazione, l'analisi e la visualizzazione dei dati in linguaggi di programmazione come Python e R.

In Python, DataFrame è una struttura dati primaria nella libreria Pandas. È flessibile e potente ed è spesso la prima scelta per i professionisti dell'analisi dei dati per varie attività di analisi dei dati e ML. Il seguente frammento di codice mostra come convertire le informazioni della tabella estratte in un DataFrame con una singola riga di codice:

df=table[0].to_pandas()
df

Da tabella a DataFrame

Infine, possiamo convertire i dati della tabella in un file CSV. I file CSV vengono spesso utilizzati per importare dati in database relazionali o data warehouse. Vedere il seguente codice:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Conclusione

L'introduzione di questi nuovi tipi di blocchi ed entità (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTERe TABLE_SUMMARY) segna un progresso significativo nell'estrazione di strutture tabulari dai documenti con Amazon Textract.

Questi strumenti forniscono un approccio più sfumato e flessibile, soddisfacendo sia tabelle strutturate che semistrutturate e assicurandosi che nessun dato importante venga trascurato, indipendentemente dalla sua posizione in un documento.

Ciò significa che ora possiamo gestire diversi tipi di dati e strutture di tabelle con maggiore efficienza e precisione. Mentre continuiamo ad abbracciare la potenza dell'automazione nei flussi di lavoro di elaborazione dei documenti, questi miglioramenti senza dubbio apriranno la strada a flussi di lavoro più snelli, maggiore produttività e analisi dei dati più approfondite. Per ulteriori informazioni su AnalyzeDocument e la funzione Tabelle, fare riferimento a AnalizzaDocumento.

Circa gli autori

Raja Pathak è un Senior Solutions Architect e Tecnologo specializzato in Servizi Finanziari (Assicurazioni, Banche, Capital Markets) e Machine Learning. È specializzato in Natural Language Processing (NLP), Large Language Models (LLM) e progetti di infrastrutture e operazioni di Machine Learning (MLOps).

Anjan Biswas è un Senior AI Services Solutions Architect con focus su AI/ML e analisi dei dati. Anjan fa parte del team mondiale dei servizi di intelligenza artificiale e lavora con i clienti per aiutarli a comprendere e sviluppare soluzioni ai problemi aziendali con intelligenza artificiale e ML. Anjan ha oltre 14 anni di esperienza nella collaborazione con organizzazioni globali di supply chain, produzione e vendita al dettaglio e aiuta attivamente i clienti a iniziare e scalare i servizi di intelligenza artificiale di AWS.

Lalita Reddi è Senior Technical Product Manager del team di Amazon Textract. Si concentra sulla creazione di servizi basati sull'apprendimento automatico per i clienti AWS. Nel tempo libero, a Lalita piace giocare a giochi da tavolo e fare escursioni.