Testo Amazon è un servizio di machine learning (ML) che estrae automaticamente testo, scrittura a mano e dati da qualsiasi documento o immagine. Amazon Textract ha una funzione Tabelle all'interno di AnalizzaDocumento API che offre la possibilità di estrarre automaticamente strutture tabulari da qualsiasi documento. In questo post, discutiamo i miglioramenti apportati al tavoli caratteristica e come semplifichi l'estrazione di informazioni in strutture tabulari da un'ampia varietà di documenti.
Le strutture tabulari in documenti come report finanziari, buste paga e file di certificato di analisi sono spesso formattate in modo da consentire una facile interpretazione delle informazioni. Spesso includono anche informazioni come titolo della tabella, piè di pagina della tabella, titolo della sezione e righe di riepilogo all'interno della struttura tabulare per una migliore leggibilità e organizzazione. Per un documento simile prima di questo miglioramento, la funzione Tabelle all'interno AnalyzeDocument
avrebbe identificato quegli elementi come celle e non avrebbe estratto titoli e piè di pagina presenti al di fuori dei limiti della tabella. In tali casi, era necessaria una logica di post-elaborazione personalizzata per identificare tali informazioni o estrarle separatamente dall'output JSON dell'API. Con questo annuncio di miglioramenti alla funzione Tabella, l'estrazione di vari aspetti dei dati tabulari diventa molto più semplice.
Nell'aprile 2023, Amazon Textract ha introdotto la possibilità di rilevare automaticamente titoli, piè di pagina, titoli di sezione e righe di riepilogo presenti nei documenti tramite la funzione Tabelle. In questo post, discutiamo di questi miglioramenti e forniamo esempi per aiutarti a comprenderli e utilizzarli nei flussi di lavoro di elaborazione dei documenti. Descriviamo come utilizzare questi miglioramenti attraverso esempi di codice per utilizzare l'API ed elaborare la risposta con il Libreria Amazon Textract Texttractor.
Panoramica della soluzione
L'immagine seguente mostra che il modello aggiornato non identifica solo la tabella nel documento, ma anche tutte le intestazioni e i piè di pagina corrispondenti. Questo documento di resoconto finanziario di esempio contiene il titolo della tabella, il piè di pagina, il titolo della sezione e le righe di riepilogo.
Il miglioramento della funzionalità Tabelle aggiunge il supporto per quattro nuovi elementi nella risposta API che consente di estrarre ciascuno di questi elementi della tabella con facilità e aggiunge la possibilità di distinguere il tipo di tabella.
Elementi della tabella
Amazon Textract può identificare diversi componenti di una tabella come celle di tabella e celle unite. Questi componenti, noti come Block
oggetti, incapsulano i dettagli relativi al componente, come la geometria di delimitazione, le relazioni e il punteggio di confidenza. UN Block
rappresenta gli elementi riconosciuti in un documento all'interno di un gruppo di pixel vicini tra loro. I seguenti sono i nuovi Blocchi tabella introdotto in questo miglioramento:
- Titolo della tavola - Un nuovo
Block
tipo chiamatoTABLE_TITLE
che consente di identificare il titolo di una determinata tabella. I titoli possono essere costituiti da una o più righe, generalmente sopra una tabella o incorporate come cella all'interno della tabella. - Piè di pagina della tabella - Un nuovo
Block
tipo chiamatoTABLE_FOOTER
che consente di identificare i piè di pagina associati a una determinata tabella. I piè di pagina possono essere una o più righe che si trovano in genere sotto la tabella o incorporate come cella all'interno della tabella. - Titolo della sezione - Un nuovo
Block
tipo chiamatoTABLE_SECTION_TITLE
che permette di identificare se la cella rilevata è un titolo di sezione. - Celle di riepilogo - Un nuovo
Block
tipo chiamatoTABLE_SUMMARY
che consente di identificare se la cella è una cella di riepilogo, ad esempio una cella per i totali su una busta paga.
Tipi di tavoli
Quando Amazon Textract identifica una tabella in un documento, estrae tutti i dettagli della tabella in un livello superiore Block
tipo di TABLE
. I tavoli possono essere di varie forme e dimensioni. Ad esempio, i documenti spesso contengono tabelle che possono avere o meno un'intestazione di tabella riconoscibile. Per aiutare a distinguere questi tipi di tabelle, abbiamo aggiunto due nuovi tipi di entità per a TABLE Block
: SEMI_STRUCTURED_TABLE
ed STRUCTURED_TABLE
. Questi tipi di entità consentono di distinguere tra una tabella strutturata e una tabella semistrutturata.
Le tabelle strutturate sono tabelle con intestazioni di colonna chiaramente definite. Ma con le tabelle semistrutturate, i dati potrebbero non seguire una struttura rigida. Ad esempio, i dati possono essere visualizzati in una struttura tabulare che non è una tabella con intestazioni definite. I nuovi tipi di entità offrono la flessibilità di scegliere quali tabelle mantenere o rimuovere durante la post-elaborazione. L'immagine seguente mostra un esempio di STRUCTURED_TABLE
ed SEMI_STRUCTURED_TABLE
.
Analisi dell'output dell'API
In questa sezione, esploriamo come è possibile utilizzare il Libreria Amazon Textract Texttractor per postelaborare l'output dell'API di AnalyzeDocument
con i miglioramenti della funzione Tabelle. Ciò consente di estrarre informazioni rilevanti dalle tabelle.
Textractor è una libreria creata per funzionare perfettamente con le API e le utilità di Amazon Textract per convertire successivamente le risposte JSON restituite dalle API in oggetti programmabili. Puoi anche usarlo per visualizzare entità sul documento ed esportare i dati in formati come file con valori separati da virgole (CSV). Ha lo scopo di aiutare i clienti di Amazon Textract a configurare le loro pipeline di post-elaborazione.
Nei nostri esempi, utilizziamo la seguente pagina di esempio da un documento di archiviazione SEC 10-K.
Il seguente codice può essere trovato all'interno del nostro Repository GitHub. Per elaborare questo documento, utilizziamo la libreria Texttractor e la importiamo per postelaborare gli output dell'API e visualizzare i dati:
Il primo passo è chiamare Amazon Textract AnalyzeDocument
con la funzione Tabelle, indicata da features=[TextractFeatures.TABLES]
parametro per estrarre le informazioni della tabella. Si noti che questo metodo richiama il tempo reale (o sincrono) AnalizzaDocumento API, che supporta documenti a pagina singola. Tuttavia, puoi utilizzare il asincrono StartDocumentAnalysis
API per elaborare documenti multipagina (con un massimo di 3,000 pagine).
Il document
L'oggetto contiene metadati relativi al documento che possono essere rivisti. Si noti che riconosce una tabella nel documento insieme ad altre entità nel documento:
Ora che abbiamo l'output dell'API contenente le informazioni sulla tabella, visualizziamo i diversi elementi della tabella utilizzando la struttura di risposta discussa in precedenza:
La libreria Texttractor evidenzia le varie entità all'interno della tabella rilevata con un codice colore diverso per ogni elemento della tabella. Approfondiamo come possiamo estrarre ogni elemento. Il seguente frammento di codice mostra l'estrazione del titolo della tabella:
Allo stesso modo, possiamo utilizzare il seguente codice per estrarre i piè di pagina della tabella. Si noti che table_footers è un elenco, il che significa che possono esserci uno o più piè di pagina associati alla tabella. Possiamo iterare su questo elenco per vedere tutti i piè di pagina presenti e, come mostrato nel seguente frammento di codice, l'output mostra tre piè di pagina:
Generazione di dati per l'acquisizione a valle
La libreria Textractor ti aiuta anche a semplificare l'inserimento dei dati della tabella nei sistemi a valle o in altri flussi di lavoro. Ad esempio, puoi esportare i dati della tabella estratti in un file Microsoft Excel leggibile dall'uomo. Al momento della stesura di questo documento, questo è l'unico formato che supporta le tabelle unite.
Possiamo anche convertirlo in a Panda DataFrame. DataFrame è una scelta popolare per la manipolazione, l'analisi e la visualizzazione dei dati in linguaggi di programmazione come Python e R.
In Python, DataFrame è una struttura dati primaria nella libreria Pandas. È flessibile e potente ed è spesso la prima scelta per i professionisti dell'analisi dei dati per varie attività di analisi dei dati e ML. Il seguente frammento di codice mostra come convertire le informazioni della tabella estratte in un DataFrame con una singola riga di codice:
Infine, possiamo convertire i dati della tabella in un file CSV. I file CSV vengono spesso utilizzati per importare dati in database relazionali o data warehouse. Vedere il seguente codice:
Conclusione
L'introduzione di questi nuovi tipi di blocchi ed entità (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
e TABLE_SUMMARY
) segna un progresso significativo nell'estrazione di strutture tabulari dai documenti con Amazon Textract.
Questi strumenti forniscono un approccio più sfumato e flessibile, soddisfacendo sia tabelle strutturate che semistrutturate e assicurandosi che nessun dato importante venga trascurato, indipendentemente dalla sua posizione in un documento.
Ciò significa che ora possiamo gestire diversi tipi di dati e strutture di tabelle con maggiore efficienza e precisione. Mentre continuiamo ad abbracciare la potenza dell'automazione nei flussi di lavoro di elaborazione dei documenti, questi miglioramenti senza dubbio apriranno la strada a flussi di lavoro più snelli, maggiore produttività e analisi dei dati più approfondite. Per ulteriori informazioni su AnalyzeDocument
e la funzione Tabelle, fare riferimento a AnalizzaDocumento.
Circa gli autori
Raja Pathak è un Senior Solutions Architect e Tecnologo specializzato in Servizi Finanziari (Assicurazioni, Banche, Capital Markets) e Machine Learning. È specializzato in Natural Language Processing (NLP), Large Language Models (LLM) e progetti di infrastrutture e operazioni di Machine Learning (MLOps).
Anjan Biswas è un Senior AI Services Solutions Architect con focus su AI/ML e analisi dei dati. Anjan fa parte del team mondiale dei servizi di intelligenza artificiale e lavora con i clienti per aiutarli a comprendere e sviluppare soluzioni ai problemi aziendali con intelligenza artificiale e ML. Anjan ha oltre 14 anni di esperienza nella collaborazione con organizzazioni globali di supply chain, produzione e vendita al dettaglio e aiuta attivamente i clienti a iniziare e scalare i servizi di intelligenza artificiale di AWS.
Lalita Reddi è Senior Technical Product Manager del team di Amazon Textract. Si concentra sulla creazione di servizi basati sull'apprendimento automatico per i clienti AWS. Nel tempo libero, a Lalita piace giocare a giochi da tavolo e fare escursioni.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- EVM Finance. Interfaccia unificata per la finanza decentralizzata. Accedi qui.
- Quantum Media Group. IR/PR amplificato. Accedi qui.
- PlatoAiStream. Intelligenza dei dati Web3. Conoscenza amplificata. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :ha
- :È
- :non
- $ SU
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- capacità
- WRI
- sopra
- conti
- precisione
- attivamente
- aggiunto
- Aggiunge
- avanzamento
- agenzia
- AI
- Servizi di intelligenza artificiale
- AI / ML
- aiuto
- Tutti
- consente
- lungo
- anche
- Amazon
- Testo Amazon
- Amazon Web Services
- importi
- an
- .
- analitica
- ed
- Annuncio
- annunciando
- in qualsiasi
- api
- API
- apparire
- approccio
- circa
- Aprile
- SONO
- AS
- aspetti
- Attività
- associato
- At
- automaticamente
- Automazione
- AWS
- Equilibrio
- bilanci
- Settore bancario
- base
- BE
- diventa
- sotto
- Meglio
- fra
- Miliardo
- Bloccare
- tavola
- Giochi da tavolo
- entrambi
- Costruzione
- affari
- ma
- by
- chiamata
- detto
- Materiale
- capitale
- Mercati capitali
- casi
- Contanti
- Celle
- certo
- a livello internazionale
- catena
- scegliere
- Scegli
- classificare
- chiaramente
- cliente
- Chiudi
- codice
- Collaterale
- colore
- Colonna
- Venire
- impegni
- componente
- componenti
- fiducia
- contenere
- contiene
- continua
- convertire
- Aziende
- Corrispondente
- Costo
- creato
- credito
- costume
- Clienti
- dati
- analisi dei dati
- Dati Analytics
- Struttura dati
- banche dati
- Debito
- Dicembre
- più profondo
- definito
- dimostra
- dettagli
- rilevato
- sviluppare
- diverso
- direzione
- Codice Sconto
- discutere
- discusso
- display
- distinguere
- paesaggio differenziato
- documento
- documenti
- dubbio
- dovuto
- durante
- ogni
- alleviare
- più facile
- facile
- efficienza
- elemento
- elementi
- incorporato
- abbraccio
- Abilita
- migliorata
- miglioramenti
- entità
- entità
- equità
- equivalenti
- tenuta
- stimato
- esempio
- Esempi
- Excel
- esperienza
- esplora
- export
- estratto
- estratti
- fiera
- caratteristica
- Compila il
- File
- Limatura
- finanziario
- Relazione finanziaria
- servizi finanziari
- Nome
- fisso
- reddito fisso
- Flessibilità
- flessibile
- Focus
- concentrato
- seguire
- i seguenti
- Nel
- estero
- formato
- essere trovato
- quattro
- da
- fondi
- Guadagno
- Guadagni
- Giochi
- ottenere
- GitHub
- Dare
- dato
- globali
- Go
- Enti Pubblici
- lordo
- Gruppo
- ha avuto
- maniglia
- Avere
- he
- intestazioni
- Aiuto
- aiutare
- aiuta
- suo
- gerarchia
- superiore
- Evidenziato
- evidenzia
- escursioni
- detiene
- Come
- Tutorial
- Tuttavia
- HTML
- HTTPS
- umano
- identificato
- identifica
- identificare
- Identità
- if
- Immagine
- importare
- importante
- miglioramenti
- in
- includere
- Reddito
- informazioni
- Infrastruttura
- install
- assicurazione
- destinato
- interpretazione
- ai miglioramenti
- introdotto
- Introduzione
- investimento
- invoca
- IT
- elementi
- SUO
- jpg
- json
- giurisdizioni
- mantenere
- conosciuto
- Dipingere
- Lingua
- Le Lingue
- grandi
- apprendimento
- meno
- Livello
- Biblioteca
- piace
- linea
- Linee
- Lista
- LLM
- carichi
- località
- logica
- più a lungo
- spento
- perdite
- macchina
- machine learning
- fatto
- maggiore
- make
- FA
- Fare
- direttore
- Manipolazione
- consigliato per la
- Rappresentanza
- Mercati
- Maggio..
- si intende
- Metadati
- metodo
- Microsoft
- forza
- milione
- milioni
- ML
- MLOp
- modello
- modelli
- modificare
- soldi
- mercato monetario
- mese
- Scopri di più
- molti
- Naturale
- Elaborazione del linguaggio naturale
- necessaria
- rete
- New
- nlp
- no
- Avviso..
- adesso
- oggetto
- oggetti
- of
- offrire
- Offerte
- di frequente
- on
- ONE
- esclusivamente
- Operazioni
- or
- organizzazione
- organizzazioni
- Altro
- altrimenti
- nostro
- produzione
- al di fuori
- ancora
- pagina
- panda
- parametro
- parte
- pavimentare
- Platone
- Platone Data Intelligence
- PlatoneDati
- Giocare
- Popolare
- porzione
- Post
- energia
- potente
- presenti
- in precedenza
- principalmente
- primario
- Stampa
- Precedente
- problemi
- processi
- lavorazione
- Prodotto
- product manager
- della produttività
- Scelto dai professionisti
- Programmazione
- linguaggi di programmazione
- progetti
- fornire
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- query
- di rose
- beni immobili
- tempo reale
- riconosciuto
- riconosce
- registrato
- ricorrenti
- Indipendentemente
- regione
- normativo
- relazionato
- Relazioni
- pertinente
- rimuovere
- rapporto
- Report
- rappresenta
- necessario
- rispettivamente
- risposta
- risposte
- limitare
- limitato
- restrizioni
- risultante
- nello specifico retail
- rivisto
- s
- vendite
- Scala
- Punto
- senza soluzione di continuità
- SEC
- Deposito SEC
- Sezione
- Valori
- problemi di
- vedere
- Sellers
- anziano
- Settembre
- servizio
- Servizi
- regolazione
- alcuni
- forme
- lei
- mostrato
- Spettacoli
- firme
- significativa
- simile
- semplificare
- singolo
- Dimensioni
- Soluzioni
- specializzata
- specializzata
- iniziato
- step
- aerodinamico
- Strict
- La struttura
- strutturato
- soggetto
- Successivamente
- tale
- SOMMARIO
- fornire
- supply chain
- supporto
- supporti
- SISTEMI DI TRATTAMENTO
- tavolo
- task
- team
- Consulenza
- tecnologo
- di
- che
- Il
- loro
- Li
- Là.
- Strumenti Bowman per analizzare le seguenti finiture:
- di
- di parti terze standard
- questo
- quelli
- tre
- Attraverso
- tempo
- Titolo
- titoli
- a
- strumenti
- di livello superiore
- Totale
- commercio
- seconda
- Digitare
- Tipi di
- tipicamente
- noi
- Governo degli Stati Uniti
- capire
- perdite non realizzate
- aggiornato
- us
- uso
- utilizzato
- utilizzando
- utilità
- APPREZZIAMO
- Valori
- varietà
- vario
- contro
- via
- visualizzazione
- Prima
- Modo..
- we
- sito web
- servizi web
- quale
- largo
- volere
- con
- entro
- parole
- Lavora
- flussi di lavoro
- lavoro
- lavori
- sarebbe
- scrittura
- anni
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro