Kunngjør forbedrede tabellekstraksjoner med Amazon Textract

Publisert av Platon

Følgere: 0

amazontekst er en maskinlæringstjeneste (ML) som automatisk trekker ut tekst, håndskrift og data fra ethvert dokument eller bilde. Amazon Textract har en tabellfunksjon i Analyser Dokument API som tilbyr muligheten til å automatisk trekke ut tabellstrukturer fra ethvert dokument. I dette innlegget diskuterer vi forbedringene som er gjort på tabeller funksjon og hvordan det gjør det enklere å trekke ut informasjon i tabellstrukturer fra en rekke dokumenter.

Tabellstrukturer i dokumenter som økonomiske rapporter, lønnsslipper og analysesertifikatfiler er ofte formatert på en måte som muliggjør enkel tolkning av informasjon. De inkluderer ofte også informasjon som tabelltittel, tabellbunntekst, seksjonstittel og sammendragsrader i tabellstrukturen for bedre lesbarhet og organisering. For et lignende dokument før denne forbedringen, funksjonen Tabeller innenfor AnalyzeDocument ville ha identifisert disse elementene som celler, og den hentet ikke ut titler og bunntekster som finnes utenfor tabellens grenser. I slike tilfeller var tilpasset etterbehandlingslogikk for å identifisere slik informasjon eller trekke den ut separat fra API-ens JSON-utgang nødvendig. Med denne kunngjøringen om forbedringer av tabellfunksjonen blir utvinningen av ulike aspekter av tabelldata mye enklere.

I april 2023 introduserte Amazon Textract muligheten til automatisk å oppdage titler, bunntekster, seksjonstitler og sammendragsrader som er tilstede i dokumenter via tabellfunksjonen. I dette innlegget diskuterer vi disse forbedringene og gir eksempler for å hjelpe deg å forstå og bruke dem i dokumentbehandlingsarbeidsflytene dine. Vi går gjennom hvordan du bruker disse forbedringene gjennom kodeeksempler for å bruke API og behandle svaret med Amazon Textract Textractor-bibliotek.

Oversikt over løsning

Følgende bilde viser at den oppdaterte modellen ikke bare identifiserer tabellen i dokumentet, men alle tilsvarende tabelloverskrifter og bunntekster. Dette eksempeldokumentet for finansiell rapport inneholder tabelltittel, bunntekst, seksjonstittel og sammendragsrader.

Økonomisk rapport med tabell

Tabellfunksjonsforbedringen legger til støtte for fire nye elementer i API-responsen som lar deg enkelt trekke ut hvert av disse tabellelementene, og legger til muligheten til å skille tabelltypen.

Tabellelementer

Amazon Textract kan identifisere flere komponenter i en tabell, for eksempel tabellceller og sammenslåtte celler. Disse komponentene, kjent som Blockobjekter, kapsler inn detaljene knyttet til komponenten, for eksempel avgrensende geometri, relasjoner og konfidenspoengsum. EN Block representerer elementer som gjenkjennes i et dokument innenfor en gruppe piksler nær hverandre. Følgende er de nye Bordblokker introdusert i denne forbedringen:

Tabelltittel - En ny Block type kalt TABLE_TITLE som lar deg identifisere tittelen på en gitt tabell. Titler kan være én eller flere linjer, som vanligvis er over en tabell eller innebygd som en celle i tabellen.
Bordbunntekst - En ny Block type kalt TABLE_FOOTER som lar deg identifisere bunntekstene knyttet til en gitt tabell. Bunntekst kan være én eller flere linjer som vanligvis er under tabellen eller innebygd som en celle i tabellen.
Seksjonstittel - En ny Block type kalt TABLE_SECTION_TITLE som lar deg identifisere om den oppdagede cellen er en seksjonstittel.
Sammendragsceller - En ny Block type kalt TABLE_SUMMARY som lar deg identifisere om cellen er en sammendragscelle, for eksempel en celle for totaler på en utbetalingsslipp.

Økonomisk rapport med tabellelementer

Typer bord

Når Amazon Textract identifiserer en tabell i et dokument, trekker den ut alle detaljene i tabellen til et toppnivå Block type av TABLE. Bord kan komme i forskjellige former og størrelser. Dokumenter inneholder for eksempel ofte tabeller som kanskje eller ikke har en synlig tabelloverskrift. For å hjelpe med å skille disse typer tabeller, la vi til to nye enhetstyper for en TABLE Block: SEMI_STRUCTURED_TABLE og STRUCTURED_TABLE. Disse enhetstypene hjelper deg med å skille mellom en strukturert og en semistrukturert tabell.

Strukturerte tabeller er tabeller som har klart definerte kolonneoverskrifter. Men med semistrukturerte tabeller følger kanskje ikke data en streng struktur. For eksempel kan data vises i tabellstruktur som ikke er en tabell med definerte overskrifter. De nye enhetstypene gir fleksibilitet til å velge hvilke tabeller som skal beholdes eller fjernes under etterbehandling. Følgende bilde viser et eksempel på STRUCTURED_TABLE og SEMI_STRUCTURED_TABLE.

Tabelltyper

Analyserer API-utdata

I denne delen utforsker vi hvordan du kan bruke Amazon Textract Textractor-bibliotek å etterbehandle API-utdataene til AnalyzeDocument med tabellfunksjonsforbedringer. Dette lar deg trekke ut relevant informasjon fra tabeller.

Textractor er et bibliotek opprettet for å fungere sømløst med Amazon Textract APIer og verktøy for deretter å konvertere JSON-svarene som returneres av APIene til programmerbare objekter. Du kan også bruke den til å visualisere enheter på dokumentet og eksportere dataene i formater som kommadelte verdier (CSV)-filer. Det er ment å hjelpe Amazon Textract-kunder med å sette opp etterbehandlingsrørledningene deres.

I eksemplene våre bruker vi følgende eksempelside fra et 10-K SEC-arkiveringsdokument.

10-K SEC arkiveringsdokument

Følgende kode finner du i vår GitHub repository. For å behandle dette dokumentet bruker vi Textractor-biblioteket og importerer det slik at vi kan etterbehandle API-utdataene og visualisere dataene:

pip install amazon-textract-textractor

Det første trinnet er å ringe Amazon Textract AnalyzeDocument med Tabeller-funksjonen, betegnet med features=[TextractFeatures.TABLES] parameter for å trekke ut tabellinformasjonen. Merk at denne metoden påkaller sanntids (eller synkron) Analyser Dokument API, som støtter enkeltsides dokumenter. Du kan imidlertid bruke asynkron StartDocumentAnalysis API for å behandle flersidige dokumenter (med opptil 3,000 sider).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

De document objektet inneholder metadata om dokumentet som kan gjennomgås. Legg merke til at den gjenkjenner én tabell i dokumentet sammen med andre enheter i dokumentet:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Nå som vi har API-utdataene som inneholder tabellinformasjonen, visualiserer vi de forskjellige elementene i tabellen ved å bruke responsstrukturen diskutert tidligere:

table = EntityList(document.tables[0])
document.tables[0].visualize()

10-K SEC arkiveringsdokumenttabell uthevet

Textractor-biblioteket fremhever de ulike enhetene i den oppdagede tabellen med en annen fargekode for hvert tabellelement. La oss dykke dypere inn i hvordan vi kan trekke ut hvert element. Følgende kodebit demonstrerer å trekke ut tittelen på tabellen:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

På samme måte kan vi bruke følgende kode for å trekke ut bunntekstene til tabellen. Legg merke til at table_footers er en liste, som betyr at det kan være en eller flere bunntekst knyttet til tabellen. Vi kan iterere over denne listen for å se alle bunntekstene til stede, og som vist i følgende kodebit, viser utdataene tre bunntekster:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Genererer data for nedstrøms inntak

Textractor-biblioteket hjelper deg også med å forenkle inntak av tabelldata i nedstrømssystemer eller andre arbeidsflyter. Du kan for eksempel eksportere de utpakkede tabelldataene til en lesbar Microsoft Excel-fil. Når dette skrives, er dette det eneste formatet som støtter sammenslåtte tabeller.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabell til Excel

Vi kan også konvertere den til en Pandas DataFrame. DataFrame er et populært valg for datamanipulering, analyse og visualisering i programmeringsspråk som Python og R.

I Python er DataFrame en primær datastruktur i Pandas-biblioteket. Den er fleksibel og kraftig, og er ofte førstevalget for fagfolk innen dataanalyse for ulike dataanalyse- og ML-oppgaver. Følgende kodebit viser hvordan du konverterer den utpakkede tabellinformasjonen til en DataFrame med en enkelt kodelinje:

df=table[0].to_pandas()
df

Tabell til DataFrame

Til slutt kan vi konvertere tabelldataene til en CSV-fil. CSV-filer brukes ofte til å innta data i relasjonsdatabaser eller datavarehus. Se følgende kode:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

konklusjonen

Introduksjonen av disse nye blokk- og enhetstypene (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTERog TABLE_SUMMARY) markerer et betydelig fremskritt i utvinning av tabellstrukturer fra dokumenter med Amazon Textract.

Disse verktøyene gir en mer nyansert og fleksibel tilnærming, og tar hensyn til både strukturerte og semistrukturerte tabeller og sørger for at ingen viktige data blir oversett, uavhengig av plasseringen i et dokument.

Dette betyr at vi nå kan håndtere ulike datatyper og tabellstrukturer med økt effektivitet og nøyaktighet. Ettersom vi fortsetter å omfavne kraften til automatisering i dokumentbehandlingsarbeidsflyter, vil disse forbedringene uten tvil bane vei for mer strømlinjeformede arbeidsflyter, høyere produktivitet og mer innsiktsfull dataanalyse. For mer informasjon om AnalyzeDocument og Tabeller-funksjonen, se Analyser Dokument.

Om forfatterne

Raj Pathak er en senior løsningsarkitekt og -teknolog som spesialiserer seg på finansielle tjenester (forsikring, bank, kapitalmarked) og maskinlæring. Han spesialiserer seg på Natural Language Processing (NLP), Large Language Models (LLM) og Machine Learning infrastruktur og driftsprosjekter (MLOps).

Anjan Biswas er en senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del av det verdensomspennende AI-tjenesteteamet og jobber med kunder for å hjelpe dem med å forstå og utvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med å jobbe med globale forsyningskjeder, produksjons- og detaljhandelsorganisasjoner og hjelper aktivt kunder med å komme i gang og skalere på AWS AI-tjenester.

Lalita Reddi er senior teknisk produktsjef hos Amazon Textract-teamet. Hun er fokusert på å bygge maskinlæringsbaserte tjenester for AWS-kunder. På fritiden liker Lalita å spille brettspill, og gå på fotturer.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
EVM Finans. Unified Interface for desentralisert økonomi. Tilgang her.
Quantum Media Group. IR/PR forsterket. Tilgang her.
PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Tidstempel: Juni 7, 2023

Tidstempel: Kan 23, 2023

Publisert av Platon

Modulær funksjonsdesign for Advanced Driver Assistance Systems (ADAS) på AWS

Koble Amazon EMR og RStudio på Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn