Tillkännager förbättrade tabellextraktioner med Amazon Textract

Återutgiven av Platon

anhängare: 0

amazontext är en maskininlärningstjänst (ML) som automatiskt extraherar text, handstil och data från alla dokument eller bilder. Amazon Textract har en tabellfunktion i Analysera dokument API som erbjuder möjligheten att automatiskt extrahera tabellstrukturer från vilket dokument som helst. I det här inlägget diskuterar vi de förbättringar som gjorts Bord funktion och hur det gör det lättare att extrahera information i tabellstrukturer från en mängd olika dokument.

Tabellstrukturer i dokument som finansiella rapporter, lönerapporter och analyscertifikat är ofta formaterade på ett sätt som möjliggör enkel tolkning av information. De innehåller ofta även information som tabellrubrik, tabellsidfot, avsnittsrubrik och sammanfattningsrader i tabellstrukturen för bättre läsbarhet och organisation. För ett liknande dokument före den här förbättringen finns tabeller inuti AnalyzeDocument skulle ha identifierat dessa element som celler, och det extraherade inte titlar och sidfötter som finns utanför tabellens gränser. I sådana fall var anpassad efterbearbetningslogik för att identifiera sådan information eller extrahera den separat från API:ets JSON-utdata nödvändig. Med detta tillkännagivande om förbättringar av tabellfunktionen blir utvinningen av olika aspekter av tabelldata mycket enklare.

I april 2023 introducerade Amazon Textract möjligheten att automatiskt upptäcka titlar, sidfötter, avsnittstitlar och sammanfattningsrader som finns i dokument via funktionen Tabeller. I det här inlägget diskuterar vi dessa förbättringar och ger exempel som hjälper dig att förstå och använda dem i dina dokumentbearbetningsarbetsflöden. Vi går igenom hur man använder dessa förbättringar genom kodexempel för att använda API:t och bearbeta svaret med Amazon Textract Textractor-bibliotek.

Översikt över lösningen

Följande bild visar att den uppdaterade modellen inte bara identifierar tabellen i dokumentet utan alla motsvarande tabellhuvuden och sidfötter. Detta exempel på finansiell rapport innehåller tabellrubrik, sidfot, avsnittsrubrik och sammanfattningsrader.

Finansiell rapport med tabell

Förbättringen av tabellfunktionerna lägger till stöd för fyra nya element i API-svaret som låter dig extrahera vart och ett av dessa tabellelement med lätthet, och lägger till möjligheten att särskilja typen av tabell.

Tabellelement

Amazon Textract kan identifiera flera komponenter i en tabell som tabellceller och sammanslagna celler. Dessa komponenter, kända som Blockobjekt, kapsla in detaljerna relaterade till komponenten, såsom gränsgeometrin, relationer och konfidenspoäng. A Block representerar objekt som känns igen i ett dokument inom en grupp av pixlar nära varandra. Följande är de nya Bordsblock introduceras i denna förbättring:

Tabellens titel - En ny Block typ kallas TABLE_TITLE som gör att du kan identifiera titeln på en given tabell. Titlar kan vara en eller flera rader, som vanligtvis är ovanför en tabell eller inbäddade som en cell i tabellen.
Bordssidfot - En ny Block typ kallas TABLE_FOOTER som gör att du kan identifiera sidfötter som är kopplade till en given tabell. Sidfot kan vara en eller flera rader som vanligtvis är under tabellen eller inbäddade som en cell i tabellen.
Avsnittets titel - En ny Block typ kallas TABLE_SECTION_TITLE som gör att du kan identifiera om den upptäckta cellen är en avsnittstitel.
Sammanfattningsceller - En ny Block typ kallas TABLE_SUMMARY som gör att du kan identifiera om cellen är en sammanfattningscell, t.ex. en cell för totalsummor på en lönestub.

Finansiell rapport med tabellelement

Typer av tabeller

När Amazon Textract identifierar en tabell i ett dokument extraherar den alla detaljer i tabellen till en toppnivå Block sorts TABLE. Bord kan komma i olika former och storlekar. Till exempel innehåller dokument ofta tabeller som kan ha en urskiljbar tabellrubrik eller inte. För att hjälpa till att särskilja dessa typer av tabeller har vi lagt till två nya entitetstyper för en TABLE Block: SEMI_STRUCTURED_TABLE och STRUCTURED_TABLE. Dessa entitetstyper hjälper dig att skilja mellan en strukturerad och en semistrukturerad tabell.

Strukturerade tabeller är tabeller som har tydligt definierade kolumnrubriker. Men med semistrukturerade tabeller kanske data inte följer en strikt struktur. Till exempel kan data visas i tabellstruktur som inte är en tabell med definierade rubriker. De nya entitetstyperna erbjuder flexibiliteten att välja vilka tabeller som ska behållas eller tas bort under efterbearbetningen. Följande bild visar ett exempel på STRUCTURED_TABLE och SEMI_STRUCTURED_TABLE.

Tabelltyper

Analyserar API-utdata

I det här avsnittet utforskar vi hur du kan använda Amazon Textract Textractor-bibliotek att efterbehandla API-utdata från AnalyzeDocument med förbättringar av tabellfunktionerna. Detta gör att du kan extrahera relevant information från tabeller.

Textractor är ett bibliotek skapat för att fungera sömlöst med Amazon Textract API:er och verktyg för att därefter konvertera JSON-svaren som returneras av API:erna till programmerbara objekt. Du kan också använda den för att visualisera enheter i dokumentet och exportera data i format som CSV-filer (kommaseparerade värden). Det är avsett att hjälpa Amazon Textract-kunder att sätta upp sina efterbearbetningspipelines.

I våra exempel använder vi följande exempelsida från ett 10-K SEC-arkiveringsdokument.

10-K SEK arkiveringsdokument

Följande kod finns i vår GitHub repository. För att bearbeta detta dokument använder vi Textractor-biblioteket och importerar det för oss för att efterbehandla API-utgångarna och visualisera data:

pip install amazon-textract-textractor

Det första steget är att ringa Amazon Textract AnalyzeDocument med funktionen Tabeller, betecknad med features=[TextractFeatures.TABLES] parameter för att extrahera tabellinformationen. Observera att denna metod anropar realtid (eller synkron) Analysera dokument API, som stöder ensidiga dokument. Du kan dock använda asynkron StartDocumentAnalysis API för att behandla flersidiga dokument (med upp till 3,000 XNUMX sidor).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

Smakämnen document objektet innehåller metadata om dokumentet som kan granskas. Observera att den känner igen en tabell i dokumentet tillsammans med andra enheter i dokumentet:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Nu när vi har API-utgången som innehåller tabellinformationen, visualiserar vi de olika elementen i tabellen med hjälp av svarsstrukturen som diskuterades tidigare:

table = EntityList(document.tables[0])
document.tables[0].visualize()

10-K SEC arkiveringsdokumenttabell markerad

Textractor-biblioteket framhäver de olika enheterna i den upptäckta tabellen med en annan färgkod för varje tabellelement. Låt oss dyka djupare in i hur vi kan extrahera varje element. Följande kodavsnitt visar extrahering av tabellens titel:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

På samma sätt kan vi använda följande kod för att extrahera tabellens sidfötter. Lägg märke till att table_footers är en lista, vilket betyder att det kan finnas en eller flera sidfötter kopplade till tabellen. Vi kan iterera över den här listan för att se alla sidfötter som finns, och som visas i följande kodavsnitt visar utdata tre sidfötter:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Genererar data för nedströms intag

Textractor-biblioteket hjälper dig också att förenkla inmatningen av tabelldata i nedströms system eller andra arbetsflöden. Du kan till exempel exportera de extraherade tabelldata till en läsbar Microsoft Excel-fil. När detta skrivs är detta det enda formatet som stöder sammanslagna tabeller.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabell till Excel

Vi kan också konvertera den till en Pandas DataFrame. DataFrame är ett populärt val för datamanipulation, analys och visualisering i programmeringsspråk som Python och R.

I Python är DataFrame en primär datastruktur i Pandas bibliotek. Det är flexibelt och kraftfullt och är ofta förstahandsvalet för dataanalysproffs för olika dataanalys- och ML-uppgifter. Följande kodavsnitt visar hur man konverterar den extraherade tabellinformationen till en DataFrame med en enda kodrad:

df=table[0].to_pandas()
df

Tabell till DataFrame

Slutligen kan vi konvertera tabelldata till en CSV-fil. CSV-filer används ofta för att mata in data i relationsdatabaser eller datalager. Se följande kod:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Slutsats

Introduktionen av dessa nya block- och enhetstyper (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTERoch TABLE_SUMMARY) markerar ett betydande framsteg när det gäller utvinning av tabellstrukturer från dokument med Amazon Textract.

Dessa verktyg ger ett mer nyanserat och flexibelt tillvägagångssätt, tillgodoser både strukturerade och semistrukturerade tabeller och ser till att ingen viktig data förbises, oavsett var den är placerad i ett dokument.

Detta innebär att vi nu kan hantera olika datatyper och tabellstrukturer med ökad effektivitet och noggrannhet. När vi fortsätter att ta till oss kraften i automatisering i dokumentbearbetningsarbetsflöden kommer dessa förbättringar utan tvekan att bana väg för mer strömlinjeformade arbetsflöden, högre produktivitet och mer insiktsfull dataanalys. För mer information om AnalyzeDocument och funktionen Tabeller, se Analysera dokument.

Om författarna

Raj Pathak är en senior lösningsarkitekt och tekniker specialiserad på finansiella tjänster (försäkring, bank, kapitalmarknader) och maskininlärning. Han är specialiserad på Natural Language Processing (NLP), Large Language Models (LLM) och Machine Learning infrastruktur och driftsprojekt (MLOps).

Anjan Biswas är en Senior AI Services Solutions Architect med fokus på AI/ML och Data Analytics. Anjan är en del av det världsomspännande AI-serviceteamet och arbetar med kunder för att hjälpa dem att förstå och utveckla lösningar på affärsproblem med AI och ML. Anjan har över 14 års erfarenhet av att arbeta med globala supply chain-, tillverknings- och detaljhandelsorganisationer och hjälper aktivt kunder att komma igång och skala på AWS AI-tjänster.

Lalita Reddi är Senior Technical Product Manager med Amazon Textract-teamet. Hon är fokuserad på att bygga maskininlärningsbaserade tjänster för AWS-kunder. På fritiden gillar Lalita att spela brädspel och åka på vandringar.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
EVM Finans. Unified Interface for Decentralized Finance. Tillgång här.
Quantum Media Group. IR/PR förstärkt. Tillgång här.
PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Tidsstämpel: Juni 7, 2023

Tidsstämpel: Juli 11, 2023

Återutgiven av Platon

ByteDance sparar upp till 60 % på slutledningskostnader samtidigt som den minskar latensen och ökar genomströmningen med AWS Inferentia

Skapa videoundertexter med Amazon Transcribe med hjälp av detta kodfria arbetsflöde

Bongo Learn ger feedback i realtid för att förbättra läranderesultaten med Amazon Transcribe

Genomför what-if-analyser med Amazon Forecast, upp till 80 % snabbare än tidigare

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto