amazontext är en maskininlärningstjänst (ML) som automatiskt extraherar text, handstil och data från alla dokument eller bilder. Amazon Textract har en tabellfunktion i Analysera dokument API som erbjuder möjligheten att automatiskt extrahera tabellstrukturer från vilket dokument som helst. I det här inlägget diskuterar vi de förbättringar som gjorts Bord funktion och hur det gör det lättare att extrahera information i tabellstrukturer från en mängd olika dokument.
Tabellstrukturer i dokument som finansiella rapporter, lönerapporter och analyscertifikat är ofta formaterade på ett sätt som möjliggör enkel tolkning av information. De innehåller ofta även information som tabellrubrik, tabellsidfot, avsnittsrubrik och sammanfattningsrader i tabellstrukturen för bättre läsbarhet och organisation. För ett liknande dokument före den här förbättringen finns tabeller inuti AnalyzeDocument
skulle ha identifierat dessa element som celler, och det extraherade inte titlar och sidfötter som finns utanför tabellens gränser. I sådana fall var anpassad efterbearbetningslogik för att identifiera sådan information eller extrahera den separat från API:ets JSON-utdata nödvändig. Med detta tillkännagivande om förbättringar av tabellfunktionen blir utvinningen av olika aspekter av tabelldata mycket enklare.
I april 2023 introducerade Amazon Textract möjligheten att automatiskt upptäcka titlar, sidfötter, avsnittstitlar och sammanfattningsrader som finns i dokument via funktionen Tabeller. I det här inlägget diskuterar vi dessa förbättringar och ger exempel som hjälper dig att förstå och använda dem i dina dokumentbearbetningsarbetsflöden. Vi går igenom hur man använder dessa förbättringar genom kodexempel för att använda API:t och bearbeta svaret med Amazon Textract Textractor-bibliotek.
Översikt över lösningen
Följande bild visar att den uppdaterade modellen inte bara identifierar tabellen i dokumentet utan alla motsvarande tabellhuvuden och sidfötter. Detta exempel på finansiell rapport innehåller tabellrubrik, sidfot, avsnittsrubrik och sammanfattningsrader.
Förbättringen av tabellfunktionerna lägger till stöd för fyra nya element i API-svaret som låter dig extrahera vart och ett av dessa tabellelement med lätthet, och lägger till möjligheten att särskilja typen av tabell.
Tabellelement
Amazon Textract kan identifiera flera komponenter i en tabell som tabellceller och sammanslagna celler. Dessa komponenter, kända som Block
objekt, kapsla in detaljerna relaterade till komponenten, såsom gränsgeometrin, relationer och konfidenspoäng. A Block
representerar objekt som känns igen i ett dokument inom en grupp av pixlar nära varandra. Följande är de nya Bordsblock introduceras i denna förbättring:
- Tabellens titel - En ny
Block
typ kallasTABLE_TITLE
som gör att du kan identifiera titeln på en given tabell. Titlar kan vara en eller flera rader, som vanligtvis är ovanför en tabell eller inbäddade som en cell i tabellen. - Bordssidfot - En ny
Block
typ kallasTABLE_FOOTER
som gör att du kan identifiera sidfötter som är kopplade till en given tabell. Sidfot kan vara en eller flera rader som vanligtvis är under tabellen eller inbäddade som en cell i tabellen. - Avsnittets titel - En ny
Block
typ kallasTABLE_SECTION_TITLE
som gör att du kan identifiera om den upptäckta cellen är en avsnittstitel. - Sammanfattningsceller - En ny
Block
typ kallasTABLE_SUMMARY
som gör att du kan identifiera om cellen är en sammanfattningscell, t.ex. en cell för totalsummor på en lönestub.
Typer av tabeller
När Amazon Textract identifierar en tabell i ett dokument extraherar den alla detaljer i tabellen till en toppnivå Block
sorts TABLE
. Bord kan komma i olika former och storlekar. Till exempel innehåller dokument ofta tabeller som kan ha en urskiljbar tabellrubrik eller inte. För att hjälpa till att särskilja dessa typer av tabeller har vi lagt till två nya entitetstyper för en TABLE Block
: SEMI_STRUCTURED_TABLE
och STRUCTURED_TABLE
. Dessa entitetstyper hjälper dig att skilja mellan en strukturerad och en semistrukturerad tabell.
Strukturerade tabeller är tabeller som har tydligt definierade kolumnrubriker. Men med semistrukturerade tabeller kanske data inte följer en strikt struktur. Till exempel kan data visas i tabellstruktur som inte är en tabell med definierade rubriker. De nya entitetstyperna erbjuder flexibiliteten att välja vilka tabeller som ska behållas eller tas bort under efterbearbetningen. Följande bild visar ett exempel på STRUCTURED_TABLE
och SEMI_STRUCTURED_TABLE
.
Analyserar API-utdata
I det här avsnittet utforskar vi hur du kan använda Amazon Textract Textractor-bibliotek att efterbehandla API-utdata från AnalyzeDocument
med förbättringar av tabellfunktionerna. Detta gör att du kan extrahera relevant information från tabeller.
Textractor är ett bibliotek skapat för att fungera sömlöst med Amazon Textract API:er och verktyg för att därefter konvertera JSON-svaren som returneras av API:erna till programmerbara objekt. Du kan också använda den för att visualisera enheter i dokumentet och exportera data i format som CSV-filer (kommaseparerade värden). Det är avsett att hjälpa Amazon Textract-kunder att sätta upp sina efterbearbetningspipelines.
I våra exempel använder vi följande exempelsida från ett 10-K SEC-arkiveringsdokument.
Följande kod finns i vår GitHub repository. För att bearbeta detta dokument använder vi Textractor-biblioteket och importerar det för oss för att efterbehandla API-utgångarna och visualisera data:
Det första steget är att ringa Amazon Textract AnalyzeDocument
med funktionen Tabeller, betecknad med features=[TextractFeatures.TABLES]
parameter för att extrahera tabellinformationen. Observera att denna metod anropar realtid (eller synkron) Analysera dokument API, som stöder ensidiga dokument. Du kan dock använda asynkron StartDocumentAnalysis
API för att behandla flersidiga dokument (med upp till 3,000 XNUMX sidor).
Smakämnen document
objektet innehåller metadata om dokumentet som kan granskas. Observera att den känner igen en tabell i dokumentet tillsammans med andra enheter i dokumentet:
Nu när vi har API-utgången som innehåller tabellinformationen, visualiserar vi de olika elementen i tabellen med hjälp av svarsstrukturen som diskuterades tidigare:
Textractor-biblioteket framhäver de olika enheterna i den upptäckta tabellen med en annan färgkod för varje tabellelement. Låt oss dyka djupare in i hur vi kan extrahera varje element. Följande kodavsnitt visar extrahering av tabellens titel:
På samma sätt kan vi använda följande kod för att extrahera tabellens sidfötter. Lägg märke till att table_footers är en lista, vilket betyder att det kan finnas en eller flera sidfötter kopplade till tabellen. Vi kan iterera över den här listan för att se alla sidfötter som finns, och som visas i följande kodavsnitt visar utdata tre sidfötter:
Genererar data för nedströms intag
Textractor-biblioteket hjälper dig också att förenkla inmatningen av tabelldata i nedströms system eller andra arbetsflöden. Du kan till exempel exportera de extraherade tabelldata till en läsbar Microsoft Excel-fil. När detta skrivs är detta det enda formatet som stöder sammanslagna tabeller.
Vi kan också konvertera den till en Pandas DataFrame. DataFrame är ett populärt val för datamanipulation, analys och visualisering i programmeringsspråk som Python och R.
I Python är DataFrame en primär datastruktur i Pandas bibliotek. Det är flexibelt och kraftfullt och är ofta förstahandsvalet för dataanalysproffs för olika dataanalys- och ML-uppgifter. Följande kodavsnitt visar hur man konverterar den extraherade tabellinformationen till en DataFrame med en enda kodrad:
Slutligen kan vi konvertera tabelldata till en CSV-fil. CSV-filer används ofta för att mata in data i relationsdatabaser eller datalager. Se följande kod:
Slutsats
Introduktionen av dessa nya block- och enhetstyper (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
och TABLE_SUMMARY
) markerar ett betydande framsteg när det gäller utvinning av tabellstrukturer från dokument med Amazon Textract.
Dessa verktyg ger ett mer nyanserat och flexibelt tillvägagångssätt, tillgodoser både strukturerade och semistrukturerade tabeller och ser till att ingen viktig data förbises, oavsett var den är placerad i ett dokument.
Detta innebär att vi nu kan hantera olika datatyper och tabellstrukturer med ökad effektivitet och noggrannhet. När vi fortsätter att ta till oss kraften i automatisering i dokumentbearbetningsarbetsflöden kommer dessa förbättringar utan tvekan att bana väg för mer strömlinjeformade arbetsflöden, högre produktivitet och mer insiktsfull dataanalys. För mer information om AnalyzeDocument
och funktionen Tabeller, se Analysera dokument.
Om författarna
Raj Pathak är en senior lösningsarkitekt och tekniker specialiserad på finansiella tjänster (försäkring, bank, kapitalmarknader) och maskininlärning. Han är specialiserad på Natural Language Processing (NLP), Large Language Models (LLM) och Machine Learning infrastruktur och driftsprojekt (MLOps).
Anjan Biswas är en Senior AI Services Solutions Architect med fokus på AI/ML och Data Analytics. Anjan är en del av det världsomspännande AI-serviceteamet och arbetar med kunder för att hjälpa dem att förstå och utveckla lösningar på affärsproblem med AI och ML. Anjan har över 14 års erfarenhet av att arbeta med globala supply chain-, tillverknings- och detaljhandelsorganisationer och hjälper aktivt kunder att komma igång och skala på AWS AI-tjänster.
Lalita Reddi är Senior Technical Product Manager med Amazon Textract-teamet. Hon är fokuserad på att bygga maskininlärningsbaserade tjänster för AWS-kunder. På fritiden gillar Lalita att spela brädspel och åka på vandringar.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- EVM Finans. Unified Interface for Decentralized Finance. Tillgång här.
- Quantum Media Group. IR/PR förstärkt. Tillgång här.
- PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : har
- :är
- :inte
- $UPP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- förmåga
- Om oss
- ovan
- konton
- noggrannhet
- aktivt
- lagt till
- Lägger
- befordran
- byrå
- AI
- AI-tjänster
- AI / ML
- Stöd
- Alla
- tillåter
- längs
- också
- amason
- amazontext
- Amazon Web Services
- mängder
- an
- analys
- analytics
- och
- Tillkännagivande
- Vi presenterar
- vilken som helst
- api
- API: er
- visas
- tillvägagångssätt
- cirka
- April
- ÄR
- AS
- aspekter
- Tillgångar
- associerad
- At
- automatiskt
- Automation
- AWS
- Balansera
- balansräkningar
- Banking
- grund
- BE
- blir
- nedan
- Bättre
- mellan
- Miljarder
- Blockera
- ombord
- Brädspel
- båda
- Byggnad
- företag
- men
- by
- Ring
- kallas
- KAN
- kapital
- Kapitalmarknader
- fall
- Kontanter
- Celler
- vissa
- certifikat
- kedja
- val
- Välja
- klassificera
- klart
- klient
- Stäng
- koda
- Säkerheter
- färg
- Kolumn
- komma
- åtaganden
- komponent
- komponenter
- förtroende
- innehålla
- innehåller
- fortsätta
- konvertera
- Företag
- Motsvarande
- Pris
- skapas
- kredit
- beställnings
- Kunder
- datum
- dataanalys
- Data Analytics
- Datastruktur
- databaser
- Skulder
- December
- djupare
- definierade
- demonstrerar
- detaljer
- detekterad
- utveckla
- olika
- riktning
- Rabatt
- diskutera
- diskuteras
- displayer
- skilja på
- flera
- dokumentera
- dokument
- tvivlar
- grund
- under
- varje
- lätta
- lättare
- lätt
- effektivitet
- elementet
- element
- inbäddade
- omfamna
- möjliggör
- förbättrad
- förbättringar
- enheter
- enhet
- eget kapital
- ekvivalenter
- fastigheter
- beräknad
- exempel
- exempel
- excel
- erfarenhet
- utforska
- export
- extrahera
- extrakt
- verkligt
- Leverans
- Fil
- Filer
- Arkivering
- finansiella
- finansiell rapport
- finansiella tjänster
- Förnamn
- fixerad
- fast inkomst
- Flexibilitet
- flexibel
- Fokus
- fokuserade
- följer
- efter
- För
- utländska
- format
- hittade
- fyra
- från
- fonder
- Få
- resultat
- Games
- skaffa sig
- GitHub
- Ge
- ges
- Välgörenhet
- Go
- Regeringen
- grov
- Grupp
- hade
- hantera
- Har
- he
- headers
- hjälpa
- hjälpa
- hjälper
- här
- hierarkin
- högre
- Markerad
- höjdpunkter
- vandringar
- innehar
- Hur ser din drömresa ut
- How To
- Men
- html
- HTTPS
- humant
- identifierade
- identifierar
- identifiera
- Identitet
- if
- bild
- importera
- med Esport
- förbättringar
- in
- innefattar
- Inkomst
- informationen
- Infrastruktur
- installera
- försäkring
- avsedd
- tolkning
- in
- introducerade
- Beskrivning
- investering
- anropar
- IT
- artikel
- DESS
- jpg
- json
- jurisdiktioner
- Ha kvar
- känd
- Brist
- språk
- Språk
- Large
- inlärning
- mindre
- Nivå
- Bibliotek
- gillar
- linje
- rader
- Lista
- LLM
- laster
- läge
- Logiken
- längre
- förlust
- förluster
- Maskinen
- maskininlärning
- gjord
- större
- göra
- GÖR
- Framställning
- chef
- Manipulation
- Produktion
- marknad
- Marknader
- Maj..
- betyder
- metadata
- metod
- Microsoft
- kanske
- miljon
- miljoner
- ML
- MLOps
- modell
- modeller
- modifiera
- pengar
- pengar marknad
- månader
- mer
- mycket
- Natural
- Naturlig språkbehandling
- nödvändigt för
- netto
- Nya
- nlp
- Nej
- Lägga märke till..
- nu
- objektet
- objekt
- of
- erbjudanden
- Erbjudanden
- Ofta
- on
- ONE
- endast
- Verksamhet
- or
- organisation
- organisationer
- Övriga
- annat
- vår
- produktion
- utanför
- över
- sida
- pandor
- parameter
- del
- bana
- plato
- Platon Data Intelligence
- PlatonData
- Spela
- Populära
- del
- Inlägg
- kraft
- den mäktigaste
- presentera
- tidigare
- primärt
- primär
- Skriva ut
- Innan
- problem
- process
- bearbetning
- Produkt
- produktchef
- produktivitet
- yrkesmän/kvinnor
- Programmering
- programmeringsspråk
- projekt
- ge
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- sökfrågor
- verklig
- fastigheter
- realtid
- erkänt
- erkänner
- registreras
- återkommande
- Oavsett
- region
- regulatorer
- relaterad
- Förhållanden
- relevanta
- ta bort
- rapport
- Rapport
- representerar
- Obligatorisk
- respektive
- respons
- svar
- begränsa
- begränsad
- begränsningar
- resulterande
- detaljhandeln
- Granskad
- s
- försäljning
- Skala
- göra
- sömlöst
- SEC
- SEC-arkivering
- §
- Värdepapper
- säkerhet
- se
- Säljare
- senior
- September
- service
- Tjänster
- inställning
- flera
- former
- hon
- visas
- Visar
- signaturer
- signifikant
- liknande
- förenkla
- enda
- storlekar
- Lösningar
- specialiserat
- specialiserat
- igång
- Steg
- strömlinjeformad
- Strikt
- struktur
- strukturerade
- ämne
- Senare
- sådana
- SAMMANFATTNING
- leverera
- leveranskedjan
- stödja
- Stöder
- System
- bord
- uppgifter
- grupp
- Teknisk
- teknolog
- än
- den där
- Smakämnen
- deras
- Dem
- Där.
- Dessa
- de
- tredje part
- detta
- de
- tre
- Genom
- tid
- Titel
- titlar
- till
- verktyg
- toppnivå
- Totalt
- handla
- två
- Typ
- typer
- typiskt
- oss
- USAs regering
- förstå
- orealiserade förluster
- uppdaterad
- us
- användning
- Begagnade
- med hjälp av
- verktyg
- värde
- Värden
- mängd
- olika
- Kontra
- via
- visualisering
- var
- Sätt..
- we
- webb
- webbservice
- som
- bred
- kommer
- med
- inom
- ord
- Arbete
- arbetsflöden
- arbetssätt
- fungerar
- skulle
- skrivning
- år
- Om er
- Din
- zephyrnet