amazontekst er en maskinlæringstjeneste (ML) som automatisk trekker ut tekst, håndskrift og data fra ethvert dokument eller bilde. Amazon Textract har en tabellfunksjon i Analyser Dokument API som tilbyr muligheten til å automatisk trekke ut tabellstrukturer fra ethvert dokument. I dette innlegget diskuterer vi forbedringene som er gjort på tabeller funksjon og hvordan det gjør det enklere å trekke ut informasjon i tabellstrukturer fra en rekke dokumenter.
Tabellstrukturer i dokumenter som økonomiske rapporter, lønnsslipper og analysesertifikatfiler er ofte formatert på en måte som muliggjør enkel tolkning av informasjon. De inkluderer ofte også informasjon som tabelltittel, tabellbunntekst, seksjonstittel og sammendragsrader i tabellstrukturen for bedre lesbarhet og organisering. For et lignende dokument før denne forbedringen, funksjonen Tabeller innenfor AnalyzeDocument
ville ha identifisert disse elementene som celler, og den hentet ikke ut titler og bunntekster som finnes utenfor tabellens grenser. I slike tilfeller var tilpasset etterbehandlingslogikk for å identifisere slik informasjon eller trekke den ut separat fra API-ens JSON-utgang nødvendig. Med denne kunngjøringen om forbedringer av tabellfunksjonen blir utvinningen av ulike aspekter av tabelldata mye enklere.
I april 2023 introduserte Amazon Textract muligheten til automatisk å oppdage titler, bunntekster, seksjonstitler og sammendragsrader som er tilstede i dokumenter via tabellfunksjonen. I dette innlegget diskuterer vi disse forbedringene og gir eksempler for å hjelpe deg å forstå og bruke dem i dokumentbehandlingsarbeidsflytene dine. Vi går gjennom hvordan du bruker disse forbedringene gjennom kodeeksempler for å bruke API og behandle svaret med Amazon Textract Textractor-bibliotek.
Oversikt over løsning
Følgende bilde viser at den oppdaterte modellen ikke bare identifiserer tabellen i dokumentet, men alle tilsvarende tabelloverskrifter og bunntekster. Dette eksempeldokumentet for finansiell rapport inneholder tabelltittel, bunntekst, seksjonstittel og sammendragsrader.
Tabellfunksjonsforbedringen legger til støtte for fire nye elementer i API-responsen som lar deg enkelt trekke ut hvert av disse tabellelementene, og legger til muligheten til å skille tabelltypen.
Tabellelementer
Amazon Textract kan identifisere flere komponenter i en tabell, for eksempel tabellceller og sammenslåtte celler. Disse komponentene, kjent som Block
objekter, kapsler inn detaljene knyttet til komponenten, for eksempel avgrensende geometri, relasjoner og konfidenspoengsum. EN Block
representerer elementer som gjenkjennes i et dokument innenfor en gruppe piksler nær hverandre. Følgende er de nye Bordblokker introdusert i denne forbedringen:
- Tabelltittel - En ny
Block
type kaltTABLE_TITLE
som lar deg identifisere tittelen på en gitt tabell. Titler kan være én eller flere linjer, som vanligvis er over en tabell eller innebygd som en celle i tabellen. - Bordbunntekst - En ny
Block
type kaltTABLE_FOOTER
som lar deg identifisere bunntekstene knyttet til en gitt tabell. Bunntekst kan være én eller flere linjer som vanligvis er under tabellen eller innebygd som en celle i tabellen. - Seksjonstittel - En ny
Block
type kaltTABLE_SECTION_TITLE
som lar deg identifisere om den oppdagede cellen er en seksjonstittel. - Sammendragsceller - En ny
Block
type kaltTABLE_SUMMARY
som lar deg identifisere om cellen er en sammendragscelle, for eksempel en celle for totaler på en utbetalingsslipp.
Typer bord
Når Amazon Textract identifiserer en tabell i et dokument, trekker den ut alle detaljene i tabellen til et toppnivå Block
type av TABLE
. Bord kan komme i forskjellige former og størrelser. Dokumenter inneholder for eksempel ofte tabeller som kanskje eller ikke har en synlig tabelloverskrift. For å hjelpe med å skille disse typer tabeller, la vi til to nye enhetstyper for en TABLE Block
: SEMI_STRUCTURED_TABLE
og STRUCTURED_TABLE
. Disse enhetstypene hjelper deg med å skille mellom en strukturert og en semistrukturert tabell.
Strukturerte tabeller er tabeller som har klart definerte kolonneoverskrifter. Men med semistrukturerte tabeller følger kanskje ikke data en streng struktur. For eksempel kan data vises i tabellstruktur som ikke er en tabell med definerte overskrifter. De nye enhetstypene gir fleksibilitet til å velge hvilke tabeller som skal beholdes eller fjernes under etterbehandling. Følgende bilde viser et eksempel på STRUCTURED_TABLE
og SEMI_STRUCTURED_TABLE
.
Analyserer API-utdata
I denne delen utforsker vi hvordan du kan bruke Amazon Textract Textractor-bibliotek å etterbehandle API-utdataene til AnalyzeDocument
med tabellfunksjonsforbedringer. Dette lar deg trekke ut relevant informasjon fra tabeller.
Textractor er et bibliotek opprettet for å fungere sømløst med Amazon Textract APIer og verktøy for deretter å konvertere JSON-svarene som returneres av APIene til programmerbare objekter. Du kan også bruke den til å visualisere enheter på dokumentet og eksportere dataene i formater som kommadelte verdier (CSV)-filer. Det er ment å hjelpe Amazon Textract-kunder med å sette opp etterbehandlingsrørledningene deres.
I eksemplene våre bruker vi følgende eksempelside fra et 10-K SEC-arkiveringsdokument.
Følgende kode finner du i vår GitHub repository. For å behandle dette dokumentet bruker vi Textractor-biblioteket og importerer det slik at vi kan etterbehandle API-utdataene og visualisere dataene:
Det første trinnet er å ringe Amazon Textract AnalyzeDocument
med Tabeller-funksjonen, betegnet med features=[TextractFeatures.TABLES]
parameter for å trekke ut tabellinformasjonen. Merk at denne metoden påkaller sanntids (eller synkron) Analyser Dokument API, som støtter enkeltsides dokumenter. Du kan imidlertid bruke asynkron StartDocumentAnalysis
API for å behandle flersidige dokumenter (med opptil 3,000 sider).
De document
objektet inneholder metadata om dokumentet som kan gjennomgås. Legg merke til at den gjenkjenner én tabell i dokumentet sammen med andre enheter i dokumentet:
Nå som vi har API-utdataene som inneholder tabellinformasjonen, visualiserer vi de forskjellige elementene i tabellen ved å bruke responsstrukturen diskutert tidligere:
Textractor-biblioteket fremhever de ulike enhetene i den oppdagede tabellen med en annen fargekode for hvert tabellelement. La oss dykke dypere inn i hvordan vi kan trekke ut hvert element. Følgende kodebit demonstrerer å trekke ut tittelen på tabellen:
På samme måte kan vi bruke følgende kode for å trekke ut bunntekstene til tabellen. Legg merke til at table_footers er en liste, som betyr at det kan være en eller flere bunntekst knyttet til tabellen. Vi kan iterere over denne listen for å se alle bunntekstene til stede, og som vist i følgende kodebit, viser utdataene tre bunntekster:
Genererer data for nedstrøms inntak
Textractor-biblioteket hjelper deg også med å forenkle inntak av tabelldata i nedstrømssystemer eller andre arbeidsflyter. Du kan for eksempel eksportere de utpakkede tabelldataene til en lesbar Microsoft Excel-fil. Når dette skrives, er dette det eneste formatet som støtter sammenslåtte tabeller.
Vi kan også konvertere den til en Pandas DataFrame. DataFrame er et populært valg for datamanipulering, analyse og visualisering i programmeringsspråk som Python og R.
I Python er DataFrame en primær datastruktur i Pandas-biblioteket. Den er fleksibel og kraftig, og er ofte førstevalget for fagfolk innen dataanalyse for ulike dataanalyse- og ML-oppgaver. Følgende kodebit viser hvordan du konverterer den utpakkede tabellinformasjonen til en DataFrame med en enkelt kodelinje:
Til slutt kan vi konvertere tabelldataene til en CSV-fil. CSV-filer brukes ofte til å innta data i relasjonsdatabaser eller datavarehus. Se følgende kode:
konklusjonen
Introduksjonen av disse nye blokk- og enhetstypene (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
og TABLE_SUMMARY
) markerer et betydelig fremskritt i utvinning av tabellstrukturer fra dokumenter med Amazon Textract.
Disse verktøyene gir en mer nyansert og fleksibel tilnærming, og tar hensyn til både strukturerte og semistrukturerte tabeller og sørger for at ingen viktige data blir oversett, uavhengig av plasseringen i et dokument.
Dette betyr at vi nå kan håndtere ulike datatyper og tabellstrukturer med økt effektivitet og nøyaktighet. Ettersom vi fortsetter å omfavne kraften til automatisering i dokumentbehandlingsarbeidsflyter, vil disse forbedringene uten tvil bane vei for mer strømlinjeformede arbeidsflyter, høyere produktivitet og mer innsiktsfull dataanalyse. For mer informasjon om AnalyzeDocument
og Tabeller-funksjonen, se Analyser Dokument.
Om forfatterne
Raj Pathak er en senior løsningsarkitekt og -teknolog som spesialiserer seg på finansielle tjenester (forsikring, bank, kapitalmarked) og maskinlæring. Han spesialiserer seg på Natural Language Processing (NLP), Large Language Models (LLM) og Machine Learning infrastruktur og driftsprosjekter (MLOps).
Anjan Biswas er en senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del av det verdensomspennende AI-tjenesteteamet og jobber med kunder for å hjelpe dem med å forstå og utvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med å jobbe med globale forsyningskjeder, produksjons- og detaljhandelsorganisasjoner og hjelper aktivt kunder med å komme i gang og skalere på AWS AI-tjenester.
Lalita Reddi er senior teknisk produktsjef hos Amazon Textract-teamet. Hun er fokusert på å bygge maskinlæringsbaserte tjenester for AWS-kunder. På fritiden liker Lalita å spille brettspill, og gå på fotturer.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- EVM Finans. Unified Interface for desentralisert økonomi. Tilgang her.
- Quantum Media Group. IR/PR forsterket. Tilgang her.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : har
- :er
- :ikke
- $OPP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- evne
- Om oss
- ovenfor
- kontoer
- nøyaktighet
- aktivt
- la til
- Legger
- forfremmelse
- byrå
- AI
- AI-tjenester
- AI / ML
- Aid
- Alle
- tillater
- langs
- også
- Amazon
- amazontekst
- Amazon Web Services
- beløp
- an
- analyse
- analytics
- og
- Kunngjøring
- Kunngjøring
- noen
- api
- APIer
- vises
- tilnærming
- ca
- April
- ER
- AS
- aspekter
- Eiendeler
- assosiert
- At
- automatisk
- Automatisering
- AWS
- Balansere
- balanser
- Banking
- basis
- BE
- blir
- under
- Bedre
- mellom
- Milliarder
- Blokker
- borde
- Board Games
- både
- Bygning
- virksomhet
- men
- by
- ring
- som heter
- CAN
- hovedstad
- Kapitalmarkeder
- saker
- Kontanter
- Celler
- viss
- sertifikat
- kjede
- valg
- Velg
- Klassifisere
- klart
- kunde
- Lukke
- kode
- Collateral
- farge
- Kolonne
- Kom
- forpliktelser
- komponent
- komponenter
- selvtillit
- inneholde
- inneholder
- fortsette
- konvertere
- Bedriftens
- Tilsvarende
- Kostnad
- opprettet
- kreditt
- skikk
- Kunder
- dato
- dataanalyse
- Data Analytics
- Data struktur
- databaser
- Gjeld
- Desember
- dypere
- definert
- demonstrerer
- detaljer
- oppdaget
- utvikle
- forskjellig
- retning
- Rabatt
- diskutere
- diskutert
- skjermer
- skille
- diverse
- dokument
- dokumenter
- tviler
- to
- under
- hver enkelt
- lette
- enklere
- lett
- effektivitet
- element
- elementer
- innebygd
- omfavne
- muliggjør
- forbedret
- forbedringer
- enheter
- enhet
- egenkapital
- ekvivalenter
- eiendom
- anslått
- eksempel
- eksempler
- Excel
- erfaring
- utforske
- eksportere
- trekke ut
- ekstrakter
- rettferdig
- Trekk
- filet
- Filer
- Filing
- finansiell
- økonomisk Rapport
- finansielle tjenester
- Først
- fikset
- fast inntekt
- fleksibilitet
- fleksibel
- Fokus
- fokuserte
- følge
- etter
- Til
- utenlandske
- format
- funnet
- fire
- fra
- midler
- Gevinst
- inntjening
- Games
- få
- GitHub
- Gi
- gitt
- Global
- Go
- Regjeringen
- brutto
- Gruppe
- HAD
- håndtere
- Ha
- he
- overskrifter
- hjelpe
- hjelpe
- hjelper
- her
- hierarki
- høyere
- Fremhevet
- striper
- turer
- holder
- Hvordan
- Hvordan
- Men
- HTML
- HTTPS
- menneskelig
- identifisert
- identifiserer
- identifisere
- Identitet
- if
- bilde
- importere
- viktig
- forbedringer
- in
- inkludere
- Inntekt
- informasjon
- Infrastruktur
- installere
- forsikring
- tiltenkt
- tolkning
- inn
- introdusert
- Introduksjon
- investering
- påkaller
- IT
- varer
- DET ER
- jpg
- JSON
- jurisdiksjoner
- Hold
- kjent
- maling
- Språk
- språk
- stor
- læring
- mindre
- Nivå
- Bibliotek
- liker
- linje
- linjer
- Liste
- LLM
- laster
- plassering
- logikk
- lenger
- tap
- tap
- maskin
- maskinlæring
- laget
- større
- gjøre
- GJØR AT
- Making
- leder
- Manipulasjon
- produksjon
- marked
- Markets
- Kan..
- midler
- metadata
- metode
- Microsoft
- kunne
- millioner
- millioner
- ML
- MLOps
- modell
- modeller
- modifisere
- penger
- penge marked
- måneder
- mer
- mye
- Naturlig
- Natural Language Processing
- nødvendig
- nett
- Ny
- nlp
- Nei.
- Legge merke til..
- nå
- objekt
- gjenstander
- of
- tilby
- Tilbud
- ofte
- on
- ONE
- bare
- Drift
- or
- organisasjon
- organisasjoner
- Annen
- ellers
- vår
- produksjon
- utenfor
- enn
- side
- pandaer
- parameter
- del
- vraket
- plato
- Platon Data Intelligence
- PlatonData
- Spille
- Populær
- del
- Post
- makt
- kraftig
- presentere
- tidligere
- primært
- primære
- Skrive ut
- Før
- problemer
- prosess
- prosessering
- Produkt
- Produktsjef
- produktivitet
- fagfolk
- Programmering
- programmerings språk
- prosjekter
- gi
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- spørsmål
- ekte
- eiendomsmegling
- sanntids
- gjenkjent
- gjenkjenner
- registrert
- gjentakende
- Uansett
- region
- regulatorer
- i slekt
- Relasjoner
- relevant
- fjerne
- rapporterer
- Rapporter
- representerer
- påkrevd
- henholdsvis
- svar
- svar
- begrense
- begrenset
- restriksjoner
- resulterende
- detaljhandel
- anmeldt
- s
- salg
- Skala
- Resultat
- sømløst
- SEK
- SEC arkivering
- Seksjon
- Verdipapirer
- sikkerhet
- se
- selgere
- senior
- September
- tjeneste
- Tjenester
- innstilling
- flere
- figurer
- hun
- vist
- Viser
- signaturer
- signifikant
- lignende
- forenkle
- enkelt
- størrelser
- Solutions
- spesialisert
- spesialisert
- startet
- Trinn
- strømlinjeformet
- Streng
- struktur
- strukturert
- emne
- I ettertid
- slik
- SAMMENDRAG
- levere
- forsyningskjeden
- støtte
- Støtter
- Systemer
- bord
- oppgaver
- lag
- Teknisk
- teknolog
- enn
- Det
- De
- deres
- Dem
- Der.
- Disse
- de
- tredjeparts
- denne
- De
- tre
- Gjennom
- tid
- Tittel
- titler
- til
- verktøy
- øverste nivå
- Totalt
- handel
- to
- typen
- typer
- typisk
- oss
- USAs regjering
- forstå
- urealiserte tap
- oppdatert
- us
- bruke
- brukt
- ved hjelp av
- verktøy
- verdi
- Verdier
- variasjon
- ulike
- Versus
- av
- visualisering
- var
- Vei..
- we
- web
- webtjenester
- hvilken
- bred
- vil
- med
- innenfor
- ord
- Arbeid
- arbeidsflyt
- arbeid
- virker
- ville
- skriving
- år
- Du
- Din
- zephyrnet