amazontekst er en maskinlæringstjeneste (ML), der automatisk udtrækker tekst, håndskrift og data fra ethvert dokument eller billede. Amazon Textract har en tabelfunktion i AnalyserDokument API, der giver mulighed for automatisk at udtrække tabelstrukturer fra ethvert dokument. I dette indlæg diskuterer vi de forbedringer, der er lavet til tabeller funktion og hvordan det gør det nemmere at udtrække information i tabelstrukturer fra en lang række dokumenter.
Tabelstrukturer i dokumenter såsom finansielle rapporter, lønsedler og analysecertifikater er ofte formateret på en måde, der muliggør nem fortolkning af information. De inkluderer ofte også oplysninger såsom tabeltitel, tabelsidefod, afsnitstitel og oversigtsrækker i tabelstrukturen for bedre læsbarhed og organisering. For et lignende dokument forud for denne forbedring, funktionen Tabeller indeni AnalyzeDocument
ville have identificeret disse elementer som celler, og den udtrak ikke titler og sidefødder, der er til stede uden for tabellens grænser. I sådanne tilfælde var tilpasset efterbehandlingslogik til at identificere sådanne oplysninger eller udtrække dem separat fra API'ens JSON-output nødvendig. Med denne meddelelse om forbedringer af tabelfunktionen bliver udtrækningen af forskellige aspekter af tabeldata meget enklere.
I april 2023 introducerede Amazon Textract muligheden for automatisk at registrere titler, sidefødder, sektionstitler og opsummeringsrækker, der findes i dokumenter via funktionen Tabeller. I dette indlæg diskuterer vi disse forbedringer og giver eksempler for at hjælpe dig med at forstå og bruge dem i dine dokumentbehandlingsarbejdsgange. Vi gennemgår, hvordan man bruger disse forbedringer gennem kodeeksempler for at bruge API'et og behandle svaret med Amazon Textract Textractor bibliotek.
Oversigt over løsning
Følgende billede viser, at den opdaterede model ikke kun identificerer tabellen i dokumentet, men alle tilsvarende tabelhoveder og sidefødder. Dette eksempel på finansrapportdokument indeholder tabeltitel, sidefod, afsnitstitel og oversigtsrækker.
Forbedringen af tabelfunktioner tilføjer understøttelse af fire nye elementer i API-svaret, der giver dig mulighed for nemt at udtrække hvert af disse tabelelementer og tilføjer muligheden for at skelne typen af tabel.
Bordelementer
Amazon Textract kan identificere flere komponenter i en tabel, såsom tabelceller og flettede celler. Disse komponenter, kendt som Block
objekter, indkapsle detaljerne relateret til komponenten, såsom afgrænsningsgeometrien, relationer og konfidensscore. EN Block
repræsenterer elementer, der genkendes i et dokument inden for en gruppe af pixels tæt på hinanden. Følgende er de nye Bordblokke introduceret i denne forbedring:
- Tabel titel – En ny
Block
type kaldetTABLE_TITLE
som gør det muligt for dig at identificere titlen på en given tabel. Titler kan være en eller flere linjer, som typisk er over en tabel eller indlejret som en celle i tabellen. - Bordfødder – En ny
Block
type kaldetTABLE_FOOTER
der sætter dig i stand til at identificere de sidefødder, der er knyttet til en given tabel. Sidefødder kan være en eller flere linjer, der typisk er under tabellen eller indlejret som en celle i tabellen. - Afsnitstitel – En ny
Block
type kaldetTABLE_SECTION_TITLE
der giver dig mulighed for at identificere, om den registrerede celle er en sektionstitel. - Opsummeringsceller – En ny
Block
type kaldetTABLE_SUMMARY
der gør dig i stand til at identificere, om cellen er en oversigtscelle, såsom en celle for totaler på en lønseddel.
Typer af borde
Når Amazon Textract identificerer en tabel i et dokument, udtrækker den alle detaljerne i tabellen til et topniveau Block
type TABLE
. Borde kan komme i forskellige former og størrelser. Dokumenter indeholder f.eks. ofte tabeller, der måske eller måske ikke har en synlig tabeloverskrift. For at hjælpe med at skelne mellem disse typer tabeller har vi tilføjet to nye enhedstyper for en TABLE Block
: SEMI_STRUCTURED_TABLE
, STRUCTURED_TABLE
. Disse enhedstyper hjælper dig med at skelne mellem en struktureret og en semistruktureret tabel.
Strukturerede tabeller er tabeller, der har klart definerede kolonneoverskrifter. Men med semistrukturerede tabeller følger data muligvis ikke en streng struktur. For eksempel kan data vises i tabelstruktur, der ikke er en tabel med definerede overskrifter. De nye enhedstyper giver fleksibilitet til at vælge, hvilke tabeller der skal beholdes eller fjernes under efterbehandling. Følgende billede viser et eksempel på STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
.
Analyse af API-output
I dette afsnit undersøger vi, hvordan du kan bruge Amazon Textract Textractor bibliotek at efterbehandle API-outputtet af AnalyzeDocument
med forbedringer af tabeller. Dette giver dig mulighed for at udtrække relevant information fra tabeller.
Textractor er et bibliotek skabt til at arbejde problemfrit med Amazon Textract API'er og hjælpeprogrammer for efterfølgende at konvertere de JSON-svar, der returneres af API'erne, til programmerbare objekter. Du kan også bruge den til at visualisere enheder på dokumentet og eksportere dataene i formater såsom kommaseparerede værdier (CSV) filer. Det er beregnet til at hjælpe Amazon Textract-kunder med at opsætte deres efterbehandlingspipelines.
I vores eksempler bruger vi følgende eksempelside fra et 10-K SEC-arkiveringsdokument.
Følgende kode kan findes i vores GitHub repository. For at behandle dette dokument gør vi brug af Textractor-biblioteket og importerer det for os for at efterbehandle API-output og visualisere dataene:
Det første skridt er at kalde Amazon Textract AnalyzeDocument
med tabeller-funktionen, angivet med features=[TextractFeatures.TABLES]
parameter for at udtrække tabeloplysningerne. Bemærk, at denne metode påberåber sig realtid (eller synkron) AnalyserDokument API, som understøtter enkeltsidede dokumenter. Du kan dog bruge asynkron StartDocumentAnalysis
API til at behandle flersidede dokumenter (med op til 3,000 sider).
document
objektet indeholder metadata om dokumentet, der kan gennemgås. Bemærk, at den genkender én tabel i dokumentet sammen med andre enheder i dokumentet:
Nu hvor vi har API-outputtet, der indeholder tabeloplysningerne, visualiserer vi de forskellige elementer i tabellen ved hjælp af den tidligere diskuterede svarstruktur:
Textractor-biblioteket fremhæver de forskellige enheder i den detekterede tabel med en forskellig farvekode for hvert tabelelement. Lad os dykke dybere ned i, hvordan vi kan udvinde hvert element. Følgende kodestykke viser udtrækning af tabellens titel:
På samme måde kan vi bruge følgende kode til at udtrække tabellens sidefødder. Bemærk, at table_footers er en liste, hvilket betyder, at der kan være en eller flere sidefødder knyttet til tabellen. Vi kan gentage denne liste for at se alle sidefødder til stede, og som vist i følgende kodestykke viser output tre sidefødder:
Generering af data til nedstrøms indtagelse
Textractor-biblioteket hjælper dig også med at forenkle indlæsningen af tabeldata i downstream-systemer eller andre arbejdsgange. For eksempel kan du eksportere de udpakkede tabeldata til en menneskelig læsbar Microsoft Excel-fil. I skrivende stund er dette det eneste format, der understøtter flettede tabeller.
Vi kan også konvertere det til en Pandas DataFrame. DataFrame er et populært valg til datamanipulation, analyse og visualisering i programmeringssprog som Python og R.
I Python er DataFrame en primær datastruktur i Pandas-biblioteket. Det er fleksibelt og kraftfuldt og er ofte førstevalget for dataanalyseprofessionelle til forskellige dataanalyse- og ML-opgaver. Følgende kodestykke viser, hvordan man konverterer de udtrukne tabeloplysninger til en DataFrame med en enkelt kodelinje:
Til sidst kan vi konvertere tabeldataene til en CSV-fil. CSV-filer bruges ofte til at indlæse data i relationelle databaser eller datavarehuse. Se følgende kode:
Konklusion
Introduktionen af disse nye blok- og enhedstyper (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
og TABLE_SUMMARY
) markerer et betydeligt fremskridt inden for udvinding af tabelstrukturer fra dokumenter med Amazon Textract.
Disse værktøjer giver en mere nuanceret og fleksibel tilgang, der tilgodeser både strukturerede og semistrukturerede tabeller og sikrer, at ingen vigtige data overses, uanset deres placering i et dokument.
Det betyder, at vi nu kan håndtere forskellige datatyper og tabelstrukturer med øget effektivitet og nøjagtighed. Efterhånden som vi fortsætter med at omfavne automatiseringens kraft i dokumentbehandlingsarbejdsgange, vil disse forbedringer uden tvivl bane vejen for mere strømlinede arbejdsgange, højere produktivitet og mere indsigtsfuld dataanalyse. For mere information vedr AnalyzeDocument
og funktionen Tabeller, se AnalyserDokument.
Om forfatterne
Raj Pathak er en senior løsningsarkitekt og -teknolog med speciale i finansielle tjenesteydelser (forsikring, bank, kapitalmarkeder) og maskinlæring. Han har specialiseret sig i Natural Language Processing (NLP), Large Language Models (LLM) og Machine Learning infrastruktur og driftsprojekter (MLOps).
Anjan Biswas er Senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del af det verdensomspændende AI-serviceteam og arbejder med kunder for at hjælpe dem med at forstå og udvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med at arbejde med globale forsyningskæder, fremstillings- og detailorganisationer og hjælper aktivt kunder med at komme i gang og skalere på AWS AI-tjenester.
Lalita Reddi er Senior Technical Product Manager hos Amazon Textract-teamet. Hun er fokuseret på at bygge maskinlæringsbaserede tjenester til AWS-kunder. I sin fritid kan Lalita lide at spille brætspil og tage på vandreture.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- EVM Finans. Unified Interface for Decentralized Finance. Adgang her.
- Quantum Media Group. IR/PR forstærket. Adgang her.
- PlatoAiStream. Web3 Data Intelligence. Viden forstærket. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :har
- :er
- :ikke
- $OP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15 %
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26 %
- 30
- 31
- 7
- 8
- a
- evne
- Om
- over
- Konti
- nøjagtighed
- aktivt
- tilføjet
- Tilføjer
- fremgang
- agentur
- AI
- AI-tjenester
- AI / ML
- Støtte
- Alle
- tillader
- sammen
- også
- Amazon
- amazontekst
- Amazon Web Services
- beløb
- an
- analyse
- analytics
- ,
- Fondsbørsmeddelelse
- Annoncerer
- enhver
- api
- API'er
- vises
- tilgang
- cirka
- april
- ER
- AS
- aspekter
- Aktiver
- forbundet
- At
- automatisk
- Automation
- AWS
- Balance
- balancer
- Bank
- grundlag
- BE
- bliver
- jf. nedenstående
- Bedre
- mellem
- Billion
- Bloker
- board
- Brætspil
- både
- Bygning
- virksomhed
- men
- by
- ringe
- kaldet
- CAN
- kapital
- Kapitalmarkeder
- tilfælde
- Kontanter
- Celler
- vis
- certifikat
- kæde
- valg
- Vælg
- Klassificere
- tydeligt
- kunde
- Luk
- kode
- Collateral
- farve
- Kolonne
- Kom
- forpligtelser
- komponent
- komponenter
- tillid
- indeholder
- indeholder
- fortsæt
- konvertere
- Corporate
- Tilsvarende
- Koste
- oprettet
- kredit
- skik
- Kunder
- data
- dataanalyse
- Dataanalyse
- Datastruktur
- databaser
- Gæld
- december
- dybere
- definerede
- demonstrerer
- detaljer
- opdaget
- udvikle
- forskellige
- retning
- Rabat
- diskutere
- drøftet
- displays
- skelne
- forskelligartede
- dokumentet
- dokumenter
- tvivler
- grund
- i løbet af
- hver
- lette
- lettere
- let
- effektivitet
- element
- elementer
- indlejret
- omfavne
- muliggør
- forbedret
- forbedringer
- enheder
- enhed
- egenkapital
- ækvivalenter
- ejendom
- anslået
- eksempel
- eksempler
- Excel
- erfaring
- udforske
- eksport
- ekstrakt
- Uddrag
- retfærdig
- Feature
- File (Felt)
- Filer
- Arkivering
- finansielle
- finansiel rapport
- finansielle tjenesteydelser
- Fornavn
- fast
- fast indkomst
- Fleksibilitet
- fleksibel
- Fokus
- fokuserede
- følger
- efter
- Til
- udenlandsk
- format
- fundet
- fire
- fra
- fonde
- Gevinst
- gevinster
- Spil
- få
- GitHub
- Giv
- given
- Global
- Go
- Regering
- brutto
- gruppe
- havde
- håndtere
- Have
- he
- headers
- hjælpe
- hjælpe
- hjælper
- hende
- hierarki
- højere
- Fremhævet
- højdepunkter
- Hikes
- besidder
- Hvordan
- How To
- Men
- HTML
- HTTPS
- menneskelig
- identificeret
- identificerer
- identificere
- Identity
- if
- billede
- importere
- vigtigt
- forbedringer
- in
- omfatter
- Indkomst
- oplysninger
- Infrastruktur
- installere
- forsikring
- beregnet
- fortolkning
- ind
- introduceret
- Introduktion
- investering
- påberåber sig
- IT
- Varer
- ITS
- jpg
- json
- jurisdiktioner
- Holde
- kendt
- Mangel
- Sprog
- Sprog
- stor
- læring
- mindre
- Niveau
- Bibliotek
- synes godt om
- Line (linje)
- linjer
- Liste
- LLM
- belastninger
- placering
- logik
- længere
- off
- tab
- maskine
- machine learning
- lavet
- større
- lave
- maerker
- Making
- leder
- Håndtering
- Produktion
- Marked
- Markeder
- Kan..
- midler
- Metadata
- metode
- microsoft
- måske
- million
- millioner
- ML
- MLOps
- model
- modeller
- ændre
- penge
- pengemarked
- måned
- mere
- meget
- Natural
- Natural Language Processing
- nødvendig
- netto
- Ny
- NLP
- ingen
- Varsel..
- nu
- objekt
- objekter
- of
- tilbyde
- Tilbud
- tit
- on
- ONE
- kun
- Produktion
- or
- organisation
- organisationer
- Andet
- Ellers
- vores
- output
- uden for
- i løbet af
- side
- pandaer
- parameter
- del
- bane
- plato
- Platon Data Intelligence
- PlatoData
- Leg
- Populær
- del
- Indlæg
- magt
- vigtigste
- præsentere
- tidligere
- primært
- primære
- Forud
- problemer
- behandle
- forarbejdning
- Produkt
- produktchef
- produktivitet
- professionelle partnere
- Programmering
- programmeringssprog
- projekter
- give
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- forespørgsler
- ægte
- fast ejendom
- realtid
- anerkendt
- anerkender
- registreres
- tilbagevendende
- Uanset
- region
- lovgivningsmæssige
- relaterede
- Relationer
- relevant
- Fjern
- indberette
- Rapporter
- repræsenterer
- påkrævet
- henholdsvis
- svar
- reaktioner
- begrænse
- begrænset
- restriktioner
- resulterer
- detail
- revideret
- s
- salg
- Scale
- score
- problemfrit
- SEK
- SEC arkivering
- Sektion
- Værdipapirer
- sikkerhed
- se
- Sælgere
- senior
- september
- tjeneste
- Tjenester
- indstilling
- flere
- former
- hun
- vist
- Shows
- Underskrifter
- signifikant
- lignende
- forenkle
- enkelt
- størrelser
- Løsninger
- specialiseret
- speciale
- påbegyndt
- Trin
- strømlinet
- Streng
- struktur
- struktureret
- emne
- Efterfølgende
- sådan
- RESUMÉ
- forsyne
- forsyningskæde
- support
- Understøtter
- Systemer
- bord
- opgaver
- hold
- Teknisk
- teknolog
- end
- at
- deres
- Them
- Der.
- Disse
- de
- tredjepart
- denne
- dem
- tre
- Gennem
- tid
- Titel
- titler
- til
- værktøjer
- øverste niveau
- I alt
- handle
- to
- typen
- typer
- typisk
- os
- Amerikanske regering
- forstå
- urealiserede tab
- opdateret
- us
- brug
- anvendte
- ved brug af
- forsyningsselskaber
- værdi
- Værdier
- række
- forskellige
- versus
- via
- visualisering
- var
- Vej..
- we
- web
- webservices
- som
- bred
- vilje
- med
- inden for
- ord
- Arbejde
- arbejdsgange
- arbejder
- virker
- ville
- skrivning
- år
- Du
- Din
- zephyrnet