Annoncering af forbedrede tabeludtræk med Amazon Textract

Genudgivet af Platon

Abonnenter: 0

amazontekst er en maskinlæringstjeneste (ML), der automatisk udtrækker tekst, håndskrift og data fra ethvert dokument eller billede. Amazon Textract har en tabelfunktion i AnalyserDokument API, der giver mulighed for automatisk at udtrække tabelstrukturer fra ethvert dokument. I dette indlæg diskuterer vi de forbedringer, der er lavet til tabeller funktion og hvordan det gør det nemmere at udtrække information i tabelstrukturer fra en lang række dokumenter.

Tabelstrukturer i dokumenter såsom finansielle rapporter, lønsedler og analysecertifikater er ofte formateret på en måde, der muliggør nem fortolkning af information. De inkluderer ofte også oplysninger såsom tabeltitel, tabelsidefod, afsnitstitel og oversigtsrækker i tabelstrukturen for bedre læsbarhed og organisering. For et lignende dokument forud for denne forbedring, funktionen Tabeller indeni AnalyzeDocument ville have identificeret disse elementer som celler, og den udtrak ikke titler og sidefødder, der er til stede uden for tabellens grænser. I sådanne tilfælde var tilpasset efterbehandlingslogik til at identificere sådanne oplysninger eller udtrække dem separat fra API'ens JSON-output nødvendig. Med denne meddelelse om forbedringer af tabelfunktionen bliver udtrækningen af forskellige aspekter af tabeldata meget enklere.

I april 2023 introducerede Amazon Textract muligheden for automatisk at registrere titler, sidefødder, sektionstitler og opsummeringsrækker, der findes i dokumenter via funktionen Tabeller. I dette indlæg diskuterer vi disse forbedringer og giver eksempler for at hjælpe dig med at forstå og bruge dem i dine dokumentbehandlingsarbejdsgange. Vi gennemgår, hvordan man bruger disse forbedringer gennem kodeeksempler for at bruge API'et og behandle svaret med Amazon Textract Textractor bibliotek.

Oversigt over løsning

Følgende billede viser, at den opdaterede model ikke kun identificerer tabellen i dokumentet, men alle tilsvarende tabelhoveder og sidefødder. Dette eksempel på finansrapportdokument indeholder tabeltitel, sidefod, afsnitstitel og oversigtsrækker.

Økonomisk rapport med tabel

Forbedringen af tabelfunktioner tilføjer understøttelse af fire nye elementer i API-svaret, der giver dig mulighed for nemt at udtrække hvert af disse tabelelementer og tilføjer muligheden for at skelne typen af tabel.

Bordelementer

Amazon Textract kan identificere flere komponenter i en tabel, såsom tabelceller og flettede celler. Disse komponenter, kendt som Blockobjekter, indkapsle detaljerne relateret til komponenten, såsom afgrænsningsgeometrien, relationer og konfidensscore. EN Block repræsenterer elementer, der genkendes i et dokument inden for en gruppe af pixels tæt på hinanden. Følgende er de nye Bordblokke introduceret i denne forbedring:

Tabel titel – En ny Block type kaldet TABLE_TITLE som gør det muligt for dig at identificere titlen på en given tabel. Titler kan være en eller flere linjer, som typisk er over en tabel eller indlejret som en celle i tabellen.
Bordfødder – En ny Block type kaldet TABLE_FOOTER der sætter dig i stand til at identificere de sidefødder, der er knyttet til en given tabel. Sidefødder kan være en eller flere linjer, der typisk er under tabellen eller indlejret som en celle i tabellen.
Afsnitstitel – En ny Block type kaldet TABLE_SECTION_TITLE der giver dig mulighed for at identificere, om den registrerede celle er en sektionstitel.
Opsummeringsceller – En ny Block type kaldet TABLE_SUMMARY der gør dig i stand til at identificere, om cellen er en oversigtscelle, såsom en celle for totaler på en lønseddel.

Økonomisk rapport med tabelelementer

Typer af borde

Når Amazon Textract identificerer en tabel i et dokument, udtrækker den alle detaljerne i tabellen til et topniveau Block type TABLE. Borde kan komme i forskellige former og størrelser. Dokumenter indeholder f.eks. ofte tabeller, der måske eller måske ikke har en synlig tabeloverskrift. For at hjælpe med at skelne mellem disse typer tabeller har vi tilføjet to nye enhedstyper for en TABLE Block: SEMI_STRUCTURED_TABLE , STRUCTURED_TABLE. Disse enhedstyper hjælper dig med at skelne mellem en struktureret og en semistruktureret tabel.

Strukturerede tabeller er tabeller, der har klart definerede kolonneoverskrifter. Men med semistrukturerede tabeller følger data muligvis ikke en streng struktur. For eksempel kan data vises i tabelstruktur, der ikke er en tabel med definerede overskrifter. De nye enhedstyper giver fleksibilitet til at vælge, hvilke tabeller der skal beholdes eller fjernes under efterbehandling. Følgende billede viser et eksempel på STRUCTURED_TABLE , SEMI_STRUCTURED_TABLE.

Bordtyper

Analyse af API-output

I dette afsnit undersøger vi, hvordan du kan bruge Amazon Textract Textractor bibliotek at efterbehandle API-outputtet af AnalyzeDocument med forbedringer af tabeller. Dette giver dig mulighed for at udtrække relevant information fra tabeller.

Textractor er et bibliotek skabt til at arbejde problemfrit med Amazon Textract API'er og hjælpeprogrammer for efterfølgende at konvertere de JSON-svar, der returneres af API'erne, til programmerbare objekter. Du kan også bruge den til at visualisere enheder på dokumentet og eksportere dataene i formater såsom kommaseparerede værdier (CSV) filer. Det er beregnet til at hjælpe Amazon Textract-kunder med at opsætte deres efterbehandlingspipelines.

I vores eksempler bruger vi følgende eksempelside fra et 10-K SEC-arkiveringsdokument.

10-K SEC arkiveringsdokument

Følgende kode kan findes i vores GitHub repository. For at behandle dette dokument gør vi brug af Textractor-biblioteket og importerer det for os for at efterbehandle API-output og visualisere dataene:

pip install amazon-textract-textractor

Det første skridt er at kalde Amazon Textract AnalyzeDocument med tabeller-funktionen, angivet med features=[TextractFeatures.TABLES] parameter for at udtrække tabeloplysningerne. Bemærk, at denne metode påberåber sig realtid (eller synkron) AnalyserDokument API, som understøtter enkeltsidede dokumenter. Du kan dog bruge asynkron StartDocumentAnalysis API til at behandle flersidede dokumenter (med op til 3,000 sider).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

document objektet indeholder metadata om dokumentet, der kan gennemgås. Bemærk, at den genkender én tabel i dokumentet sammen med andre enheder i dokumentet:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Nu hvor vi har API-outputtet, der indeholder tabeloplysningerne, visualiserer vi de forskellige elementer i tabellen ved hjælp af den tidligere diskuterede svarstruktur:

table = EntityList(document.tables[0])
document.tables[0].visualize()

10-K SEC arkiveringsdokumenttabel fremhævet

Textractor-biblioteket fremhæver de forskellige enheder i den detekterede tabel med en forskellig farvekode for hvert tabelelement. Lad os dykke dybere ned i, hvordan vi kan udvinde hvert element. Følgende kodestykke viser udtrækning af tabellens titel:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

På samme måde kan vi bruge følgende kode til at udtrække tabellens sidefødder. Bemærk, at table_footers er en liste, hvilket betyder, at der kan være en eller flere sidefødder knyttet til tabellen. Vi kan gentage denne liste for at se alle sidefødder til stede, og som vist i følgende kodestykke viser output tre sidefødder:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Generering af data til nedstrøms indtagelse

Textractor-biblioteket hjælper dig også med at forenkle indlæsningen af tabeldata i downstream-systemer eller andre arbejdsgange. For eksempel kan du eksportere de udpakkede tabeldata til en menneskelig læsbar Microsoft Excel-fil. I skrivende stund er dette det eneste format, der understøtter flettede tabeller.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabel til Excel

Vi kan også konvertere det til en Pandas DataFrame. DataFrame er et populært valg til datamanipulation, analyse og visualisering i programmeringssprog som Python og R.

I Python er DataFrame en primær datastruktur i Pandas-biblioteket. Det er fleksibelt og kraftfuldt og er ofte førstevalget for dataanalyseprofessionelle til forskellige dataanalyse- og ML-opgaver. Følgende kodestykke viser, hvordan man konverterer de udtrukne tabeloplysninger til en DataFrame med en enkelt kodelinje:

df=table[0].to_pandas()
df

Tabel til DataFrame

Til sidst kan vi konvertere tabeldataene til en CSV-fil. CSV-filer bruges ofte til at indlæse data i relationelle databaser eller datavarehuse. Se følgende kode:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Konklusion

Introduktionen af disse nye blok- og enhedstyper (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTERog TABLE_SUMMARY) markerer et betydeligt fremskridt inden for udvinding af tabelstrukturer fra dokumenter med Amazon Textract.

Disse værktøjer giver en mere nuanceret og fleksibel tilgang, der tilgodeser både strukturerede og semistrukturerede tabeller og sikrer, at ingen vigtige data overses, uanset deres placering i et dokument.

Det betyder, at vi nu kan håndtere forskellige datatyper og tabelstrukturer med øget effektivitet og nøjagtighed. Efterhånden som vi fortsætter med at omfavne automatiseringens kraft i dokumentbehandlingsarbejdsgange, vil disse forbedringer uden tvivl bane vejen for mere strømlinede arbejdsgange, højere produktivitet og mere indsigtsfuld dataanalyse. For mere information vedr AnalyzeDocument og funktionen Tabeller, se AnalyserDokument.

Om forfatterne

Raj Pathak er en senior løsningsarkitekt og -teknolog med speciale i finansielle tjenesteydelser (forsikring, bank, kapitalmarkeder) og maskinlæring. Han har specialiseret sig i Natural Language Processing (NLP), Large Language Models (LLM) og Machine Learning infrastruktur og driftsprojekter (MLOps).

Anjan Biswas er Senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del af det verdensomspændende AI-serviceteam og arbejder med kunder for at hjælpe dem med at forstå og udvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med at arbejde med globale forsyningskæder, fremstillings- og detailorganisationer og hjælper aktivt kunder med at komme i gang og skalere på AWS AI-tjenester.

Lalita Reddi er Senior Technical Product Manager hos Amazon Textract-teamet. Hun er fokuseret på at bygge maskinlæringsbaserede tjenester til AWS-kunder. I sin fritid kan Lalita lide at spille brætspil og tage på vandreture.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
EVM Finans. Unified Interface for Decentralized Finance. Adgang her.
Quantum Media Group. IR/PR forstærket. Adgang her.
PlatoAiStream. Web3 Data Intelligence. Viden forstærket. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Tidsstempel: 7. Juni, 2023

Tidsstempel: Mar 15, 2022

Genudgivet af Platon

Rejsen for PGA TOURs generative AI virtuelle assistent, fra koncept til udvikling til prototype | Amazon Web Services

Forbedre styringen af dine maskinlæringsmodeller med Amazon SageMaker

Berigende nyhedsstrømme i realtid med Refinitiv Data Library, AWS-tjenester og Amazon SageMaker

Operationaliser dine Amazon SageMaker Studio-notebooks som planlagte notebook-job

Stability AI bygger fundamentmodeller på Amazon SageMaker

Meta Llama 3-modeller er nu tilgængelige i Amazon SageMaker JumpStart | Amazon Web Services

Optrævl viden i Slack-arbejdsområder med intelligent søgning ved hjælp af Amazon Kendra Slack-stikket

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto