Tilpas Amazon Textract med forretningsspecifikke dokumenter ved hjælp af brugerdefinerede forespørgsler

Genudgivet af Platon

Abonnenter: 0

amazontekst er en maskinlæringstjeneste (ML), der automatisk udtrækker tekst, håndskrift og data fra scannede dokumenter. Forespørgsler er en funktion, der giver dig mulighed for at udtrække specifikke stykker information fra varierende, komplekse dokumenter ved hjælp af naturligt sprog. Brugerdefinerede forespørgsler giver dig mulighed for at tilpasse funktionen Forespørgsler til dine virksomhedsspecifikke, ikke-standardiserede dokumenter, såsom autolånekontrakter, checks og betalingsopgørelser, på en selvbetjeningsmåde. Ved at tilpasse funktionen til at genkende de unikke termer, strukturer og nøgleoplysninger, der er specifikke for disse dokumenttyper, kan du opfylde dine downstream-behandlingsbehov med større præcision og minimal menneskelig indgriben. Custom Queries er let at integrere i din eksisterende Textract-pipeline, og du fortsætter med at drage fordel af de fuldt administrerede intelligente dokumentbehandlingsfunktioner i Amazon Textract uden at skulle investere i ML-ekspertise eller infrastrukturstyring.

I dette indlæg viser vi, hvordan tilpassede forespørgsler nøjagtigt kan udtrække data fra kontroller, der er komplekse, ikke-standardiserede dokumenter. Derudover diskuterer vi fordelene ved tilpassede forespørgsler og deler bedste praksis for effektiv brug af denne funktion.

Løsningsoversigt

Når du starter med en ny use case, kan du evaluere, hvordan Textract Queries klarer sig på dine dokumenter ved at navigere til Textract konsol og ved at bruge Analyser Document Demo eller Bulk Document Uploader. Henvise til Bedste praksis for forespørgsler til at udarbejde forespørgsler, der er relevante for din use case. Hvis du identificerer fejl i forespørgselssvarene på grund af arten af dine forretningsdokumenter, kan du bruge tilpassede forespørgsler til at forbedre nøjagtigheden. Inden for få timer kan du kommentere dine eksempeldokumenter ved hjælp af AWS Management Console og træne en adapter. Adaptere er komponenter, der tilsluttes til Amazon Textracts forudtrænede dybe læringsmodel, der tilpasser dens output baseret på dine kommenterede dokumenter. Du kan bruge adapteren til slutninger ved at overføre adapter-id'et som en ekstra parameter til Analyser dokumentforespørgsler API-anmodning.

Lad os undersøge hvordan Brugerdefinerede forespørgsler kan forbedre udtrækningsnøjagtigheden i et udfordrende scenarie i den virkelige verden, såsom udtrækning af data fra kontroller. Den primære udfordring ved behandling af checks opstår fra deres høje grad af variation afhængigt af typen (f.eks. personlige checks eller kassechecks), pengeinstitut og land (f.eks. MICR-linjeformat). . Disse variationer kan omfatte placeringen af betalingsmodtagerens navn, beløbet i tal og ord, datoen og underskriften. At genkende og tilpasse sig disse variationer kan være en kompleks opgave under dataudtræk. For at forbedre dataudtrækningen anvender organisationer ofte manuelle verifikations- og valideringsprocesser, hvilket øger omkostningerne og tiden for udtrækningsprocessen.

Custom Queries løser disse udfordringer ved at give dig mulighed for at tilpasse de forudtrænede Queries-funktioner på de forskellige variationer af checks. Tilpasning af den fortrænede funktion hjælper dig med at opnå en høj dataudtrækningsnøjagtighed på det specifikke udvalg af layouts, som du behandler.

I vores brugstilfælde ønsker et pengeinstitut at udtrække følgende felter fra en check: betalingsmodtagernavn, betalernavn, kontonummer, routingnummer, betalingsbeløb (i tal), betalingsbeløb (i ord), checknummer, dato og notat.

Lad os undersøge processen med at generere en adapter (komponent, der tilpasser outputtet) til kontrolbehandling. Adaptere kan oprettes via konsollen eller programmatisk via API'en. Dette indlæg beskriver konsoloplevelsen; men hvis du gerne vil oprette adapteren programmæssigt, skal du se kodeeksemplerne i custom-queries-checks-blog.ipynb Jupyter notesbog (mulighed 2).

Adaptergenereringsprocessen involverer fem trin på højt niveau: Opret en adapter, upload eksempeldokumenter, annotér dokumenterne, oplær adapteren og evaluer ydeevnemålinger.

Opret en adapter

På Amazon Textract-konsollen skal du oprette en ny adapter ved at angive et navn, en beskrivelse og valgfri tags, der kan hjælpe dig med at identificere adapteren. Du har mulighed for at aktivere automatiske opdateringer, hvilket gør det muligt for Amazon Textract at opdatere din adapter, når den underliggende Queries-funktion opdateres med nye muligheder.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Når adapteren er oprettet, vil du se en side med adapterdetaljer med en liste over trin i Sådan fungerer det afsnit. Dette afsnit aktiverer dine næste trin, efterhånden som du fuldfører dem sekventielt.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Upload eksempeldokumenter

Den indledende fase i adaptergenerering involverer omhyggelig udvælgelse af et passende sæt eksempeldokumenter til annotering, træning og test. Vi har en mulighed for automatisk at opdele dokumenterne i test- og træningsdatasæt; Men til denne proces opdeler vi datasættet manuelt.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Det er vigtigt at bemærke, at du kan konstruere en adapter med så få som fem test- og fem træningsprøver, men det er vigtigt at sikre, at dette prøvesæt er mangfoldigt og repræsentativt for den arbejdsbyrde, der opstår i et produktionsmiljø.

Til denne øvelse har vi sammensat prøvedatasæt, som du kan downloade. Vores datasæt omfatter variationer såsom personlige checks, kassechecks, stimuluschecks og checks indlejret i lønsedler. Vi inkluderede også håndskrevne og trykte checks; sammen med variationer i felter såsom memolinjen.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Anmærk eksempler på dokumenter

Som et næste trin kommenterer du eksempeldokumenterne ved at knytte forespørgsler til deres tilsvarende svar via konsollen. Du kan starte annotering via automatisk mærkning eller manuel mærkning. Automatisk mærkning bruger Amazon Textract-forespørgsler til at præ-mærke datasættet. Vi anbefaler at bruge automatisk mærkning for at fremskynde annoteringsprocessen.

Til denne kontrolbehandling bruger vi følgende forespørgsler. Hvis din use case involverer andre dokumenttyper, se Bedste praksis for forespørgsler til at udarbejde forespørgsler, der er relevante for din use case.

Hvem er betalingsmodtager?
Hvad er check#?
Hvad er betalingsmodtageradressen?
Hvilken dato er det?
Hvad er kontonummeret?
Hvad er checkbeløbet i ord?
Hvad er kontonavnet/betalerens/skuffens navn?
Hvad er dollarbeløbet?
Hvad er navnet på banken/trækkeren?
Hvad er bankens routingnummer?
Hvad er MICR-linjen?
Hvad er notatet?

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Når den automatiske etiketteringsprocessen er fuldført, har du mulighed for at gennemgå og redigere svarene for hvert dokument. Vælge Begynd at gennemgå for at gennemgå annoteringerne mod hvert billede.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hvis svaret på en forespørgsel mangler eller er forkert, kan du tilføje eller redigere svaret enten ved at tegne en afgrænsningsramme eller indtaste svaret manuelt.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

For at fremskynde din gennemgang har vi på forhånd kommenteret kontroleksemplerne, som du kan kopiere til din AWS-konto. Kør custom-queries-checks-blog.ipynb Jupyter notesbog inden for Amazon Textract-kodeeksempler bibliotek for automatisk at opdatere dine annoteringer.

Træn adapteren

Når du har gennemgået alle eksempeldokumenterne for at sikre nøjagtigheden af annoteringerne, kan du begynde adaptertræningsprocessen. Under dette trin skal du udpege et lagersted, hvor adapteren skal gemmes. Varigheden af træningsprocessen vil variere afhængigt af størrelsen af det datasæt, der bruges til træning. Trænings-API'en kan også påkaldes programmatisk, hvis du vælger at bruge et annotationsværktøj efter eget valg og videregiver de relevante inputfiler til API'et. Henvise til Brugerdefinerede forespørgsler for flere detaljer.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Evaluer præstationsmålinger

Efter at adapteren har gennemført træningen, kan du vurdere dens ydeevne ved at undersøge evalueringsmetrikker som f.eks f1 score, præcision og genkaldelse. Du kan analysere disse målinger enten samlet eller på et dokument pr. dokument. Ved at bruge vores prøvekontroldatasæt vil du se nøjagtighedsmetrikken (F1-score) blive forbedret fra 68 % til 92 % med den trænede adapter.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Derudover kan du teste adapterens output på nye dokumenter ved at vælge Prøv Adapter.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Efter evalueringen kan du vælge at forbedre adapterens ydeevne ved enten at inkorporere yderligere eksempeldokumenter i træningsdatasættet eller ved at genkommentere dokumenter med score, der er lavere end din tærskel. Vælg for at kommentere dokumenter igen Bekræft dokumenter på siden med adapteroplysninger, vælg dokumentet og vælg Gennemgå annoteringer.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Test adapteren programmæssigt

Når træningen er gennemført, kan du nu bruge adapteren i din AnalyserDokument API-kald. API-anmodningen ligner Amazon Textract Queries API-anmodningen med tilføjelsen af AdaptersConfig objekt.

Du kan køre følgende eksempelkode eller køre den direkte i custom-queries-checks-blog.ipynb Jupyter notesbog. Eksemplet på notesbogen indeholder også kode til at sammenligne resultater mellem Amazon Textract-forespørgsler og Amazon Textract-tilpassede forespørgsler.

Opret en AdaptersConfig objekt med adapter-id'et og adapterversionen, og inkludere eventuelt de sider, du ønsker, at adapteren skal anvendes på:

!python -m pip install amazon-textract-caller --upgrade
!python -m pip install amazon-textract-response-parser –upgrade import boto3
from textractcaller.t_call import call_textract, Textract_Features, Query, QueriesConfig, Adapter, AdaptersConfig
import trp.trp2 as t2
from tabulate import tabulate # Create AdaptersConfig
adapter1 = Adapter(adapter_id=”111111111”, version="1", pages=["*"])
adapters_config = AdaptersConfig(adapters=[adapter1])

Opret en QueriesConfig objekt med de forespørgsler, du trænede adapteren med, og kalder Amazon Textract API. Bemærk, at du også kan inkludere yderligere forespørgsler, som adapteren ikke er blevet trænet i. Amazon Textract vil automatisk bruge Queries-funktionen til disse spørgsmål og ikke Custom Queries, hvilket giver dig fleksibiliteten til kun at bruge Custom Queries, hvor det er nødvendigt.

# Create QueriesConfig
queries = []
queries.append(Query(text="What is the check#?", alias="CHECK_NUMBER", pages=["*"]))
queries.append(Query(text="What is the date?", alias="DATE", pages=["*"]))
queries.append(Query(text="What is the check amount in words?", alias="CHECK_AMOUNT_WORDS", pages=["*"]))
queries.append(Query(text="What is the dollar amount?", alias="DOLLAR_AMOUNT", pages=["*"]))
queries.append(Query(text="Who is the payee?", alias="PAYEE_NAME", pages=["*"]))
queries.append(Query(text="What is the customer account#", alias="ACCOUNT_NUMBER", pages=["*"]))
queries.append(Query(text="what is the payee address?", alias="PAYEE_ADDRESS", pages=["*"]))
queries.append(Query(text="What is the bank routing number?", alias="BANK_ROUTING_NUMBER", pages=["*"]))
queries.append(Query(text="What is the memo", alias="MEMO", pages=["*"]))
queries.append(Query(text="What is the account name/payer/drawer name?", alias="ACCOUNT_NAME", pages=["*"]))
queries.append(Query(text="What is the bank name/drawee name?", alias="BANK_NAME", pages=["*"]))
queries_config = QueriesConfig(queries=queries) document_name = "<image_name>" textract_json_with_adapter = call_textract(input_document=document_name, boto3_textract_client=textract_client, features=[Textract_Features.QUERIES], queries_config=queries_config, adapters_config=adapters_config)

Til sidst tabellerer vi vores resultater for bedre læsbarhed:

def tabulate_query_answers(textract_json): d = t2.TDocumentSchema().load(textract_json) for page in d.pages: query_answers = d.get_query_answers(page=page) print(tabulate(query_answers, tablefmt="github")) tabulate_query_answers(textract_json_with_adapter)

Ryd op

For at rydde op i dine ressourcer skal du udføre følgende trin:

På Amazon Textract-konsollen skal du vælge Brugerdefinerede forespørgsler i navigationsruden.
Vælg den adapter, du vil slette.
Vælg Slette.

Customize Amazon Textract with business-specific documents using Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Adapterstyring

Du kan jævnligt forbedre dine adaptere ved at oprette nye versioner af en tidligere genereret adapter. For at oprette en ny version af en adapter skal du tilføje nye eksempeldokumenter til en eksisterende adapter, mærke dokumenterne og udføre træning. Du kan samtidig vedligeholde flere versioner af en adapter til brug i dine udviklingspipelines. For at opdatere dine adaptere problemfrit, må du ikke foretage ændringer i eller slette dine Amazon Simple Storage Service (Amazon S3)-bøtte, hvor de nødvendige filer til adaptergenerering gemmes.

Bedste praksis

Når du bruger brugerdefinerede forespørgsler på dine dokumenter, se Bedste fremgangsmåder for tilpassede Amazon Textract-forespørgsler for yderligere overvejelser og bedste praksis.

Fordele ved tilpassede forespørgsler

Custom Queries tilbyder følgende fordele:

Forbedret dokumentforståelse – Gennem sin evne til at udtrække og normalisere data med høj nøjagtighed, reducerer Custom Queries afhængigheden af manuelle gennemgange og revisioner og giver dig mulighed for at bygge mere pålidelig automatisering til dine intelligente dokumentbehandlingsarbejdsgange.
Hurtigere tid til værdiansættelse – Når du støder på nye dokumenttyper, hvor du har brug for større nøjagtighed, kan du bruge Custom Queries til at generere en adapter på en selvbetjeningsmåde inden for få timer. Du behøver ikke at vente på en fortrænet modelopdatering, når du støder på nye dokumenttyper eller variationer af eksisterende i dit workflow. Du har fuldstændig kontrol over din pipeline og behøver ikke at være afhængig af Amazon Textract for at understøtte dine nye dokumenttyper.
Databeskyttelse – Custom Queries beholder eller bruger ikke de data, der bruges til at generere adaptere til at forbedre vores generelle fortrænede modeller, der er tilgængelige for alle kunder. Adapteren er begrænset til kundens konto eller andre konti, der udtrykkeligt er udpeget af kunden, hvilket sikrer, at kun sådanne konti kan få adgang til de forbedringer, der er foretaget ved hjælp af kundens data.
Bekvemmelighed –Custom Queries giver en fuldt administreret inferensoplevelse, der ligner forespørgsler. Adapteruddannelsen er gratis, og du betaler kun for slutninger. Custom Queries sparer dig for overhead og udgifter til træning og drift af tilpassede modeller.

Konklusion

I dette indlæg diskuterede vi fordelene ved tilpassede forespørgsler, viste, hvordan tilpassede forespørgsler nøjagtigt kan udtrække data fra kontroller, og delte bedste praksis for effektivt at bruge denne funktion. På blot et par timer kan du oprette en adapter ved hjælp af konsollen og bruge den i AnalyzeDocument API til dine dataudtræksbehov. For mere information, se Brugerdefinerede forespørgsler.

Om forfatterne

Shibin Michaelraj er Sr. Product Manager hos Amazon Textract-teamet. Han er fokuseret på at bygge AI/ML-baserede produkter til AWS-kunder. Han er begejstret for at hjælpe kunder med at løse deres komplekse forretningsudfordringer ved at udnytte AI- og ML-teknologier. I sin fritid nyder han at løbe, tune ind på podcasts og forfine sine amatørtennisfærdigheder.

Keith Mascarenhas er Sr. Solutions Architect hos Amazon Textracts serviceteam. Han brænder for at løse forretningsproblemer i stor skala ved hjælp af maskinlæring og hjælper i øjeblikket vores verdensomspændende kunder med at automatisere deres dokumentbehandling for at opnå hurtigere time to market med reducerede driftsomkostninger.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/

Tidsstempel: November 6, 2023

Tidsstempel: Mar 8, 2023

Genudgivet af Platon

Brug RStudio på Amazon SageMaker til at oprette lovmæssige indsendelser til life science-industrien

Forbered data hurtigere med PySpark og Altair kodestykker i Amazon SageMaker Data Wrangler

Onboard PaddleOCR med Amazon SageMaker Projects for MLOps til at udføre optisk tegngenkendelse på identitetsdokumenter

Amazon SageMaker Automatic Model Tuning understøtter nu tre nye færdiggørelseskriterier for hyperparameteroptimering

Konfigurer Amazon S3-adgang på tværs af konti til Amazon SageMaker-notebooks i VPC-only-tilstand ved hjælp af Amazon S3 Access Points | Amazon Web Services

Power-anbefalinger og søgning ved hjælp af en IMDb vidensgraf – Del 3

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto