Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke tilpassede søk

Publisert av Platon

Følgere: 0

amazontekst er en maskinlæringstjeneste (ML) som automatisk trekker ut tekst, håndskrift og data fra skannede dokumenter. Spørringer er en funksjon som lar deg trekke ut spesifikke deler av informasjon fra varierende, komplekse dokumenter ved hjelp av naturlig språk. Egendefinerte søk gir deg en måte å tilpasse Spørringsfunksjonen for dine bedriftsspesifikke, ikke-standardiserte dokumenter, for eksempel automatiske utlånskontrakter, sjekker og lønnsoppgaver, på en selvbetjent måte. Ved å tilpasse funksjonen til å gjenkjenne de unike termene, strukturene og nøkkelinformasjonen som er spesifikk for disse dokumenttypene, kan du møte dine nedstrømsbehandlingsbehov med større presisjon og minimal menneskelig innblanding. Custom Queries er enkelt å integrere i din eksisterende Textract-pipeline, og du fortsetter å dra nytte av de fullt administrerte intelligente dokumentbehandlingsfunksjonene til Amazon Textract uten å måtte investere i ML-ekspertise eller infrastrukturadministrasjon.

I dette innlegget viser vi hvordan Custom Queries nøyaktig kan trekke ut data fra sjekker som er komplekse, ikke-standarddokumenter. I tillegg diskuterer vi fordelene med egendefinerte søk og deler beste fremgangsmåter for effektiv bruk av denne funksjonen.

Løsningsoversikt

Når du starter med et nytt bruksområde, kan du evaluere hvordan Textract Queries fungerer på dokumentene dine ved å navigere til Textract-konsoll og bruke Analyser Document Demo eller Bulk Document Uploader. Referere til Beste praksis for spørringer for å utarbeide spørsmål som gjelder for din brukssituasjon. Hvis du oppdager feil i spørringssvarene på grunn av arten av forretningsdokumentene dine, kan du bruke egendefinerte søk for å forbedre nøyaktigheten. I løpet av timer kan du kommentere eksempeldokumentene dine ved å bruke AWS-administrasjonskonsoll og trene en adapter. Adaptere er komponenter som kobles til Amazon Textracts forhåndstrente dyplæringsmodell, og tilpasser utdata basert på de kommenterte dokumentene dine. Du kan bruke adapteren for å konkludere ved å sende adapteridentifikatoren som en tilleggsparameter til Analyser dokumentforespørsler API-forespørsel.

La oss undersøke hvordan Egendefinerte søk kan forbedre utvinningsnøyaktigheten i et utfordrende virkelighetsscenario som utvinning av data fra sjekker. Den primære utfordringen ved behandling av sjekker oppstår fra deres høye grad av variasjon avhengig av type (f.eks. personlige sjekker eller kasserer), finansinstitusjon og land (f.eks. MICR-linjeformat). . Disse variasjonene kan inkludere plasseringen av betalingsmottakerens navn, beløpet i tall og ord, datoen og signaturen. Å gjenkjenne og tilpasse seg disse variasjonene kan være en kompleks oppgave under datautvinning. For å forbedre datautvinningen bruker organisasjoner ofte manuelle verifiserings- og valideringsprosesser, noe som øker kostnadene og tiden for utvinningsprosessen.

Custom Queries løser disse utfordringene ved å gjøre det mulig for deg å tilpasse de forhåndstrente Queries-funksjonene på de forskjellige variantene av sjekker. Tilpasning av den forhåndstrente funksjonen hjelper deg med å oppnå høy datautvinningsnøyaktighet på den spesifikke variasjonen av oppsett som du behandler.

I vårt brukstilfelle ønsker en finansinstitusjon å trekke ut følgende felt fra en sjekk: navn på betalingsmottaker, betalernavn, kontonummer, rutenummer, betalingsbeløp (i tall), betalingsbeløp (i ord), sjekknummer, dato og memo.

La oss utforske prosessen med å generere en adapter (komponent som tilpasser utdataene) for kontrollbehandling. Adaptere kan opprettes via konsollen eller programmatisk via API. Dette innlegget beskriver konsollopplevelsen; Hvis du imidlertid ønsker å lage adapteren programmatisk, kan du se kodeeksemplene i custom-queries-checks-blog.ipynb Jupyter notatbok (alternativ 2).

Prosessen for generering av adaptere omfatter fem trinn på høyt nivå: opprett en adapter, last opp eksempeldokumenter, merk dokumentene, tren adapteren og evaluer ytelsesberegninger.

Lag en adapter

På Amazon Textract-konsollen oppretter du en ny adapter ved å oppgi et navn, en beskrivelse og valgfrie tagger som kan hjelpe deg med å identifisere adapteren. Du har muligheten til å aktivere automatiske oppdateringer, som lar Amazon Textract oppdatere adapteren din når den underliggende Queries-funksjonen oppdateres med nye funksjoner.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Etter at adapteren er opprettet, vil du se en adapterdetaljside med en liste over trinn i Hvordan fungerer det seksjon. Denne delen vil aktivere de neste trinnene dine etter hvert som du fullfører dem sekvensielt.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Last opp eksempeldokumenter

Den innledende fasen i adaptergenerering involverer nøye valg av et passende sett med eksempeldokumenter for merknader, opplæring og testing. Vi har en mulighet til å automatisk dele opp dokumentene i test- og treningsdatasett; For denne prosessen deler vi imidlertid datasettet manuelt.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Det er viktig å merke seg at du kan konstruere en adapter med så få som fem test- og fem treningsprøver, men det er viktig å sikre at dette prøvesettet er mangfoldig og representativt for arbeidsbelastningen som oppstår i et produksjonsmiljø.

For denne opplæringen har vi kurert utvalgte sjekkdatasett som du kan nedlasting. Vårt datasett inkluderer variasjoner som personlige sjekker, kassesjekker, stimulussjekker og sjekker innebygd i lønnsslipper. Vi inkluderte også håndskrevne og trykte sjekker; sammen med variasjoner i felt som notatlinjen.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Kommenter eksempeldokumenter

Som et neste trinn merker du eksempeldokumentene ved å knytte spørsmål til de tilsvarende svarene via konsollen. Du kan starte merknader via automatisk merking eller manuell merking. Automatisk merking bruker Amazon Textract Queries for å forhåndsmerke datasettet. Vi anbefaler å bruke automatisk merking for å raskere merknadsprosessen.

For denne brukssaken for kontrollbehandling bruker vi følgende spørringer. Hvis brukssaken din involverer andre dokumenttyper, se Beste praksis for spørringer for å utarbeide spørsmål som gjelder for din brukssituasjon.

Hvem er betalingsmottaker?
Hva er sjekknummeret?
Hva er mottakeradressen?
Hvilken dato?
Hva er kontonummeret?
Hva er sjekkbeløpet i ord?
Hva er kontonavnet/betaleren/uttrekkernavnet?
Hva er dollarbeløpet?
Hva er navnet på banken/trekkeren?
Hva er bankrutingsnummeret?
Hva er MICR-linjen?
Hva er notatet?

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når den automatiske merkingsprosessen er fullført, har du muligheten til å gjennomgå og gjøre endringer i svarene som er gitt for hvert dokument. Velge Begynn gjennomgangen for å gjennomgå merknadene mot hvert bilde.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvis svaret på en spørring mangler eller er feil, kan du legge til eller redigere svaret enten ved å tegne en avgrensningsramme eller skrive inn svaret manuelt.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

For å akselerere gjennomgangen din har vi forhåndskommentert kontrolleksemplene som du kan kopiere til AWS-kontoen din. Kjør custom-queries-checks-blog.ipynb Jupyter notatbok i Amazon Textract-kodeeksempler bibliotek for å automatisk oppdatere merknadene dine.

Tren adapteren

Etter at du har gått gjennom alle eksempeldokumentene for å sikre nøyaktigheten av merknadene, kan du begynne adapteropplæringsprosessen. I løpet av dette trinnet må du angi et lagringssted der adapteren skal lagres. Varigheten av opplæringsprosessen vil variere avhengig av størrelsen på datasettet som brukes til opplæring. Trenings-APIet kan også påkalles programmatisk hvis du velger å bruke et annoteringsverktøy etter eget valg og sender de relevante inndatafilene til APIen. Referere til Egendefinerte søk for mer informasjon.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Evaluer ytelsesberegninger

Etter at adapteren har fullført opplæring, kan du vurdere ytelsen ved å undersøke evalueringsberegninger som f.eks F1-poengsum, presisjon og tilbakekalling. Du kan analysere disse beregningene enten samlet eller per dokument. Ved å bruke vårt eksempelsjekkdatasett vil du se nøyaktighetsberegningen (F1-poengsum) forbedres fra 68 % til 92 % med den trente adapteren.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I tillegg kan du teste adapterens utdata på nye dokumenter ved å velge Prøv Adapter.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Etter evalueringen kan du velge å forbedre adapterens ytelse ved enten å inkludere flere eksempeldokumenter i opplæringsdatasettet eller ved å kommentere dokumenter på nytt med poengsummer som er lavere enn terskelen din. For å kommentere dokumenter på nytt, velg Bekreft dokumenter på adapterdetaljsiden, velg dokumentet og velg Gjennomgå merknader.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Test adapteren programmert

Når opplæringen er fullført, kan du nå bruke adapteren i din Analyser Dokument API-kall. API-forespørselen ligner på Amazon Textract Queries API-forespørsel, med tillegg av AdaptersConfig gjenstand.

Du kan kjøre følgende eksempelkode eller kjøre den direkte i custom-queries-checks-blog.ipynb Jupyter notatbok. Eksempelnotatboken inneholder også kode for å sammenligne resultater mellom Amazon Textract-spørringer og Amazon Textract-tilpassede spørringer.

Lag en AdaptersConfig objekt med adapter-ID og adapterversjon, og inkludere eventuelt sidene du vil at adapteren skal brukes på:

!python -m pip install amazon-textract-caller --upgrade
!python -m pip install amazon-textract-response-parser –upgrade import boto3
from textractcaller.t_call import call_textract, Textract_Features, Query, QueriesConfig, Adapter, AdaptersConfig
import trp.trp2 as t2
from tabulate import tabulate # Create AdaptersConfig
adapter1 = Adapter(adapter_id=”111111111”, version="1", pages=["*"])
adapters_config = AdaptersConfig(adapters=[adapter1])

Lag en QueriesConfig objekt med spørringene du trente adapteren med og kaller Amazon Textract API. Merk at du også kan inkludere flere spørringer som adapteren ikke har blitt trent på. Amazon Textract vil automatisk bruke Queries-funksjonen for disse spørsmålene og ikke Custom Queries, og gir deg dermed fleksibiliteten til å bruke Custom Queries kun der det er nødvendig.

# Create QueriesConfig
queries = []
queries.append(Query(text="What is the check#?", alias="CHECK_NUMBER", pages=["*"]))
queries.append(Query(text="What is the date?", alias="DATE", pages=["*"]))
queries.append(Query(text="What is the check amount in words?", alias="CHECK_AMOUNT_WORDS", pages=["*"]))
queries.append(Query(text="What is the dollar amount?", alias="DOLLAR_AMOUNT", pages=["*"]))
queries.append(Query(text="Who is the payee?", alias="PAYEE_NAME", pages=["*"]))
queries.append(Query(text="What is the customer account#", alias="ACCOUNT_NUMBER", pages=["*"]))
queries.append(Query(text="what is the payee address?", alias="PAYEE_ADDRESS", pages=["*"]))
queries.append(Query(text="What is the bank routing number?", alias="BANK_ROUTING_NUMBER", pages=["*"]))
queries.append(Query(text="What is the memo", alias="MEMO", pages=["*"]))
queries.append(Query(text="What is the account name/payer/drawer name?", alias="ACCOUNT_NAME", pages=["*"]))
queries.append(Query(text="What is the bank name/drawee name?", alias="BANK_NAME", pages=["*"]))
queries_config = QueriesConfig(queries=queries) document_name = "<image_name>" textract_json_with_adapter = call_textract(input_document=document_name, boto3_textract_client=textract_client, features=[Textract_Features.QUERIES], queries_config=queries_config, adapters_config=adapters_config)

Til slutt tar vi opp resultatene våre for bedre lesbarhet:

def tabulate_query_answers(textract_json): d = t2.TDocumentSchema().load(textract_json) for page in d.pages: query_answers = d.get_query_answers(page=page) print(tabulate(query_answers, tablefmt="github")) tabulate_query_answers(textract_json_with_adapter)

Rydd opp

Gjør følgende for å rydde opp i ressursene dine:

På Amazon Textract-konsollen velger du Egendefinerte søk i navigasjonsruten.
Velg adapteren du vil slette.
Velg Delete.

Tilpass Amazon Textract med forretningsspesifikke dokumenter ved å bruke Custom Queries | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Adapterhåndtering

Du kan jevnlig forbedre adapterene dine ved å lage nye versjoner av en tidligere generert adapter. For å lage en ny versjon av en adapter, legger du til nye eksempeldokumenter til en eksisterende adapter, merker dokumentene og utfører opplæring. Du kan samtidig vedlikeholde flere versjoner av en adapter for bruk i utviklingsrørledningene dine. For å oppdatere adaptere sømløst, ikke gjør endringer i eller slett dine Amazon enkel lagringstjeneste (Amazon S3) bøtte der filene som trengs for adaptergenerering, lagres.

Beste praksis

Når du bruker Custom Queries på dokumentene dine, se Beste fremgangsmåter for tilpassede søk fra Amazon Textract for ytterligere hensyn og beste praksis.

Fordeler med tilpassede søk

Custom Queries gir følgende fordeler:

Forbedret dokumentforståelse – Gjennom sin evne til å trekke ut og normalisere data med høy nøyaktighet, reduserer Custom Queries avhengigheten av manuelle gjennomganger og revisjoner, og lar deg bygge mer pålitelig automatisering for dine intelligente dokumentbehandlingsarbeidsflyter.
Raskere tid til å verdsette – Når du støter på nye dokumenttyper der du trenger høyere nøyaktighet, kan du bruke Custom Queries til å generere en adapter på en selvbetjent måte i løpet av få timer. Du trenger ikke å vente på en forhåndsopplært modelloppdatering når du møter nye dokumenttyper eller varianter av eksisterende i arbeidsflyten din. Du har full kontroll over rørledningen din og trenger ikke være avhengig av Amazon Textract for å støtte de nye dokumenttypene dine.
Datasikkerhet – Custom Queries beholder eller bruker ikke dataene som brukes til å generere adaptere for å forbedre våre generelle forhåndsopplærte modeller tilgjengelig for alle kunder. Adapteren er begrenset til kundens konto eller andre kontoer som er eksplisitt utpekt av kunden, og sikrer at bare slike kontoer har tilgang til forbedringene som er gjort ved hjelp av kundens data.
Convenience – Custom Queries gir en fullstendig administrert slutningsopplevelse som ligner på Queries. Adapteropplæringen er gratis og du betaler kun for slutninger. Custom Queries sparer deg for overhead og utgifter til opplæring og drift av tilpassede modeller.

konklusjonen

I dette innlegget diskuterte vi fordelene med tilpassede søk, viste hvordan tilpassede søk nøyaktig kan trekke ut data fra sjekker, og delte beste fremgangsmåter for effektiv bruk av denne funksjonen. På bare noen få timer kan du opprette en adapter ved å bruke konsollen og bruke den i AnalyzeDocument API for dine datautvinningsbehov. For mer informasjon, se Egendefinerte søk.

Om forfatterne

Shibin Michaelraj er Sr. Product Manager med Amazon Textract-teamet. Han er fokusert på å bygge AI/ML-baserte produkter for AWS-kunder. Han er glad for å hjelpe kunder med å løse komplekse forretningsutfordringer ved å utnytte AI- og ML-teknologier. På fritiden liker han å løpe, stille inn podcaster og forbedre amatørtennisferdighetene sine.

Keith Mascarenhas er en senior løsningsarkitekt med Amazon Textract-serviceteamet. Han brenner for å løse forretningsproblemer i stor skala ved hjelp av maskinlæring, og hjelper for tiden våre verdensomspennende kunder med å automatisere dokumentbehandlingen for å oppnå raskere time to market med reduserte driftskostnader.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/

Tidstempel: November 6, 2023

Tidstempel: August 8, 2023

Publisert av Platon

Bruk en generativ AI-grunnmodell for oppsummering og spørsmålssvar ved å bruke dine egne data | Amazon Web Services

Velg spesifikke tidsserier for å varsle med Amazon Forecast

Utnytte kunstig intelligens og maskinlæring hos Parsons med AWS DeepRacer

Oppnå DevOps-modenhet med BMC AMI zAdviser Enterprise og Amazon Bedrock | Amazon Web Services

Aktiver intelligent beslutningstaking med Amazon SageMaker Canvas og Amazon QuickSight

Søk intelligent i Adobe Experience Manager-innhold ved hjelp av Amazon Kendra | Amazon Web Services

Hvordan OCX Cognition reduserte ML-modellutviklingstiden fra uker til dager og modelloppdateringstiden fra dager til sanntid ved hjelp av AWS Step Functions og Amazon SageMaker | Amazon Web Services

Oppnå bedriftsovervåking for Amazon SageMaker-modellene dine ved å bruke Fiddler

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn