Trekk ut enheter fra forsikringsdokumenter ved å bruke Amazon Comprehend navngitt enhetsgjenkjenning

Publisert av Platon

Følgere: 0

Intelligent dokumentbehandling (IDP) er en vanlig brukssak for kunder på AWS. Du kan bruke Amazon Comprehend og amazontekst for en rekke brukstilfeller, alt fra dokumentutvinning, dataklassifisering og enhetsutvinning. En spesifikk bransje som bruker IDP er forsikring. De bruker IDP for å automatisere datautvinning for vanlige brukstilfeller som kravinntak, policyservice, tilbud, betalinger og neste beste handlinger. I noen tilfeller mottar imidlertid et kontor et dokument med kompleks, etikettløs informasjon. Dette er normalt vanskelig for programvare for optisk tegngjenkjenning (OCR) å fange opp, og identifisering av relasjoner og nøkkelenheter blir en utfordring. Løsningen krever ofte manuell menneskelig inntasting for å sikre høy nøyaktighet.

I dette innlegget viser vi hvordan du kan bruke kalt enhet anerkjennelse (NER) for dokumenter i deres opprinnelige formater i Amazon Comprehend for å møte disse utfordringene.

Løsningsoversikt

I et forsikringsscenario kan en forsikringsgiver motta et kravbrev fra et advokatkontor. Kravbrevet inneholder informasjon som hvilket advokatkontor som sender brevet, hvem klienten deres er og hvilke handlinger som kreves for å tilfredsstille deres forespørsler, som vist i følgende eksempel:

På grunn av de varierte plasseringene som denne informasjonen kan finnes i et etterspørselsbrev, blir disse dokumentene ofte videresendt til en individuell juster, som tar seg tid til å lese gjennom brevet for å finne all nødvendig informasjon som kreves for å fortsette med et krav. Dokumentet kan ha flere navn, adresser og forespørsler som hver må klassifiseres. Hvis klienten er blandet sammen med mottakeren, eller adressene byttes, kan forsinkelser øke og negative konsekvenser kan påvirke selskapet og kundene. Fordi det ofte er små forskjeller mellom kategorier som adresser og navn, blir dokumentene ofte behandlet av mennesker i stedet for å bruke en IDP-tilnærming.

Det foregående eksempeldokumentet har mange forekomster av overlappende enhetsverdier (enheter som deler lignende egenskaper, men som ikke er relatert). Eksempler på dette er adressen til advokatkontoret kontra adressen til forsikringsselskapet eller navnene på de forskjellige personene (advokatnavn, begunstiget, forsikringstaker). I tillegg er det posisjonsinformasjon (hvor enheten er plassert i dokumentet) som en tradisjonell algoritme for kun tekst kan gå glipp av. Derfor kan det hende at tradisjonelle gjenkjenningsteknikker ikke oppfyller kravene.

I dette innlegget bruker vi navngitt enhetsgjenkjenning i Amazon Comprehend for å løse disse utfordringene. Fordelen med å bruke denne metoden er at den tilpassede enhetsgjenkjenningsmodellen bruker både det naturlige språket og posisjonsinformasjonen til teksten for nøyaktig å trekke ut egendefinerte enheter som ellers kan bli påvirket når du flater ut et dokument, som vist i vårt forrige eksempel på overlappende enhetsverdier. For dette innlegget bruker vi et AWS kunstig opprettet datasett med juridiske rekvisisjons- og kravbrev for livsforsikring, men du kan bruke denne tilnærmingen på tvers av alle bransjer og dokumenter som kan ha nytte av romlige data i tilpasset NER-opplæring. Følgende diagram viser løsningsarkitekturen:

Vi implementerer løsningen med følgende trinn på høyt nivå:

Klon depotet som inneholder prøvedatasettet.
Lag en Amazon enkel lagringstjeneste (Amazon S3) bøtte.
Lag og tren din egendefinerte enhetsgjenkjenningsmodell.
Bruk modellen ved å kjøre en asynkron batchjobb.

Forutsetninger

Du må fullføre følgende forutsetninger for å bruke denne løsningen:

Install Python 3.8.x.
Pass på at du har pip installert.
Installer og konfigurer de AWS kommandolinjegrensesnitt (AWS CLI).
Konfigurer din AWS-legitimasjon.

Kommenter dokumentene dine

For å lære opp en egendefinert enhetsgjenkjenningsmodell som kan brukes på PDF-, Word- og rentekstdokumenter, må du først kommentere PDF-dokumenter ved hjelp av en egendefinert Amazon SageMaker Ground Truth kommentarmal som er levert av Amazon Comprehend. For instruksjoner, se Egendefinert dokumentanmerkning for å trekke ut navngitte enheter i dokumenter ved hjelp av Amazon Comprehend.

Vi anbefaler minimum 250 dokumenter og 100 merknader per enhet for å sikre god kvalitetsspådommer. Med mer treningsdata er det mer sannsynlig at du produserer en modell av høyere kvalitet.

Når du er ferdig med å kommentere, kan du trene opp en egendefinert enhetsgjenkjenningsmodell og bruke den til å trekke ut egendefinerte enheter fra PDF-, Word- og rentekstdokumenter for batch (asynkron) behandling.

For dette innlegget har vi allerede merket eksempeldatasettet vårt, og du trenger ikke å kommentere dokumentene som følger med. Men hvis du ønsker å bruke dine egne dokumenter eller justere enhetene, må du kommentere dokumentene. For instruksjoner, se Egendefinert dokumentanmerkning for å trekke ut navngitte enheter i dokumenter ved hjelp av Amazon Comprehend.

Vi trekker ut følgende enheter (som skiller mellom store og små bokstaver):

Law Firm
Law Office Address
Insurance Company
Insurance Company Address
Policy Holder Name
Beneficiary Name
Policy Number
Payout
Required Action
Sender

Datasettet som leveres er helt kunstig generert. Enhver omtale av navn, steder og hendelser er enten produkter av forfatterens fantasi eller brukes fiktivt. Enhver likhet med faktiske hendelser eller lokaliteter eller personer, levende eller døde, er helt tilfeldig.

Klon depotet

Start med å klone depotet ved å kjøre følgende kommando:

git clone https://github.com/aws-samples/aws-legal-entity-extraction

Depotet inneholder følgende filer:

aws-legal-entity-extraction /source /annotations output.manifest sample.pdf bucketnamechange.py

Lag en S3-bøtte

For å lage en S3-bøtte som skal brukes for dette eksemplet, fullfør følgende trinn:

Velg på Amazon S3-konsollen Bøtter i navigasjonsruten.
Velg Lag bøtte.
Legg merke til navnet på bøtten du nettopp opprettet.

For å gjenbruke merknadene som vi allerede har laget for datasettet, må vi endre output.manifest fil og referer til bøtta vi nettopp opprettet.

Endre filen ved å kjøre følgende kommandoer:

cd aws-legal-entity-extraction
python3 bucketnamechange.py
Enter the name of your bucket: <Enter the name of the bucket you created>

Når skriptet er ferdig kjørt, får du følgende melding:

The manifest file is updated with the correct bucket

Vi kan nå begynne å trene modellen vår.

Lag og tren modellen

For å begynne å trene modellen din, fullfør følgende trinn:

Last opp på Amazon S3-konsollen /source mappe, /annotations mappe, output.manifestog sample.pdf filer.

Bøtten din skal ligne på følgende skjermbilde.

På Amazon Comprehend-konsollen, under Tilpasning Velg navigasjonsruten Anerkjennelse av tilpasset enhet.
Velg Lag ny modell.
Til Modellnavn, skriv inn et navn.
Til Språk, velg Engelsk.
Til Egendefinert enhetstype, legg til følgende store og små bokstaver:
1. Law Firm
2. Law Office Address
3. Insurance Company
4. Insurance Company Address
5. Policy Holder Name
6. Beneficiary Name
7. Policy Number
8. Payout
9. Required Action
10. Sender
In DataspesifikasjonerFor Dataformat, plukke ut Utvidet manifest for å referere til manifestet vi opprettet da vi kommenterte dokumentene.
Til Treningsmodelltype, plukke ut PDF, Word-dokumenter.

Dette spesifiserer typen dokumenter du bruker for opplæring og slutning.

Til SageMaker Ground Truth utvidet manifestfil S3 plassering, skriv inn plasseringen av output.manifest fil i din S3-bøtte.
Til S3-prefiks for merknadsdatafiler, skriv inn stien til annotations mappe.
Til S3-prefiks for kildedokumenter, skriv inn stien til source mappe.
Til Attributtnavn, Tast inn legal-entity-label-job-labeling-job-20220104T172242.

Attributtnavnet tilsvarer navnet på merkejobben du oppretter for å kommentere dokumentene. For de forhåndsannoterte dokumentene bruker vi navnet legal-entity-label-job-labeling-job-20220104T172242. Hvis du velger å kommentere dokumentene dine, erstatter du denne verdien med navnet på kommentarjobben.

Lage en ny AWS identitets- og tilgangsadministrasjon (IAM) rolle og gi den lese- og skrivetillatelser til bøtten som inneholder alle dataene dine.
Fullfør å lage modellen (velg Autosplitt alternativ for datakilden din for å se lignende beregninger som de i de følgende skjermbildene).

Nå er gjenkjennermodellen din synlig på dashbordet med modelltreningsstatus og beregninger.

Det kan ta flere minutter å trene modellen.

Følgende skjermbilde viser modellberegningene dine når opplæringen er fullført.

Bruk den tilpassede enhetsgjenkjenningsmodellen

For å bruke de tilpassede enhetsgjenkjenningsmodellene som er trent på PDF-dokumenter, lager vi en batch-jobb for å behandle dem asynkront.

Velg på Amazon Comprehend-konsollen Analyse jobber.
Velg Lag jobb.
Under Inndata, skriv inn Amazon S3-plasseringen til de kommenterte PDF-dokumentene som skal behandles (for dette innlegget sample.pdf fil).
Til Input format, plukke ut Ett dokument per fil.
Under Utdata, skriv inn Amazon S3-plasseringen du vil at de skal fylles i. For dette innlegget oppretter vi en ny mappe kalt analysis-output i S3-bøtten som inneholder alle PDF-kildedokumenter, kommenterte dokumenter og manifest.
Bruk en IAM-rolle med tillatelser til sample.pdf mappe.

Du kan bruke rollen opprettet tidligere.

Velg Lag jobb.

Dette er en asynkron jobb, så det kan ta noen minutter å fullføre behandlingen. Når jobben er fullført får du lenke til utgangen. Når du åpner denne utgangen, ser du en serie filer som følger:

Du kan åpne filen sample.pdf.out i ditt foretrukne tekstredigeringsprogram. Hvis du søker etter Entitetsblokk, kan du finne enhetene som er identifisert i dokumentet. Følgende tabell viser et eksempel.

typen	tekst	Resultat
Forsikringsselskap	Budsjett gjensidig forsikringsselskap	0.999984086
Forsikringsselskapets adresse	9876 Infinity Aven Springfield, MI 65541	0.999982051
Advokatfirma	Bill og Carr	0.99997298
Advokatkontorets adresse	9241 13th Ave SWn Spokane, Washington (WA),99217	0.999274625
Mottakerens navn	Laura Mcdaniel	0.999972464
Forsikringshaverens navn	Keith Holt	0.999781546
Polisnummer	(# 892877136)	0.999950143
Utbetaling	$15,000	0.999980728
avsender	Angela Berry	0.999723455
Nødvendig handling	Vi ber deg videresende hele forsikringsbeløpet på Vennligst videresend en bekreftelse på vårt krav og vennligst videresend paraplypolicyinformasjonen hvis en er aktuelt. Vennligst send min sekretær all informasjon angående heftelser på hans forsikring.	0.999989449

Utvid løsningen

Du kan velge fra et utall av muligheter for hva du skal gjøre med de oppdagede enhetene, for eksempel følgende:

Ta dem inn i et backend-system
Lag en søkbar indeks basert på de utpakkede enhetene
Berik maskinlæring og analyse ved å bruke ekstraherte enhetsverdier som parametere for modelltrening og slutninger
Konfigurer backoffice-flyter og utløsere basert på oppdaget enhetsverdi (som spesifikke advokatfirmaer eller utbetalingsverdier)

Følgende diagram viser disse alternativene:

konklusjonen

Komplekse dokumenttyper kan ofte være hindringer for fullskala IDP-automatisering. I dette innlegget demonstrerte vi hvordan du kan bygge og bruke tilpassede NER-modeller direkte fra PDF-dokumenter. Denne metoden er spesielt kraftig for tilfeller der posisjonsinformasjon er spesielt relevant (lignende enhetsverdier og varierte dokumentformater). Selv om vi demonstrerte denne løsningen ved å bruke juridiske rekvisisjonsbrev i forsikring, kan du ekstrapolere denne brukssaken på tvers av helsetjenester, produksjon, detaljhandel, finansielle tjenester og mange andre bransjer.

For å lære mer om Amazon Comprehend, besøk Amazon Comprehend utviklerveiledning.

Om forfatterne

Raj Pathak er en løsningsarkitekt og teknisk rådgiver for Fortune 50 og mellomstore FSI-kunder (Banking, Insurance, Capital Markets) over hele Canada og USA. Raj spesialiserer seg på maskinlæring med applikasjoner innen dokumentutvinning, kontaktsentertransformasjon og datasyn.

Enzo Staton er en løsningsarkitekt med en lidenskap for å jobbe med bedrifter for å øke deres skykunnskap. Han jobber tett som en pålitelig rådgiver og bransjespesialist med kunder rundt om i landet.

Tidstempel: Februar 9, 2022

Tidstempel: August 29, 2022

Publisert av Platon

Generer bilder fra tekst med den stabile diffusjonsmodellen på Amazon SageMaker JumpStart

Bruk Snowflake som datakilde for å trene ML-modeller med Amazon SageMaker

Identifisere og unngå vanlige dataproblemer mens du bygger ingen kode ML-modeller med Amazon SageMaker Canvas

Hvordan AWS Prototyping gjorde det mulig for ICL-Group å bygge datasynsmodeller på Amazon SageMaker | Amazon Web Services

AWS og Mistral AI forplikter seg til å demokratisere generativ AI med et styrket samarbeid | Amazon Web Services

Beregninger for å evaluere en identitetsbekreftelsesløsning

Låser opp innovasjon: AWS og Anthropic flytter grensene for generativ AI sammen | Amazon Web Services

Utforsk Amazon SageMaker Data Wrangler-funksjoner med eksempeldatasett

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn