Intelligent dokumentbehandling med AWS AI-tjenester i forsikringsbransjen: Del 1

Publisert av Platon

Følgere: 0

Målet med intelligent dokumentbehandling (IDP) er å hjelpe organisasjonen din til å ta raskere og mer nøyaktige beslutninger ved å bruke AI for å behandle papirene dine. Denne todelte serien fremhever AWS AI-teknologiene som forsikringsselskaper kan bruke for å få fart på forretningsprosessene sine. Disse AI-teknologiene kan brukes på tvers av forsikringsbrukssaker som krav, garantier, kundekorrespondanse, kontrakter eller håndtering av tvisteløsninger. Denne serien fokuserer på en brukscase for skadebehandling i forsikringsbransjen; for mer informasjon om de grunnleggende konseptene til AWS IDP-løsningen, se følgende todelte serier.

Kravbehandling består av flere sjekkpunkter i en arbeidsflyt som kreves for å gjennomgå, verifisere autentisitet og bestemme det korrekte økonomiske ansvaret for å avgjøre et krav. Forsikringsselskaper går gjennom disse kontrollpunktene for skader før avgjørelse av kravene. Hvis et krav går gjennom alle disse sjekkpunktene uten problemer, godkjenner forsikringsselskapet det og behandler enhver betaling. Imidlertid kan de kreve ytterligere støtteinformasjon for å avgjøre et krav. Denne skadebehandlingsprosessen er ofte manuell, noe som gjør den dyr, feilutsatt og tidkrevende. Forsikringskunder kan automatisere denne prosessen ved å bruke AWS AI-tjenester for å automatisere dokumentbehandlingspipelinen for skadebehandling.

I denne todelte serien tar vi deg gjennom hvordan du kan automatisere og intelligent behandle dokumenter i stor skala ved å bruke AWS AI-tjenester for en brukssak for behandling av forsikringsskader.

Intelligent dokumentbehandling med AWS AI og Analytics-tjenester i forsikringsbransjen

Løsningsoversikt

Følgende diagram representerer hvert trinn som vi vanligvis ser i en IDP-rørledning. Vi går gjennom hvert av disse stadiene og hvordan de kobles til trinnene som er involvert i en kravsøknadsprosess, fra når en søknad sendes inn, til å undersøke og avslutte søknaden. I dette innlegget dekker vi de tekniske detaljene i datafangst-, klassifiserings- og utvinningsstadiene. I Del 2, utvider vi dokumentutvinningsstadiet og fortsetter å dokumentere berikelse, gjennomgang og verifisering, og utvider løsningen til å gi analyser og visualiseringer for en brukssak av kravsvindel.

Det følgende arkitekturdiagrammet viser de forskjellige AWS-tjenestene som brukes under fasene av IDP-rørledningen i henhold til forskjellige stadier av en kravbehandlingsapplikasjon.

IDP-arkitekturdiagram

Løsningen bruker følgende nøkkeltjenester:

amazontekst er en maskinlæringstjeneste (ML) som automatisk trekker ut tekst, håndskrift og data fra skannede dokumenter. Det går utover enkel optisk tegngjenkjenning (OCR) å identifisere, forstå og trekke ut data fra skjemaer og tabeller. Amazon Textract bruker ML til å lese og behandle alle typer dokumenter, nøyaktig trekke ut tekst, håndskrift, tabeller og andre data uten manuell innsats.
Amazon Comprehend er en naturlig språkbehandlingstjeneste (NLP) som bruker ML for å trekke ut innsikt fra tekst. Amazon Comprehend kan oppdage enheter som person, plassering, dato, mengde og mer. Den kan også oppdage det dominerende språket, personlig identifiserbar informasjon (PII) informasjon og klassifisere dokumenter i deres relevante klasse.
Amazon Augmented AI (Amazon A2I) er en ML-tjeneste som gjør det enkelt å bygge arbeidsflytene som kreves for menneskelig vurdering. Amazon A2I bringer menneskelig vurdering til alle utviklere, fjerner de udifferensierte tunge løftene knyttet til å bygge menneskelige vurderingssystemer eller administrere et stort antall menneskelige anmeldere. Amazon A2I integrerer begge med amazontekst og Amazon Comprehend for å gi muligheten til å introdusere menneskelig gjennomgang eller validering i IDP-arbeidsflyten.

Forutsetninger

I de følgende avsnittene går vi gjennom de forskjellige tjenestene knyttet til de tre første fasene av arkitekturen, dvs. datafangst-, klassifiserings- og utvinningsfasene.

Se vår GitHub repository for fullstendige kodeeksempler sammen med dokumenteksemplene i kravbehandlingspakken.

Datafangstfase

Krav og tilhørende dokumenter kan komme gjennom ulike kanaler, for eksempel faks, e-post, en administrasjonsportal og mer. Du kan lagre disse dokumentene i en svært skalerbar og holdbar lagring som Amazon enkel lagringstjeneste (Amazon S3). Disse dokumentene kan være av ulike typer, som PDF, JPEG, PNG, TIFF og mer. Dokumenter kan komme i ulike formater og oppsett, og kan komme fra ulike kanaler til datalageret.

Klassifiseringsfase

I dokumentklassifiseringsstadiet kan vi kombinere Amazon Comprehend med Amazon Textract for å konvertere tekst til dokumentkontekst for å klassifisere dokumentene som er lagret i datafangststadiet. Vi kan deretter bruke tilpasset klassifisering i Amazon Comprehend for å organisere dokumenter i klasser som vi definerte i kravsbehandlingspakken. Egendefinert klassifisering er også nyttig for å automatisere dokumentverifiseringsprosessen og identifisere eventuelle manglende dokumenter fra pakken. Det er to trinn i tilpasset klassifisering, som vist i arkitekturdiagrammet:

Trekk ut tekst ved hjelp av Amazon Textract fra alle dokumentene i datalagringen for å forberede treningsdata for den tilpassede klassifisereren.
Tren en tilpasset Amazon Comprehend-klassifiseringsmodell (også kalt en dokument klassifikator) for å gjenkjenne interesseklassene basert på tekstinnholdet.

Dokumentklassifisering av forsikringsskadepakke

Etter at den tilpassede klassifiseringsmodellen Amazon Comprehend er opplært, kan vi bruke sanntidsendepunktet til å klassifisere dokumenter. Amazon Comprehend returnerer alle klasser av dokumenter med en konfidenspoengsum knyttet til hver klasse i en rekke nøkkelverdi-par (Doc_name - Confidence_score). Vi anbefaler å gå gjennom den detaljerte dokumentklassifiseringseksempelkoden på GitHub.

Utvinningsfase

I utvinningsfasen trekker vi ut data fra dokumenter ved hjelp av Amazon Textract og Amazon Comprehend. For dette innlegget, bruk følgende eksempeldokumenter i skadebehandlingspakken: et Center of Medicaid and Medicare Services (CMS)-1500 kravskjema, førerkort og forsikrings-ID og faktura.

Trekk ut data fra et CMS-1500-kravskjema

CMS-1500-skjemaet er standardkravskjemaet som brukes av en ikke-institusjonell leverandør eller leverandør for å fakturere Medicare-operatører.

Det er viktig å behandle CMS-1500-skjemaet nøyaktig, ellers kan det forsinke kravprosessen eller forsinke betaling fra transportøren. Med Amazon Textract AnalyzeDocument API, kan vi fremskynde utvinningsprosessen med høyere nøyaktighet for å trekke ut tekst fra dokumenter for å forstå ytterligere innsikt i kravskjemaet. Følgende er eksempeldokument av et CMS-1500-kravskjema.

Et CMS1500-kravskjema

Vi bruker nå AnalyzeDocument API for å trekke ut to FeatureTypes, FORMS og TABLES, fra dokumentet:

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

Følgende resultater er forkortet for bedre lesbarhet. For mer detaljert informasjon, se vår GitHub repo.

De FORMS utvinning er identifisert som nøkkelverdi-par.

De TABLES uttrekk inneholder celler, sammenslåtte celler og kolonneoverskrifter i en oppdaget tabell i kravskjemaet.

Tabeller uttak fra CMS1500 skjema

Trekk ut data fra ID-dokumenter

For identitetsdokumenter som en forsikrings-ID, som kan ha forskjellige oppsett, kan vi bruke Amazon Textract AnalyzeDocument API. Vi bruker FeatureType FORMS som konfigurasjonen for AnalyzeDocument API for å trekke ut nøkkelverdi-parene fra forsikrings-ID-en (se følgende eksempel):

Kjør følgende kode:

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

Vi får nøkkelverdi-parene i resultatmatrisen, som vist i følgende skjermbilde.

For ID-dokumenter som et amerikansk førerkort eller amerikansk pass, gir Amazon Textract spesialisert støtte for automatisk å trekke ut nøkkelord uten behov for maler eller formater, i motsetning til det vi så tidligere for forsikrings-ID-eksemplet. Med AnalyzeID API kan bedrifter raskt og nøyaktig trekke ut informasjon fra ID-dokumenter som har forskjellige maler eller formater. De AnalyzeID API returnerer to kategorier av datatyper:

Nøkkelverdipar tilgjengelig på ID-en, for eksempel fødselsdato, utstedelsesdato, ID-nummer, klasse og begrensninger
Underforståtte felt på dokumentet som kanskje ikke har eksplisitte nøkler knyttet til seg, for eksempel navn, adresse og utsteder

Vi bruker følgende eksempel på amerikanske førerkort fra vår skadebehandlingspakke.

Kjør følgende kode:

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

Følgende skjermbilde viser resultatet vårt.

Fra resultatskjermbildet kan du observere at enkelte nøkler presenteres som ikke var i selve førerkortet. For eksempel, Veteran er ikke en nøkkel som finnes i lisensen; det er imidlertid en forhåndsutfylt nøkkelverdi som AnalyzeID støtter, på grunn av forskjellene som finnes i lisenser mellom stater.

Trekk ut data fra fakturaer og kvitteringer

Ligner på AnalyzeID API, den AnalyzeExpense API gir spesialisert støtte for fakturaer og kvitteringer for å trekke ut relevant informasjon som leverandørnavn, delsum og totalbeløp og mer fra ethvert format av fakturadokumenter. Du trenger ingen mal eller konfigurasjon for utvinning. Amazon Textract bruker ML for å forstå konteksten til tvetydige fakturaer samt kvitteringer.

Følgende er et eksempel på en sykeforsikringsfaktura.

Et eksempel på forsikringsfaktura

Vi bruker AnalyzeExpense API for å se en liste over standardiserte felt. Felt som ikke gjenkjennes som standardfelt, kategoriseres som OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

Vi får følgende liste over felt som nøkkel-verdi-par (se skjermbilde til venstre) og hele raden med individuelle ordrelinjer som er kjøpt (se skjermbilde til høyre) i resultatene.

Intelligent dokumentbehandling med AWS AI-tjenester i forsikringsbransjen: Del 1 PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

I dette innlegget viste vi frem de vanlige utfordringene ved behandling av krav, og hvordan vi kan bruke AWS AI-tjenester til å automatisere en intelligent dokumentbehandlingspipeline for automatisk å avgjøre et krav. Vi så hvordan man klassifiserer dokumenter i ulike dokumentklasser ved å bruke en tilpasset Amazon Comprehend-klassifisering, og hvordan man bruker Amazon Textract til å trekke ut ustrukturerte, semistrukturerte, strukturerte og spesialiserte dokumenttyper.

In Del 2, utvider vi utvinningsfasen med Amazon Textract. Vi bruker også Amazon Comprehend forhåndsdefinerte enheter og tilpassede enheter for å berike dataene, og vise hvordan IDP-pipelinen kan utvides til å integreres med analyse- og visualiseringstjenester for videre behandling.

Vi anbefaler å gå gjennom sikkerhetsdelene i Amazon Textract, Amazon forstår, og Amazon A2I dokumentasjon og følge de gitte retningslinjene. For å lære mer om prissettingen av løsningen, se prisdetaljene til Amazon Textract, Amazon Comprehendog Amazon A2I.

Om forfatterne

Chinmayee Rane er en AI/ML-spesialistløsningsarkitekt hos Amazon Web Services. Hun brenner for anvendt matematikk og maskinlæring. Hun fokuserer på å designe intelligente dokumentbehandlingsløsninger for AWS-kunder. Utenom jobben liker hun salsa og bachata dans.

Sonali Sahu leder teamet for Intelligent Document Processing AI/ML Solutions Architect hos Amazon Web Services. Hun er en lidenskapelig teknofil og liker å jobbe med kunder for å løse komplekse problemer ved hjelp av innovasjon. Hennes kjernefokusområde er kunstig intelligens og maskinlæring for intelligent dokumentbehandling.

Tim Condello er senior AI/ML spesialistløsningsarkitekt hos Amazon Web Services. Hans fokus er naturlig språkbehandling og datasyn. Tim liker å ta kundeideer og gjøre dem om til skalerbare løsninger.

Tidstempel: November 3, 2022November 4, 2022

Tidstempel: April 3, 2024

Intelligent dokumentbehandling med AWS AI-tjenester i forsikringsbransjen: Del 1

Publisert av Platon

Løsningsoversikt

Forutsetninger

Datafangstfase

Klassifiseringsfase

Utvinningsfase

Trekk ut data fra et CMS-1500-kravskjema

Trekk ut data fra ID-dokumenter

Trekk ut data fra fakturaer og kvitteringer

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Gjenoppfinne dataopplevelsen: Bruk generativ AI og moderne dataarkitektur for å låse opp innsikt | Amazon Web Services

"ID + Selfie" - Forbedrer digital identitetsverifisering ved hjelp av AWS

Amazon Rekognition introduserer Streaming Video Events for å gi sanntidsvarsler på live videostrømmer

Vi introduserer Amazon CodeWhisperer, den ML-drevne kodefølgen

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn