Intelligent dokumentbehandling med AWS AI-tjenester i forsikringsbranchen: Del 1

Genudgivet af Platon

Abonnenter: 0

Målet med intelligent dokumentbehandling (IDP) er at hjælpe din organisation med at træffe hurtigere og mere præcise beslutninger ved at anvende AI til at behandle dit papirarbejde. Denne todelte serie fremhæver AWS AI-teknologierne, som forsikringsselskaber kan bruge til at fremskynde deres forretningsprocesser. Disse kunstig intelligens-teknologier kan bruges på tværs af forsikringssager, såsom krav, tegning, kundekorrespondance, kontrakter eller håndtering af konfliktløsninger. Denne serie fokuserer på en skadebehandlingssag i forsikringsbranchen; for mere information om de grundlæggende begreber i AWS IDP-løsningen, se følgende to-delt serie.

Behandling af krav består af flere kontrolpunkter i en arbejdsgang, der er påkrævet for at gennemgå, verificere ægtheden og bestemme det korrekte økonomiske ansvar for at afgøre et krav. Forsikringsselskaber gennemgår disse kontrolpunkter for skader før afgørelsen af skaderne. Hvis et krav går igennem alle disse kontrolpunkter uden problemer, godkender forsikringsselskabet det og behandler enhver betaling. De kan dog kræve yderligere understøttende oplysninger for at afgøre et krav. Denne påstandsbehandlingsproces er ofte manuel, hvilket gør den dyr, fejltilbøjelig og tidskrævende. Forsikringskunder kan automatisere denne proces ved hjælp af AWS AI-tjenester til at automatisere dokumentbehandlingspipelinen til skadesbehandling.

I denne todelte serie tager vi dig igennem, hvordan du kan automatisere og intelligent behandle dokumenter i stor skala ved hjælp af AWS AI-tjenester til en brugssag til behandling af forsikringsskader.

Intelligent dokumentbehandling med AWS AI og Analytics-tjenester i forsikringsbranchen

Løsningsoversigt

Følgende diagram repræsenterer hver fase, som vi typisk ser i en IDP-pipeline. Vi gennemgår hver af disse stadier, og hvordan de forbindes med de trin, der er involveret i en kravansøgningsproces, fra når en ansøgning indsendes, til undersøgelse og lukning af ansøgningen. I dette indlæg dækker vi de tekniske detaljer i datafangst-, klassificerings- og ekstraktionsstadierne. I del 2, udvider vi dokumentudtrækningsstadiet og fortsætter med at dokumentere berigelse, gennemgang og verifikation og udvider løsningen til at levere analyser og visualiseringer til et tilfælde af kravsvindel.

Det følgende arkitekturdiagram viser de forskellige AWS-tjenester, der bruges under faserne af IDP-pipelinen i henhold til forskellige stadier af en ansøgning om behandling af krav.

IDP arkitektur diagram

Løsningen bruger følgende nøgletjenester:

amazontekst er en maskinlæringstjeneste (ML), der automatisk udtrækker tekst, håndskrift og data fra scannede dokumenter. Det går ud over simpel optisk tegngenkendelse (OCR) at identificere, forstå og udtrække data fra formularer og tabeller. Amazon Textract bruger ML til at læse og behandle enhver type dokumenter, præcist udtrække tekst, håndskrift, tabeller og andre data uden manuel indsats.
Amazon Comprehend er en NLP-tjeneste (natural language processing), der bruger ML til at udtrække indsigt fra tekst. Amazon Comprehend kan registrere enheder såsom person, placering, dato, mængde og mere. Det kan også registrere det dominerende sprog, personligt identificerbare oplysninger (PII) oplysninger og klassificere dokumenter i deres relevante klasse.
Amazon Augmented AI (Amazon A2I) er en ML-tjeneste, der gør det nemt at opbygge de arbejdsgange, der kræves til menneskelig gennemgang. Amazon A2I bringer menneskelig anmeldelse til alle udviklere, fjerner de udifferentierede tunge løft, der er forbundet med at bygge menneskelige anmeldelsessystemer eller administrere et stort antal menneskelige anmeldere. Amazon A2I integrerer begge med amazontekst , Amazon Comprehend at give mulighed for at indføre menneskelig gennemgang eller validering inden for IDP-arbejdsgangen.

Forudsætninger

I de følgende afsnit gennemgår vi de forskellige tjenester, der vedrører de første tre faser af arkitekturen, dvs. datafangst-, klassificerings- og udtræksfaserne.

Se vores GitHub repository for fulde kodeeksempler sammen med dokumenteksemplerne i kravbehandlingspakken.

Dataopsamlingsfase

Krav og dets understøttende dokumenter kan komme gennem forskellige kanaler, såsom fax, e-mail, en adminportal og mere. Du kan gemme disse dokumenter i en meget skalerbar og holdbar opbevaring som Amazon Simple Storage Service (Amazon S3). Disse dokumenter kan være af forskellige typer, såsom PDF, JPEG, PNG, TIFF og mere. Dokumenter kan komme i forskellige formater og layouts og kan komme fra forskellige kanaler til datalageret.

Klassifikationsfase

I dokumentklassificeringsstadiet kan vi kombinere Amazon Comprehend med Amazon Textract for at konvertere tekst til dokumentkontekst for at klassificere de dokumenter, der er gemt i datafangstfasen. Vi kan derefter bruge tilpasset klassificering i Amazon Comprehend til at organisere dokumenter i klasser, som vi har defineret i kravsbehandlingspakken. Brugerdefineret klassificering er også nyttig til at automatisere dokumentbekræftelsesprocessen og identificere eventuelle manglende dokumenter fra pakken. Der er to trin i brugerdefineret klassificering, som vist i arkitekturdiagrammet:

Udtræk tekst ved hjælp af Amazon Textract fra alle dokumenterne i datalageret for at forberede træningsdata til den tilpassede klassificering.
Træn en tilpasset Amazon Comprehend-klassifikationsmodel (også kaldet en dokumentet klassifikator) for at genkende interesseklasserne baseret på tekstindholdet.

Dokumentklassificering af forsikringsskadepakke

Efter at Amazon Comprehend brugerdefinerede klassifikationsmodellen er trænet, kan vi bruge realtidsslutpunktet til at klassificere dokumenter. Amazon Comprehend returnerer alle klasser af dokumenter med en konfidensscore knyttet til hver klasse i en række nøgleværdi-par (Doc_name - Confidence_score). Vi anbefaler at gennemgå den detaljerede dokumentklassifikationseksempelkode på GitHub.

Udvindingsfase

I udtræksfasen udtrækker vi data fra dokumenter ved hjælp af Amazon Textract og Amazon Comprehend. Til dette indlæg skal du bruge følgende eksempeldokumenter i kravsbehandlingspakken: en Center of Medicaid and Medicare Services (CMS)-1500-kravsformular, kørekort og forsikrings-id og faktura.

Udtræk data fra en CMS-1500-kravsformular

CMS-1500-formularen er standardkravsformularen, der bruges af en ikke-institutionel udbyder eller leverandør til at fakturere Medicare-selskaber.

Det er vigtigt at behandle CMS-1500-formularen nøjagtigt, ellers kan det forsinke reklamationsprocessen eller forsinke betaling fra transportøren. Med Amazon Textract AnalyzeDocument API kan vi fremskynde udtrækningsprocessen med højere nøjagtighed for at udtrække tekst fra dokumenter for at forstå yderligere indsigt i kravformularen. Følgende er et eksempel på en CMS-1500-kravsformular.

En CMS1500-kravsformular

Vi bruger nu AnalyzeDocument API til at udtrække to FeatureTypes, FORMS , TABLES, fra dokumentet:

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

Følgende resultater er blevet forkortet for bedre læsbarhed. For mere detaljeret information, se vores GitHub repo.

FORMS ekstraktion identificeres som nøgleværdi-par.

TABLES udtrækning indeholder celler, flettede celler og kolonneoverskrifter i en fundet tabel i kravformularen.

Tabeller udtræk fra CMS1500 form

Udtræk data fra ID-dokumenter

Til identitetsdokumenter som et forsikrings-id, som kan have forskellige layouts, kan vi bruge Amazon Textract AnalyzeDocument API. Vi bruger FeatureType FORMS som konfigurationen for AnalyzeDocument API til at udtrække nøgleværdi-parrene fra forsikrings-id'et (se følgende eksempel):

Kør følgende kode:

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

Vi får nøgleværdi-parrene i resultatarrayet, som vist på det følgende skærmbillede.

For ID-dokumenter som et amerikansk kørekort eller amerikansk pas, giver Amazon Textract specialiseret support til automatisk at udtrække nøgleudtryk uden behov for skabeloner eller formater, i modsætning til hvad vi så tidligere for forsikrings-id-eksemplet. Med AnalyzeID API kan virksomheder hurtigt og præcist udtrække information fra ID-dokumenter, der har forskellige skabeloner eller formater. Det AnalyzeID API returnerer to kategorier af datatyper:

Nøgleværdipar tilgængelige på ID'et, såsom fødselsdato, udstedelsesdato, ID-nummer, klasse og begrænsninger
Underforståede felter på dokumentet, der muligvis ikke har eksplicitte nøgler knyttet til sig, såsom navn, adresse og udsteder

Vi bruger følgende eksempel på et amerikansk kørekort fra vores kravsbehandlingspakke.

Kør følgende kode:

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

Følgende skærmbillede viser vores resultat.

Fra resultaternes skærmbillede kan du se, at visse nøgler præsenteres, som ikke var i selve kørekortet. For eksempel, Veteran er ikke en nøgle fundet i licensen; dog er det en forududfyldt nøgleværdi, der AnalyzeID understøtter på grund af de forskelle, der findes i licenser mellem stater.

Udtræk data fra fakturaer og kvitteringer

Svarende til AnalyzeID API, den AnalyzeExpense API giver specialiseret support til fakturaer og kvitteringer for at udtrække relevant information såsom leverandørnavn, subtotal og samlede beløb og mere fra ethvert format af fakturadokumenter. Du behøver ikke nogen skabelon eller konfiguration til ekstraktion. Amazon Textract bruger ML til at forstå konteksten af tvetydige fakturaer samt kvitteringer.

Følgende er et eksempel på en sygeforsikringsfaktura.

Et eksempel på en forsikringsfaktura

Vi bruger AnalyzeExpense API for at se en liste over standardiserede felter. Felter, der ikke genkendes som standardfelter, kategoriseres som OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

Vi får følgende liste over felter som nøgleværdi-par (se skærmbillede til venstre) og hele rækken af individuelle indkøbte linjeposter (se skærmbillede til højre) i resultaterne.

Intelligent dokumentbehandling med AWS AI-tjenester i forsikringsbranchen: Del 1 PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

I dette indlæg viste vi de almindelige udfordringer i sagsbehandlingen, og hvordan vi kan bruge AWS AI-tjenester til at automatisere en intelligent dokumentbehandlingspipeline for automatisk at afgøre et krav. Vi så, hvordan man klassificerer dokumenter i forskellige dokumentklasser ved hjælp af en tilpasset Amazon Comprehend-klassifikator, og hvordan man bruger Amazon Textract til at udtrække ustrukturerede, semi-strukturerede, strukturerede og specialiserede dokumenttyper.

In del 2, udvider vi udvindingsfasen med Amazon Textract. Vi bruger også Amazon Comprehend foruddefinerede entiteter og brugerdefinerede enheder til at berige dataene og vise, hvordan IDP-pipelinen kan udvides til at integreres med analyse- og visualiseringstjenester til yderligere behandling.

Vi anbefaler at gennemgå sikkerhedsafsnittene i Amazon Textract, Amazon forstår, , Amazon A2I dokumentation og følge retningslinjerne. Hvis du vil vide mere om prissætningen af løsningen, kan du gennemgå prisoplysningerne for Amazon Textract, Amazon Comprehendog Amazon A2I.

Om forfatterne

Chinmayee Rane er AI/ML Specialist Solutions Architect hos Amazon Web Services. Hun brænder for anvendt matematik og maskinlæring. Hun fokuserer på at designe intelligente dokumentbehandlingsløsninger til AWS-kunder. Uden for arbejdet nyder hun salsa og bachata dans.

Sonali Sahu leder teamet Intelligent Document Processing AI/ML Solutions Architect hos Amazon Web Services. Hun er en passioneret teknofil og nyder at arbejde med kunder for at løse komplekse problemer ved hjælp af innovation. Hendes kernefokusområde er kunstig intelligens og maskinlæring til intelligent dokumentbehandling.

Tim Condello er Senior AI/ML Specialist Solutions Architect hos Amazon Web Services. Hans fokus er naturlig sprogbehandling og computersyn. Tim nyder at tage kundeideer og omsætte dem til skalerbare løsninger.

Tidsstempel: November 3, 2022November 4, 2022

Tidsstempel: Maj 2, 2023

Intelligent dokumentbehandling med AWS AI-tjenester i forsikringsbranchen: Del 1

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Dataopsamlingsfase

Klassifikationsfase

Udvindingsfase

Udtræk data fra en CMS-1500-kravsformular

Udtræk data fra ID-dokumenter

Udtræk data fra fakturaer og kvitteringer

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Byg datasæt, der er klar til maskinlæring fra Amazon SageMaker offline Feature Store ved hjælp af Amazon SageMaker Python SDK | Amazon Web Services

Rejsen for PGA TOURs generative AI virtuelle assistent, fra koncept til udvikling til prototype | Amazon Web Services

Implementering af Amazon Forecast i detailbranchen: En rejse fra POC til produktion

Tilpas dine anbefalinger ved at promovere specifikke varer ved hjælp af forretningsregler med Amazon Personalize

Introduktion af AWS Generative AI Innovation Centers tilpassede modelprogram for den antropiske Claude | Amazon Web Services

Fremskynd flersprogede arbejdsgange med en tilpasselig oversættelsesløsning bygget med Amazon Translate

Model Hosting Patterns i SageMaker: Bedste praksis i test og opdatering af modeller på SageMaker

Amazon SageMaker med TensorBoard: En oversigt over en hostet TensorBoard-oplevelse

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto