Intelligente documentverwerking met AWS AI-services in de verzekeringssector: deel 1

Heruitgegeven door Plato

volgers: 0

Het doel van intelligente documentverwerking (IDP) is om uw organisatie te helpen snellere en nauwkeurigere beslissingen te nemen door AI toe te passen om uw papierwerk te verwerken. Deze tweedelige serie belicht de AWS AI-technologieën die verzekeringsmaatschappijen kunnen gebruiken om hun bedrijfsprocessen te versnellen. Deze AI-technologieën kunnen worden gebruikt in verzekeringstoepassingen zoals claims, acceptatie, klantcorrespondentie, contracten of het afhandelen van geschillenbeslechting. Deze serie richt zich op een use case voor claimverwerking in de verzekeringssector; Raadpleeg het volgende voor meer informatie over de fundamentele concepten van de AWS IDP-oplossing: tweedelige serie.

De verwerking van claims bestaat uit meerdere controlepunten in een workflow die nodig zijn om de claim te beoordelen, de authenticiteit te verifiëren en de juiste financiële verantwoordelijkheid te bepalen. Verzekeringsmaatschappijen doorlopen deze controlepunten voor claims voordat de claims worden beoordeeld. Als een claim zonder problemen door al deze controlepunten gaat, keurt de verzekeringsmaatschappij deze goed en verwerkt de eventuele betaling. Ze kunnen echter aanvullende ondersteunende informatie nodig hebben om een claim te beoordelen. Deze claimverwerking is vaak handmatig, waardoor het duur, foutgevoelig en tijdrovend is. Verzekeringsklanten kunnen dit proces automatiseren met behulp van AWS AI-services om de documentverwerkingspijplijn voor claimverwerking te automatiseren.

In deze tweedelige serie laten we u zien hoe u documenten op grote schaal kunt automatiseren en intelligent kunt verwerken met behulp van AWS AI-services voor het verwerken van verzekeringsclaims.

Intelligente documentverwerking met AWS AI en Analytics-services in de verzekeringssector

Overzicht oplossingen

Het volgende diagram vertegenwoordigt elke fase die we doorgaans zien in een IDP-pijplijn. We doorlopen elk van deze fasen en hoe ze aansluiten bij de stappen die betrokken zijn bij een claimaanvraagproces, vanaf het indienen van een aanvraag tot het onderzoeken en sluiten van de aanvraag. In dit bericht behandelen we de technische details van de fasen voor het vastleggen, classificeren en extraheren van gegevens. In Deel 2, breiden we de fase van documentextractie uit en gaan we door met het verrijken, beoordelen en verifiëren van documenten, en breiden we de oplossing uit om analyses en visualisaties te bieden voor een gebruiksgeval van claimfraude.

Het volgende architectuurdiagram toont de verschillende AWS-services die worden gebruikt tijdens de fasen van de IDP-pijplijn volgens verschillende stadia van een claimverwerkingstoepassing.

IDP-architectuurdiagram

De oplossing maakt gebruik van de volgende belangrijke services:

Amazon T-extract is een machine learning (ML)-service die automatisch tekst, handschrift en gegevens extraheert uit gescande documenten. Het gaat verder dan eenvoudige optische tekenherkenning (OCR) om gegevens uit formulieren en tabellen te identificeren, begrijpen en extraheren. Amazon Textract gebruikt ML om elk type document te lezen en te verwerken, waarbij tekst, handschrift, tabellen en andere gegevens nauwkeurig worden geëxtraheerd zonder handmatige inspanning.
Amazon begrijpt het is een natuurlijke taalverwerkingsservice (NLP) die ML gebruikt om inzichten uit tekst te halen. Amazon Comprehend kan entiteiten detecteren zoals persoon, locatie, datum, hoeveelheid en meer. Het kan ook de dominante taal, persoonlijk identificeerbare informatie (PII) informatie detecteren en documenten classificeren in hun relevante klasse.
Amazon Augmented AI (Amazon A2I) is een ML-service die het gemakkelijk maakt om de workflows te bouwen die nodig zijn voor menselijke beoordeling. Amazon A2I brengt menselijke beoordeling naar alle ontwikkelaars en verwijdert het ongedifferentieerde zware werk dat gepaard gaat met het bouwen van menselijke beoordelingssystemen of het beheren van grote aantallen menselijke recensenten. Amazon A2I integreert beide met Amazon T-extract en Amazon begrijpt het om de mogelijkheid te bieden om menselijke beoordeling of validatie te introduceren binnen de IDP-workflow.

Voorwaarden

In de volgende paragrafen lopen we door de verschillende services die betrekking hebben op de eerste drie fasen van de architectuur, dat wil zeggen de fasen voor het vastleggen, classificeren en extraheren van gegevens.

Raadpleeg onze GitHub-repository voor volledige codevoorbeelden samen met de documentvoorbeelden in het claimverwerkingspakket.

Gegevensverzamelingsfase

Claims en de bijbehorende documenten kunnen via verschillende kanalen binnenkomen, zoals fax, e-mail, een beheerdersportaal en meer. U kunt deze documenten opslaan in een zeer schaalbare en duurzame opslag zoals Amazon eenvoudige opslagservice (Amazon S3). Deze documenten kunnen van verschillende typen zijn, zoals PDF, JPEG, PNG, TIFF en meer. Documenten kunnen verschillende formaten en lay-outs hebben en kunnen vanuit verschillende kanalen naar de datastore komen.

Classificatiefase

In de documentclassificatiefase kunnen we Amazon Comprehend combineren met Amazon Textract om tekst naar documentcontext te converteren om de documenten te classificeren die zijn opgeslagen in de data capture-fase. We kunnen dan aangepaste classificatie in Amazon Comprehend gebruiken om documenten te ordenen in klassen die we hebben gedefinieerd in het claimverwerkingspakket. Aangepaste classificatie is ook handig voor het automatiseren van het documentverificatieproces en het identificeren van ontbrekende documenten uit het pakket. Er zijn twee stappen in aangepaste classificatie, zoals weergegeven in het architectuurdiagram:

Extraheer tekst met Amazon Textract uit alle documenten in de gegevensopslag om trainingsgegevens voor te bereiden voor de aangepaste classificatie.
Train een aangepast classificatiemodel van Amazon Comprehend (ook wel a document classificeren) om de klassen van interesse te herkennen op basis van de tekstinhoud.

Documentclassificatie van verzekeringsclaimpakket

Nadat het aangepaste classificatiemodel van Amazon Comprehend is getraind, kunnen we het realtime eindpunt gebruiken om documenten te classificeren. Amazon Comprehend retourneert alle documentklassen met een betrouwbaarheidsscore die aan elke klasse is gekoppeld in een reeks sleutel-waardeparen (Doc_name - Confidence_score). We raden aan om de gedetailleerde voorbeeldcode voor documentclassificatie door te nemen op GitHub.

Extractie fase

In de extractiefase extraheren we gegevens uit documenten met behulp van Amazon Textract en Amazon Comprehend. Gebruik voor dit bericht de volgende voorbeelddocumenten in het claimverwerkingspakket: een claimformulier van Center of Medicaid and Medicare Services (CMS)-1500, rijbewijs en verzekerings-ID en factuur.

Gegevens uit een CMS-1500 claimformulier halen

Het CMS-1500-formulier is het standaard claimformulier dat door een niet-institutionele aanbieder of leverancier wordt gebruikt om Medicare-vervoerders te factureren.

Het is belangrijk om het CMS-1500-formulier nauwkeurig te verwerken, anders kan dit het claimproces vertragen of de betaling door de vervoerder vertragen. Met het Amazon Textract AnalyzeDocument API kunnen we het extractieproces versnellen met een hogere nauwkeurigheid om tekst uit documenten te extraheren om meer inzicht te krijgen in het claimformulier. Het volgende is een voorbeelddocument van een CMS-1500 claimformulier.

Een CMS1500 Claimformulier

We gebruiken nu de AnalyzeDocument API om er twee uit te halen FeatureTypes, FORMS en TABLES, uit het document:

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

De volgende resultaten zijn ingekort voor een betere leesbaarheid. Voor meer gedetailleerde informatie, zie onze GitHub-opslagplaats.

De FORMS extractie wordt geïdentificeerd als sleutel-waardeparen.

De TABLES extractie bevat cellen, samengevoegde cellen en kolomkoppen binnen een gedetecteerde tabel in het claimformulier.

Tabellenextractie uit CMS1500-formulier

Gegevens extraheren uit ID-documenten

Voor identiteitsdocumenten zoals een verzekerings-ID, die verschillende lay-outs kunnen hebben, kunnen we het Amazon Textract gebruiken AnalyzeDocument API. Wij gebruiken de FeatureType FORMS als de configuratie voor de AnalyzeDocument API om de sleutel-waardeparen uit de verzekerings-ID te extraheren (zie het volgende voorbeeld):

Voer de volgende code uit:

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

We krijgen de sleutel-waardeparen in de resultatenarray, zoals weergegeven in de volgende schermafbeelding.

Voor ID-documenten zoals een Amerikaans rijbewijs of Amerikaans paspoort, biedt Amazon Textract gespecialiseerde ondersteuning om automatisch belangrijke termen te extraheren zonder dat er sjablonen of formaten nodig zijn, in tegenstelling tot wat we eerder zagen voor het voorbeeld van een verzekerings-ID. Met de AnalyzeID API kunnen bedrijven snel en nauwkeurig informatie extraheren uit ID-documenten met verschillende sjablonen of formaten. De AnalyzeID API retourneert twee categorieën gegevenstypen:

Sleutel/waarde-paren beschikbaar op de ID, zoals geboortedatum, uitgiftedatum, ID-nummer, klasse en beperkingen
Impliciete velden in het document waaraan mogelijk geen expliciete sleutels zijn gekoppeld, zoals naam, adres en uitgever

We gebruiken het volgende voorbeeld van een Amerikaans rijbewijs uit ons claimverwerkingspakket.

Voer de volgende code uit:

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

De volgende schermafbeelding toont ons resultaat.

Aan de schermafbeelding van de resultaten kunt u zien dat bepaalde sleutels worden gepresenteerd die niet in het rijbewijs zelf zaten. Bijvoorbeeld, Veteran is geen sleutel gevonden in de licentie; het is echter een vooraf ingevulde sleutelwaarde die AnalyzeID ondersteunt, vanwege de verschillen in licenties tussen staten.

Gegevens extraheren uit facturen en bonnen

Vergelijkbaar met de AnalyzeID API, de AnalyzeExpense API biedt gespecialiseerde ondersteuning voor facturen en ontvangstbewijzen om relevante informatie, zoals de naam van de leverancier, subtotaal- en totaalbedragen en meer, te extraheren uit elk formaat factuurdocumenten. U hebt geen sjabloon of configuratie nodig voor extractie. Amazon Textract gebruikt ML om de context van dubbelzinnige facturen en kwitanties te begrijpen.

Hieronder ziet u een voorbeeld van een zorgverzekeringsfactuur.

Een voorbeeld van een verzekeringsfactuur

We maken gebruik van de AnalyzeExpense API om een lijst met gestandaardiseerde velden te zien. Velden die niet als standaardvelden worden herkend, worden gecategoriseerd als OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

We krijgen de volgende lijst met velden als sleutel-waarde-paren (zie screenshot aan de linkerkant) en de hele rij met gekochte individuele regelitems (zie screenshot aan de rechterkant) in de resultaten.

Intelligente documentverwerking met AWS AI-diensten in de verzekeringssector: deel 1 PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Conclusie

In dit bericht hebben we de veelvoorkomende uitdagingen bij de verwerking van claims laten zien en hoe we AWS AI-services kunnen gebruiken om een intelligente pijplijn voor documentverwerking te automatiseren om een claim automatisch te beoordelen. We hebben gezien hoe documenten in verschillende documentklassen kunnen worden ingedeeld met behulp van een aangepaste classificatie van Amazon Comprehend, en hoe we Amazon Textract kunnen gebruiken om ongestructureerde, semi-gestructureerde, gestructureerde en gespecialiseerde documenttypen te extraheren.

In Deel 2, we breiden de extractiefase uit met Amazon Textract. We gebruiken ook vooraf gedefinieerde entiteiten en aangepaste entiteiten van Amazon Comprehend om de gegevens te verrijken en laten zien hoe we de IDP-pijplijn kunnen uitbreiden om te integreren met analyse- en visualisatieservices voor verdere verwerking.

We raden u aan de beveiligingssecties van de: Amazon T-extract, Amazon begrijpen, en Amazon A2I documentatie en volgens de verstrekte richtlijnen. Voor meer informatie over de prijs van de oplossing, bekijk de prijsdetails van: Amazon T-extract, Amazon begrijpt het en Amazon A2I.

Over de auteurs

Chinmayee Rane is een AI/ML Specialist Solutions Architect bij Amazon Web Services. Ze is gepassioneerd door toegepaste wiskunde en machine learning. Ze richt zich op het ontwerpen van intelligente documentverwerkingsoplossingen voor AWS-klanten. Naast haar werk houdt ze van salsa- en bachatadansen.

Sonali Sahu leidt het Intelligent Document Processing AI/ML Solutions Architect-team bij Amazon Web Services. Ze is een gepassioneerde technofiel en werkt graag samen met klanten om complexe problemen op te lossen met behulp van innovatie. Haar belangrijkste aandachtsgebied is kunstmatige intelligentie en machine learning voor intelligente documentverwerking.

Tim Condello is Senior AI/ML Specialist Solutions Architect bij Amazon Web Services. Zijn focus ligt op natuurlijke taalverwerking en computervisie. Tim vindt het leuk om ideeën van klanten om te zetten in schaalbare oplossingen.

Tijdstempel: 3 november 20224 november 2022

Tijdstempel: 2 mei 2023

Intelligente documentverwerking met AWS AI-services in de verzekeringssector: deel 1

Heruitgegeven door Plato

Overzicht oplossingen

Voorwaarden

Gegevensverzamelingsfase

Classificatiefase

Extractie fase

Gegevens uit een CMS-1500 claimformulier halen

Gegevens extraheren uit ID-documenten

Gegevens extraheren uit facturen en bonnen

Conclusie

Over de auteurs

Meer van AWS-machine learning

Bouw machine learning-ready datasets uit de Amazon SageMaker offline Feature Store met behulp van de Amazon SageMaker Python SDK | Amazon-webservices

De reis van de generatieve AI virtuele assistent van PGA TOUR, van concept tot ontwikkeling tot prototype | Amazon-webservices

Amazon Forecast implementeren in de detailhandel: een reis van POC naar productie

Pas uw aanbevelingen aan door specifieke artikelen te promoten met behulp van bedrijfsregels met Amazon Personalize

Introductie van het aangepaste modelprogramma van het AWS Generative AI Innovation Center voor Anthropic Claude | Amazon-webservices

Versnel meertalige workflows met een aanpasbare vertaaloplossing gebouwd met Amazon Translate

Modelhostingpatronen in SageMaker: best practices voor het testen en bijwerken van modellen op SageMaker

Amazon SageMaker met TensorBoard: een overzicht van een gehoste TensorBoard-ervaring

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account