Introductie van classificatie in één stap en entiteitsherkenning met Amazon Comprehend voor intelligente documentverwerking

Heruitgegeven door Plato

volgers: 0

“Intelligente documentverwerkingsoplossingen (IDP) extraheren gegevens ter ondersteuning van de automatisering van grootschalige, repetitieve documentverwerkingstaken en voor analyse en inzicht. IDP gebruikt natuurlijke taaltechnologieën en computervisie om gegevens te extraheren uit gestructureerde en ongestructureerde inhoud, met name uit documenten, ter ondersteuning van automatisering en augmentatie.” – Gartner

Het doel van de intelligente documentverwerking (IDP) van Amazon is om de verwerking van grote hoeveelheden documenten te automatiseren met behulp van machine learning (ML) om de productiviteit te verhogen, de kosten van menselijke arbeid te verlagen en een naadloze gebruikerservaring te bieden. Klanten besteden veel tijd en moeite aan het identificeren van documenten en het eruit halen van kritieke informatie voor verschillende gebruiksscenario's. Vandaag, Amazon begrijpt het ondersteunt classificatie voor platte-tekstdocumenten, wat vereist dat u documenten in semi-gestructureerde formaten (gescande, digitale PDF of afbeeldingen zoals PNG, JPG, TIFF) voorverwerkt en vervolgens de platte-tekstuitvoer gebruikt om gevolgtrekkingen uit te voeren met uw aangepaste classificatie model. Evenzo voor aangepaste entiteitsherkenning in realtime is voorbewerking om tekst te extraheren vereist voor semi-gestructureerde documenten zoals pdf- en afbeeldingsbestanden. Dit proces in twee stappen introduceert complexiteit in documentverwerkingsworkflows.

Vorig jaar hebben we aangekondigde ondersteuning voor native documentformaten met aangepaste benoemde entiteitsherkenning (NER) asynchrone taken. Vandaag kondigen we met trots een eenstaps documentclassificatie en real-time analyse voor NER aan voor semi-gestructureerde documenten in native formaten (PDF, TIFF, JPG, PNG) met behulp van Amazon Comprehend. Concreet kondigen we de volgende mogelijkheden aan:

Ondersteuning voor documenten in native formaten voor real-time analyse van aangepaste classificatie en asynchrone taken
Ondersteuning voor documenten in native formaten voor realtime analyse van aangepaste entiteitsherkenning

Met deze nieuwe release ondersteunt Amazon Comprehend aangepaste classificatie en aangepaste entiteitsherkenning (NER) documenten in formaten zoals PDF, TIFF, PNG en JPEG rechtstreeks, zonder dat UTF8-gecodeerde platte tekst eruit hoeft te worden gehaald. De volgende afbeelding vergelijkt het vorige proces met de nieuwe procedure en ondersteuning.

Deze functie vereenvoudigt documentverwerkingsworkflows door alle voorverwerkingsstappen te elimineren die nodig zijn om platte tekst uit documenten te extraheren, en vermindert de totale tijd die nodig is om ze te verwerken.

In dit bericht bespreken we een ontwerp van een IDP-workflowoplossing op hoog niveau, een paar industriële use-cases, de nieuwe functies van Amazon Comprehend en hoe deze te gebruiken.

Overzicht van de oplossing

Laten we beginnen met het verkennen van een veelvoorkomende use case in de verzekeringssector. Een typisch verzekeringsclaimproces omvat een claimpakket dat meerdere documenten kan bevatten. Wanneer een verzekeringsclaim wordt ingediend, omvat deze documenten zoals een verzekeringsclaimformulier, incidentrapporten, identiteitsdocumenten en claimdocumenten van derden. Het aantal documenten dat moet worden verwerkt en beoordeeld voor een verzekeringsclaim kan oplopen tot honderden of zelfs duizenden pagina's, afhankelijk van het soort claim en de betrokken bedrijfsprocessen. Vertegenwoordigers van verzekeringsclaims en beoordelaars besteden doorgaans honderden uren aan het handmatig zeven, sorteren en extraheren van informatie uit honderden of zelfs duizenden claimaanvragen.

Net als in de verzekeringssector, verwerkt de betalingssector ook grote hoeveelheden semi-gestructureerde documenten voor grensoverschrijdende betalingsovereenkomsten, facturen en deviezenafschriften. Zakelijke gebruikers besteden het grootste deel van hun tijd aan handmatige activiteiten zoals het identificeren, organiseren, valideren, extraheren en doorgeven van vereiste informatie aan downstream-applicaties. Dit handmatige proces is vervelend, repetitief, foutgevoelig, duur en moeilijk schaalbaar. Andere sectoren die met soortgelijke uitdagingen worden geconfronteerd, zijn hypotheken en leningen, gezondheidszorg en biowetenschappen, juridische zaken, boekhouding en belastingbeheer. Het is uitermate belangrijk voor bedrijven om zulke grote hoeveelheden documenten tijdig te verwerken met een hoge mate van nauwkeurigheid en minimale handmatige inspanning.

Amazon Comprehend biedt belangrijke mogelijkheden om documentclassificatie en informatie-extractie uit een groot aantal documenten met hoge nauwkeurigheid te automatiseren, op een schaalbare en kosteneffectieve manier. Het volgende diagram toont een logische IDP-workflow met Amazon Comprehend. De kern van de workflow bestaat uit documentclassificatie en informatie-extractie met behulp van NER met aangepaste modellen van Amazon Comprehend. Het diagram laat ook zien hoe de aangepaste modellen continu kunnen worden verbeterd om hogere nauwkeurigheid te bieden naarmate documenten en bedrijfsprocessen evolueren.

Aangepaste documentclassificatie

Met de aangepaste classificatie van Amazon Comprehend kunt u uw documenten ordenen in vooraf gedefinieerde categorieën (klassen). Op een hoog niveau zijn de volgende stappen om een aangepaste documentclassificatie in te stellen en documentclassificatie uit te voeren:

Bereid trainingsgegevens voor om een aangepaste documentclassificatie te trainen.
Train een klantdocumentclassificatie met de trainingsgegevens.
Nadat het model is getraind, kunt u optioneel een real-time eindpunt implementeren.
Voer documentclassificatie uit met een asynchrone taak of in realtime met behulp van het eindpunt.

Stappen 1 en 2 worden meestal gedaan aan het begin van een IDP-project nadat de documentklassen die relevant zijn voor het bedrijfsproces zijn geïdentificeerd. Een aangepast classificatiemodel kan vervolgens periodiek worden bijgeschoold om de nauwkeurigheid te verbeteren en nieuwe documentklassen te introduceren. U kunt een aangepast classificatiemodel trainen in multi-class modus or multi-label modus. Training kan voor elk op twee manieren worden gedaan: met behulp van een CSV-bestand of met behulp van een uitgebreid manifestbestand. Verwijzen naar Opstellen van trainingsgegevens voor meer informatie over het trainen van een aangepast classificatiemodel. Nadat een aangepast classificatiemodel is getraind, kan een document worden geclassificeerd met behulp van realtime analyse of asynchrone baan. Realtime analyse vereist een eindpunt in te zetten met het getrainde model en is het meest geschikt voor kleine documenten, afhankelijk van de use case. Voor een groot aantal documenten is een asynchrone classificatietaak het meest geschikt.

Train een aangepast documentclassificatiemodel

Om de nieuwe functie te demonstreren, hebben we een aangepast classificatiemodel in multi-labelmodus getraind, dat verzekeringsdocumenten kan classificeren in een van de zeven verschillende klassen. De lessen zijn INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY en CMS1500. We willen voorbeelddocumenten classificeren in native PDF-, PNG- en JPEG-indeling, opgeslagen in een Amazon eenvoudige opslagservice (Amazon S3) emmer, met behulp van het classificatiemodel. Voer de volgende stappen uit om een asynchrone classificatietaak te starten:

Kies op de Amazon Comprehend-console Analyse banen in het navigatievenster.
Kies Baan creëren.
Voor Naam, voer een naam in voor uw classificatietaak.
Voor Type analyseKiezen Aangepaste classificatie.
Voor Classificatiemodel, kies het juiste getrainde classificatiemodel.
Voor Versie, kies de juiste modelversie.

In het Invoergegevens sectie, geven wij de locatie aan waar onze documenten worden opgeslagen.

Voor invoer formaat, kiezen Eén document per bestand.
Voor DocumentleesmodusKiezen Forceer documentleesactie.
Voor Documentleesactie, kiezen Textract detecteert documenttekst.

Hierdoor kan Amazon Comprehend de Amazon T-extract DetecteerDocumentTekst API om de documenten te lezen voordat de classificatie wordt uitgevoerd. De DetectDocumentText API is handig bij het extraheren van regels en woorden tekst uit de documenten. U mag ook kiezen Textract-analysedocument For Documentleesactie, in welk geval Amazon Comprehend de Amazon Textract gebruikt AnalyseDocument API om de documenten te lezen. Met de AnalyzeDocument API, u kunt ervoor kiezen om te extraheren Tafels, Formulieren, of allebei. De Documentleesmodus optie stelt Amazon Comprehend in staat om de tekst achter de schermen uit documenten te extraheren, waardoor de extra stap van het extraheren van tekst uit het document, die vereist is in onze documentverwerkingsworkflow, wordt verminderd.

De aangepaste classificatie van Amazon Comprehend kan ook onbewerkte JSON-antwoorden verwerken die zijn gegenereerd door de DetectDocumentText en AnalyzeDocument API's, zonder enige wijziging of voorbewerking. Dit is handig voor bestaande workflows waarbij Amazon Textract al betrokken is bij het extraheren van tekst uit de documenten. In dit geval kan de JSON-uitvoer van Amazon Textract rechtstreeks worden ingevoerd in de Amazon Comprehend-API's voor documentclassificatie.

In het Gegevens uitvoeren sectie, voor S3 locatie, geeft u een Amazon S3-locatie op waar u de asynchrone taak de resultaten van de gevolgtrekking wilt laten schrijven.
Laat de overige opties standaard staan.
Kies Baan creëren om aan de klus te beginnen.

U kunt de status van de opdracht bekijken op de Analyse banen pagina.

Wanneer de taak is voltooid, kunnen we de uitvoer van de analysetaak bekijken, die is opgeslagen op de Amazon S3-locatie die tijdens de taakconfiguratie is opgegeven. De classificatie-uitvoer voor ons PDF-voorbeelddocument CMS1500 van één pagina is als volgt. De uitvoer is een bestand in JSON-regelsindeling, dat is geformatteerd om de leesbaarheid te verbeteren.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Het voorgaande voorbeeld is een PDF-document van één pagina; aangepaste classificatie kan echter ook PDF-documenten met meerdere pagina's verwerken. In het geval van documenten met meerdere pagina's bevat de uitvoer meerdere JSON-regels, waarbij elke regel het classificatieresultaat is van elk van de pagina's in een document. Het volgende is een voorbeeld van een classificatie-uitvoer met meerdere pagina's:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Aangepaste entiteitsherkenning

Met een aangepaste entiteitsherkenning van Amazon Comprehend kun je documenten analyseren en entiteiten extraheren, zoals productcodes of bedrijfsspecifieke entiteiten die aan je specifieke behoeften voldoen. Op een hoog niveau zijn de volgende stappen om een aangepaste entiteitsherkenning in te stellen en entiteitsdetectie uit te voeren:

Bereid trainingsgegevens voor om een aangepaste entiteitsherkenner te trainen.
Train een aangepaste entiteitsherkenner met de trainingsgegevens.
Nadat het model is getraind, kunt u optioneel een real-time eindpunt implementeren.
Voer entiteitsdetectie uit met een asynchrone taak of in realtime met behulp van het eindpunt.

Een aangepast entiteitsherkenningsmodel kan periodiek opnieuw worden getraind om de nauwkeurigheid te verbeteren en om nieuwe entiteitstypen te introduceren. U kunt met beide een aangepast entiteitsherkenningsmodel trainen entiteitslijsten or annotaties. In beide gevallen leert Amazon Comprehend over het soort documenten en de context waarin de entiteiten voorkomen om een entiteitsherkenningsmodel te bouwen dat kan worden gegeneraliseerd om nieuwe entiteiten te detecteren. Verwijzen naar De trainingsgegevens voorbereiden voor meer informatie over het voorbereiden van trainingsgegevens voor aangepaste entiteitsherkenning.

Nadat een aangepast entiteitsherkenningsmodel is getraind, kan entiteitsdetectie worden uitgevoerd met behulp van realtime analyse of asynchrone baan. Realtime analyse vereist een eindpunt in te zetten met het getrainde model en is het meest geschikt voor kleine documenten, afhankelijk van de use case. Voor een groot aantal documenten is een asynchrone classificatietaak het meest geschikt.

Train een aangepast entiteitsherkenningsmodel

Om de entiteitsdetectie in realtime te demonstreren, hebben we een aangepast entiteitsherkenningsmodel getraind met verzekeringsdocumenten en uitgebreide manifestbestanden met behulp van aangepaste annotaties en het eindpunt geïmplementeerd met behulp van het getrainde model. De entiteitstypen zijn Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action en Sender. We willen entiteiten detecteren uit voorbeelddocumenten in native PDF-, PNG- en JPEG-indeling, opgeslagen in een S3-bucket, met behulp van het herkennermodel.

Merk op dat u een aangepast entiteitsherkenningsmodel kunt gebruiken dat is getraind met PDF-documenten om aangepaste entiteiten te extraheren uit PDF-, TIFF-, afbeeldings-, Word- en tekstdocumenten. Als uw model is getraind met behulp van tekstdocumenten en een entiteitenlijst, kunt u alleen platte tekstdocumenten gebruiken om de entiteiten te extraheren.

We moeten entiteiten uit een voorbeelddocument detecteren in elk native PDF-, PNG- en JPEG-formaat met behulp van het herkennermodel. Voer de volgende stappen uit om een synchrone entiteitsdetectietaak te starten:

Kies op de Amazon Comprehend-console Realtime analyse in het navigatievenster.
Onder Type analyseselecteer Eigen.
Voor Aangepaste entiteitsherkenning, kies het aangepaste modeltype.
Voor Endpoint, kiest u het real-time eindpunt dat u hebt gemaakt voor uw entiteitsherkenningsmodel.
kies Upload bestand En kies Kies bestand om het pdf- of afbeeldingsbestand te uploaden voor gevolgtrekking.
Vouw de Geavanceerde documentinvoer sectie en voor Documentleesmodus, kiezen Servicestandaard.
Voor Documentleesactie, kiezen Textract detecteert documenttekst.
Kies Analyseren om het document in realtime te analyseren.

De erkende entiteiten staan vermeld in de Insights sectie. Elke entiteit bevat de entiteitswaarde (de tekst), het type entiteit zoals gedefinieerd door u tijdens het trainingsproces en de bijbehorende betrouwbaarheidsscore.

Raadpleeg voor meer informatie en een volledig overzicht van het trainen van een aangepast entiteitsherkenningsmodel en het gebruik ervan om asynchrone gevolgtrekkingen uit te voeren met behulp van asynchrone analysetaken Extraheer aangepaste entiteiten uit documenten in hun oorspronkelijke indeling met Amazon Comprehend.

Conclusie

Dit bericht liet zien hoe u semi-gestructureerde documenten in hun oorspronkelijke indeling kunt classificeren en categoriseren en bedrijfsspecifieke entiteiten kunt detecteren met behulp van Amazon Comprehend. U kunt realtime API's gebruiken voor use-cases met lage latentie, of asynchrone analysetaken gebruiken voor bulkverwerking van documenten.

Als volgende stap raden we je aan om Amazon Comprehend te bezoeken GitHub-repository voor volledige codevoorbeelden om deze nieuwe functies uit te proberen. U kunt ook een bezoek brengen aan de Amazon Comprehend-handleiding voor ontwikkelaars en Bronnen voor Amazon Comprehend-ontwikkelaars voor video's, tutorials, blogs en meer.

Over de auteurs

Wrick Talukdar is een Senior Architect bij het Amazon Comprehend Service-team. Hij werkt samen met AWS-klanten om hen te helpen machine learning op grote schaal toe te passen. Naast zijn werk houdt hij van lezen en fotograferen.

Anjan Biswas is een Senior AI Services Solutions Architect met een focus op AI/ML en Data Analytics. Anjan maakt deel uit van het wereldwijde AI-serviceteam en werkt samen met klanten om hen te helpen bij het begrijpen en ontwikkelen van oplossingen voor zakelijke problemen met AI en ML. Anjan heeft meer dan 14 jaar ervaring in het werken met wereldwijde supply chain-, productie- en retailorganisaties en helpt klanten actief om aan de slag te gaan en op te schalen met AWS AI-services.

Godwin Sahayaraj Vincent is een Enterprise Solutions Architect bij AWS die gepassioneerd is door machine learning en klanten begeleidt bij het ontwerpen, implementeren en beheren van hun AWS-workloads en -architecturen. In zijn vrije tijd speelt hij graag cricket met zijn vrienden en tennist hij graag met zijn drie kinderen.

Tijdstempel: 2 december 20222 december 2022

Meer van AWS-machine learning

Amazon SageMaker Feature Store ondersteunt nu delen, ontdekken en toegang tussen accounts | Amazon-webservices

Broncluster:

AWS-machine learning

Bronknooppunt: 1947390

Tijdstempel: Februari 13, 2024

AWS voert fine-tuning uit op een Large Language Model (LLM) om giftige spraak te classificeren voor een groot gamingbedrijf | Amazon-webservices

AWS-machine learning

Bronknooppunt: 1822975

Tijdstempel: 7-2023-XNUMX

Introductie van classificatie in één stap en entiteitsherkenning met Amazon Comprehend voor intelligente documentverwerking

Heruitgegeven door Plato

Overzicht van de oplossing

Aangepaste documentclassificatie

Train een aangepast documentclassificatiemodel

Aangepaste entiteitsherkenning

Train een aangepast entiteitsherkenningsmodel

Conclusie

Over de auteurs

Meer van AWS-machine learning

Startups in AWS Accelerators gebruiken AI en ML om missiekritieke klantuitdagingen op te lossen

Gebruik computervisie om de landbouwopbrengst te meten met Amazon Rekognition Custom Labels

Gemakkelijke en nauwkeurige prognoses met AutoGluon-TimeSeries

Bouw een e-mailspamdetector met behulp van Amazon SageMaker | Amazon-webservices

Detectie en hoogfrequente monitoring van puntbronnen met methaanemissie met behulp van de geospatiale mogelijkheden van Amazon SageMaker | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account