Introduktion af éttrinsklassificering og enhedsgenkendelse med Amazon Comprehend til intelligent dokumentbehandling

Genudgivet af Platon

Abonnenter: 0

“Intelligent dokumentbehandlingsløsninger (IDP) udtrækker data for at understøtte automatisering af store, gentagne dokumentbehandlingsopgaver og til analyse og indsigt. IDP bruger naturlige sprogteknologier og computersyn til at udtrække data fra struktureret og ustruktureret indhold, især fra dokumenter, for at understøtte automatisering og forøgelse." – Gartner

Målet med Amazons intelligente dokumentbehandling (IDP) er at automatisere behandlingen af store mængder dokumenter ved hjælp af maskinlæring (ML) for at øge produktiviteten, reducere omkostninger forbundet med menneskelig arbejdskraft og give en problemfri brugeroplevelse. Kunder bruger en betydelig mængde tid og kræfter på at identificere dokumenter og udtrække kritisk information fra dem til forskellige brugssager. I dag, Amazon Comprehend understøtter klassificering af almindelige tekstdokumenter, hvilket kræver, at du forbehandler dokumenter i semi-strukturerede formater (scannet, digital PDF eller billeder såsom PNG, JPG, TIFF) og derefter bruger almindelig tekst-output til at køre inferens med din tilpasset klassificering model. Tilsvarende for tilpasset enhedsgenkendelse i realtid kræves forbehandling for at udtrække tekst til semistrukturerede dokumenter såsom PDF- og billedfiler. Denne to-trins proces introducerer kompleksitet i dokumentbehandlingsarbejdsgange.

Sidste år, vi annonceret understøttelse af native dokumentformater med brugerdefineret navngivet enhedsgenkendelse (NER) asynkrone job. I dag er vi glade for at annoncere et-trins dokumentklassificering og realtidsanalyse for NER for semi-strukturerede dokumenter i native formater (PDF, TIFF, JPG, PNG) ved hjælp af Amazon Comprehend. Konkret annoncerer vi følgende muligheder:

Understøttelse af dokumenter i native formater til tilpasset klassificering i realtid og asynkrone opgaver
Understøttelse af dokumenter i native formater til tilpasset enhedsgenkendelse i realtid

Med denne nye udgivelse understøtter Amazon Comprehend tilpasset klassificering og tilpasset enhedsgenkendelse (NER) dokumenter i formater som PDF, TIFF, PNG og JPEG direkte, uden at det er nødvendigt at udtrække UTF8-kodet almindelig tekst fra dem. Følgende figur sammenligner den tidligere proces med den nye procedure og support.

Denne funktion forenkler dokumentbehandlingsarbejdsgange ved at eliminere eventuelle forbehandlingstrin, der kræves for at udtrække almindelig tekst fra dokumenter, og reducerer den samlede tid, der kræves for at behandle dem.

I dette indlæg diskuterer vi et IDP-workflowløsningsdesign på højt niveau, nogle få branchebrugssager, de nye funktioner i Amazon Comprehend, og hvordan man bruger dem.

Oversigt over løsning

Lad os starte med at udforske en almindelig use case i forsikringsbranchen. En typisk forsikringsskadeproces involverer en skadespakke, der kan indeholde flere dokumenter. Når et forsikringskrav indgives, inkluderer det dokumenter som forsikringskravsformular, hændelsesrapporter, identitetsdokumenter og tredjepartskravsdokumenter. Mængden af dokumenter til at behandle og afgøre et forsikringskrav kan løbe op til hundredvis og endda tusindvis af sider afhængigt af typen af krav og forretningsprocesser. Repræsentanter og dommere for forsikringskrav bruger typisk hundredvis af timer på manuelt at sigte, sortere og udtrække information fra hundredvis eller endda tusindvis af ansøgninger.

I lighed med forsikringsbranchens use case behandler betalingsindustrien også store mængder semistrukturerede dokumenter til grænseoverskridende betalingsaftaler, fakturaer og valutaudtog. Forretningsbrugere bruger størstedelen af deres tid på manuelle aktiviteter såsom identifikation, organisering, validering, udtrækning og videregivelse af nødvendige oplysninger til downstream-applikationer. Denne manuelle proces er kedelig, gentagen, fejltilbøjelig, dyr og svær at skalere. Andre brancher, der står over for lignende udfordringer, omfatter realkreditlån og udlån, sundhedspleje og biovidenskab, jura, regnskab og skatteforvaltning. Det er ekstremt vigtigt for virksomheder at behandle så store mængder dokumenter rettidigt med et højt niveau af nøjagtighed og nominel manuel indsats.

Amazon Comprehend leverer nøglefunktioner til at automatisere dokumentklassificering og informationsudtrækning fra en stor mængde dokumenter med høj nøjagtighed på en skalerbar og omkostningseffektiv måde. Følgende diagram viser en logisk IDP-arbejdsgang med Amazon Comprehend. Kernen i arbejdsgangen består af dokumentklassificering og informationsudtræk ved hjælp af NER med tilpassede Amazon Comprehend-modeller. Diagrammet viser også, hvordan de tilpassede modeller løbende kan forbedres for at give højere nøjagtighed, efterhånden som dokumenter og forretningsprocesser udvikler sig.

Brugerdefineret dokumentklassificering

Med tilpasset Amazon Comprehend-klassificering kan du organisere dine dokumenter i foruddefinerede kategorier (klasser). På et højt niveau er følgende trin til at konfigurere en brugerdefineret dokumentklassificering og udføre dokumentklassificering:

Forbered træningsdata for at træne en brugerdefineret dokumentklassifikator.
Træn en kundedokumentklassificerer med træningsdataene.
Når modellen er trænet, kan du eventuelt implementere et slutpunkt i realtid.
Udfør dokumentklassificering med enten et asynkront job eller i realtid ved hjælp af slutpunktet.

Trin 1 og 2 udføres typisk i begyndelsen af et IDP-projekt, efter at de dokumentklasser, der er relevante for forretningsprocessen, er identificeret. En tilpasset klassificeringsmodel kan derefter periodisk genoptrænes for at forbedre nøjagtigheden og introducere nye dokumentklasser. Du kan træne en tilpasset klassifikationsmodel enten i multi-klasse tilstand or multi-label-tilstand. Træning kan udføres for hver enkelt på en af to måder: ved hjælp af en CSV-fil eller ved hjælp af en udvidet manifestfil. Henvise til Udarbejdelse af træningsdata for flere detaljer om træning af en tilpasset klassifikationsmodel. Efter at en brugerdefineret klassificeringsmodel er trænet, kan et dokument klassificeres enten vha realtidsanalyse eller en asynkront job. Realtidsanalyse kræver en endepunkt, der skal implementeres med den trænede model og er bedst egnet til små dokumenter afhængigt af brugssituationen. For et stort antal dokumenter er et asynkront klassifikationsjob bedst egnet.

Træn en brugerdefineret dokumentklassificeringsmodel

For at demonstrere den nye funktion trænede vi en brugerdefineret klassificeringsmodel i multi-label-tilstand, som kan klassificere forsikringsdokumenter i en af syv forskellige klasser. Klasserne er INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYog CMS1500. Vi ønsker at klassificere eksempeldokumenter i oprindelige PDF-, PNG- og JPEG-formater, gemt i et Amazon Simple Storage Service (Amazon S3) spand, ved hjælp af klassificeringsmodellen. For at starte et asynkront klassificeringsjob skal du udføre følgende trin:

På Amazon Comprehend-konsollen skal du vælge Analyse job i navigationsruden.
Vælg Skab job.
Til Navn, indtast et navn til dit klassificeringsjob.
Til Analyse type¸ vælg Brugerdefineret klassificering.
Til Klassificeringsmodel, vælg den passende trænede klassifikationsmodel.
Til Udgave, vælg den relevante modelversion.

I Indtast data afsnit, angiver vi det sted, hvor vores dokumenter opbevares.

Til Input format, vælg Et dokument pr. fil.
Til Dokumentlæsetilstand¸ vælg Tving handling til at læse dokument.
Til Dokumentlæst handling, vælg Textract-registrer dokumenttekst.

Dette gør det muligt for Amazon Comprehend at bruge amazontekst DetectDocumentText API til at læse dokumenterne, før du kører klassificeringen. Det DetectDocumentText API er nyttigt til at udtrække linjer og ord med tekst fra dokumenterne. Du kan også vælge Textract analyse dokument forum Dokumentlæst handling, i hvilket tilfælde Amazon Comprehend bruger Amazon Textract AnalyserDokument API til at læse dokumenterne. Med AnalyzeDocument API, kan du vælge at udtrække tabeller, Formularer, eller begge. Det Dokumentlæsetilstand mulighed gør det muligt for Amazon Comprehend at udtrække teksten fra dokumenter bag kulisserne, hvilket hjælper med at reducere det ekstra trin med at udtrække tekst fra dokumentet, som er påkrævet i vores dokumentbehandlingsarbejdsgang.

Amazon Comprehend brugerdefinerede klassificering kan også behandle rå JSON-svar genereret af DetectDocumentText , AnalyzeDocument API'er uden ændringer eller forbehandling. Dette er nyttigt for eksisterende arbejdsgange, hvor Amazon Textract allerede er involveret i at udtrække tekst fra dokumenterne. I dette tilfælde kan JSON-outputtet fra Amazon Textract føres direkte til Amazon Comprehend-dokumentklassificerings-API'erne.

I Outputdata afsnit, for S3 placering, angiv en Amazon S3-placering, hvor du ønsker, at det asynkrone job skal skrive resultaterne af inferensen.
Lad de resterende indstillinger være standard.
Vælg Skab job at starte jobbet.

Du kan se status for jobbet på Analyse job .

Når jobbet er færdigt, kan vi se output fra analysejobbet, som er gemt på Amazon S3-lokationen, der er angivet under jobkonfigurationen. Klassifikationsoutputtet for vores enkeltsidede PDF-eksempel CMS1500-dokument er som følger. Outputtet er en fil i JSON-linjeformat, som er blevet formateret for at forbedre læsbarheden.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Det foregående eksempel er et enkeltsidet PDF-dokument; tilpasset klassificering kan dog også håndtere flersidede PDF-dokumenter. I tilfælde af flersidede dokumenter indeholder outputtet flere JSON-linjer, hvor hver linje er klassificeringsresultatet af hver af siderne i et dokument. Følgende er et eksempel på en flersidet klassifikationsoutput:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Brugerdefineret enhedsgenkendelse

Med en Amazon Comprehend tilpasset enhedsgenkendelse kan du analysere dokumenter og udtrække enheder som produktkoder eller virksomhedsspecifikke enheder, der passer til dine særlige behov. På et højt niveau er følgende trin til at konfigurere en brugerdefineret enhedsgenkendelse og udføre enhedsdetektion:

Forbered træningsdata for at træne en brugerdefineret enhedsgenkender.
Træn en brugerdefineret enhedsgenkender med træningsdataene.
Når modellen er trænet, kan du eventuelt implementere et slutpunkt i realtid.
Udfør enhedsdetektion med enten et asynkront job eller i realtid ved hjælp af slutpunktet.

En tilpasset enhedsgenkendelsesmodel kan periodisk genoptrænes for at forbedre nøjagtigheden og introducere nye enhedstyper. Du kan træne en tilpasset enhedsgenkendelsesmodel med enten enhedslister or anmærkninger. I begge tilfælde lærer Amazon Comprehend om den slags dokumenter og konteksten, hvor entiteterne opstår, for at bygge en enhedsgenkendelsesmodel, der kan generalisere for at opdage nye entiteter. Henvise til Forberedelse af træningsdata for at lære mere om forberedelse af træningsdata til tilpasset enhedsgenkendelse.

Efter at en brugerdefineret enhedsgenkendelsesmodel er trænet, kan enhedsdetektering udføres enten vha realtidsanalyse eller en asynkront job. Realtidsanalyse kræver en endepunkt, der skal implementeres med den trænede model og er bedst egnet til små dokumenter afhængigt af brugssituationen. For et stort antal dokumenter er et asynkront klassifikationsjob bedst egnet.

Træn en tilpasset enhedsgenkendelsesmodel

For at demonstrere enhedsdetekteringen i realtid trænede vi en tilpasset enhedsgenkendelsesmodel med forsikringsdokumenter og udvidede manifestfiler ved hjælp af brugerdefinerede annoteringer og implementerede slutpunktet ved hjælp af den trænede model. Enhedstyperne er Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionog Sender. Vi ønsker at detektere enheder fra eksempeldokumenter i oprindelige PDF-, PNG- og JPEG-formater, gemt i en S3-bøtte, ved hjælp af genkendelsesmodellen.

Bemærk, at du kan bruge en brugerdefineret enhedsgenkendelsesmodel, der er trænet med PDF-dokumenter til at udtrække brugerdefinerede enheder fra PDF-, TIFF-, billed-, Word- og almindelige tekstdokumenter. Hvis din model er trænet ved at bruge tekstdokumenter og en enhedsliste, kan du kun bruge almindelige tekstdokumenter til at udtrække entiteterne.

Vi er nødt til at detektere enheder fra et eksempeldokument i et hvilket som helst oprindeligt PDF-, PNG- og JPEG-format ved hjælp af genkendelsesmodellen. For at starte et synkront enhedsopdagelsesjob skal du udføre følgende trin:

På Amazon Comprehend-konsollen skal du vælge Realtidsanalyse i navigationsruden.
Under Analyse type, Vælg Tilpasset.
Til Brugerdefineret enhedsgenkendelse, vælg den tilpassede modeltype.
Til Endpoint, skal du vælge det realtidsslutpunkt, du har oprettet for din enhedsgenkendelsesmodel.
Type Upload fil Og vælg Vælg fil for at uploade PDF- eller billedfilen til slutning.
Udvid Avanceret dokumentinput afsnit og for Dokumentlæsetilstand, vælg Service standard.
Til Dokumentlæst handling, vælg Textract-registrer dokumenttekst.
Vælg Analyser at analysere dokumentet i realtid.

De anerkendte enheder er opført i Insights afsnit. Hver enhed indeholder enhedsværdien (teksten), typen af enhed som defineret af din under træningsprocessen og den tilsvarende tillidsscore.

For flere detaljer og en komplet gennemgang af, hvordan man træner en brugerdefineret enhedsgenkendelsesmodel og bruger den til at udføre asynkron inferens ved hjælp af asynkrone analysejob, se Uddrag tilpassede enheder fra dokumenter i deres oprindelige format med Amazon Comprehend.

Konklusion

Dette indlæg demonstrerede, hvordan du kan klassificere og kategorisere semi-strukturerede dokumenter i deres oprindelige format og opdage forretningsspecifikke enheder fra dem ved hjælp af Amazon Comprehend. Du kan bruge realtids-API'er til brugssager med lav latency eller bruge asynkrone analysejob til massedokumentbehandling.

Som et næste skridt opfordrer vi dig til at besøge Amazon Comprehend GitHub repository for fulde kodeeksempler for at prøve disse nye funktioner. Du kan også besøge Amazon Comprehend Developer Guide , Amazon Forstå udviklerressourcer til videoer, tutorials, blogs og mere.

Om forfatterne

Wrick Talukdar er seniorarkitekt hos Amazon Comprehend Service-teamet. Han arbejder med AWS-kunder for at hjælpe dem med at indføre maskinlæring i stor skala. Uden for arbejdet holder han af at læse og fotografere.

Anjan Biswas er Senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del af det verdensomspændende AI-serviceteam og arbejder med kunder for at hjælpe dem med at forstå og udvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med at arbejde med globale forsyningskæder, fremstillings- og detailorganisationer og hjælper aktivt kunder med at komme i gang og skalere på AWS AI-tjenester.

Godwin Sahayaraj Vincent er en Enterprise Solutions Architect hos AWS, der brænder for machine learning og giver vejledning til kunderne om at designe, implementere og administrere deres AWS-arbejdsbelastninger og -arkitekturer. I sin fritid elsker han at spille cricket med sine venner og tennis med sine tre børn.

Tidsstempel: 2. December, 20222. December, 2022

Mere fra AWS maskinindlæring

Amazon SageMaker Feature Store understøtter nu deling, opdagelse og adgang på tværs af konti | Amazon Web Services

Kildeklynge:

AWS maskinindlæring

Kildeknude: 1947390

Tidsstempel: Februar 13, 2024

AWS udfører finjustering på en Large Language Model (LLM) for at klassificere giftig tale for et stort spilfirma | Amazon Web Services

AWS maskinindlæring

Kildeknude: 1822975

Tidsstempel: April 7, 2023

Introduktion af ét-trins klassificering og enhedsgenkendelse med Amazon Comprehend til intelligent dokumentbehandling

Genudgivet af Platon

Oversigt over løsning

Brugerdefineret dokumentklassificering

Træn en brugerdefineret dokumentklassificeringsmodel

Brugerdefineret enhedsgenkendelse

Træn en tilpasset enhedsgenkendelsesmodel

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Startups på tværs af AWS Accelerators bruger AI og ML til at løse missionskritiske kundeudfordringer

Brug computervision til at måle landbrugets udbytte med Amazon Rekognition Custom Labels

Nem og præcis prognose med AutoGluon-TimeSeries

Byg en e-mail-spammatektor ved hjælp af Amazon SageMaker | Amazon Web Services

Detektion og højfrekvent overvågning af metanemissionspunktkilder ved hjælp af Amazon SageMaker geospatiale kapaciteter | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto