Bouw een aangepaste entiteitsherkenning voor PDF-documenten met Amazon Comprehend

Heruitgegeven door Plato

volgers: 0

In veel sectoren is het van cruciaal belang om aangepaste entiteiten tijdig uit documenten te halen. Dit kan een uitdaging zijn. Verzekeringsclaims bevatten bijvoorbeeld vaak tientallen belangrijke kenmerken (zoals datums, namen, locaties en rapporten), verspreid over lange en dichte documenten. Het handmatig scannen en extraheren van dergelijke informatie kan foutgevoelig en tijdrovend zijn. Op regels gebaseerde software kan helpen, maar is uiteindelijk te rigide om zich aan te passen aan de vele verschillende documenttypen en lay-outs.

Om dit proces te helpen automatiseren en versnellen, kunt u gebruik maken van Amazon begrijpt het om aangepaste entiteiten snel en nauwkeurig te detecteren met behulp van machine learning (ML). Deze aanpak is flexibel en nauwkeurig, omdat het systeem zich kan aanpassen aan nieuwe documenten door gebruik te maken van wat het in het verleden heeft geleerd. Tot voor kort kon deze mogelijkheid echter alleen worden toegepast op platte-tekstdocumenten, wat betekende dat positionele informatie verloren ging bij het converteren van de documenten vanuit hun oorspronkelijke formaat. Om dit aan te pakken, was het zo onlangs aangekondigd dat Amazon Comprehend aangepaste entiteiten kan extraheren in PDF's, afbeeldingen en Word-bestandsformaten.

In dit bericht doorlopen we een concreet voorbeeld uit de verzekeringssector van hoe u een aangepaste herkenner kunt bouwen met behulp van PDF-annotaties.

Overzicht oplossingen

We leiden u door de volgende stappen op hoog niveau:

Maak PDF-annotaties.
Gebruik de PDF-annotaties om een aangepast model te trainen met behulp van de Python API.
Evaluatiestatistieken verkrijgen uit het getrainde model.
Voer gevolgtrekkingen uit op een onzichtbaar document.

Aan het einde van dit bericht willen we een onbewerkt PDF-document naar ons getrainde model kunnen sturen en een gestructureerd bestand kunnen laten uitvoeren met informatie over onze interessante labels. We trainen ons model in het bijzonder om de volgende vijf entiteiten te detecteren die we hebben gekozen vanwege hun relevantie voor verzekeringsclaims: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss en InsuredMailingAddress. Na het lezen van de gestructureerde uitvoer kunnen we de labelinformatie rechtstreeks op het PDF-document visualiseren, zoals in de volgende afbeelding.

Dit bericht gaat vergezeld van een Jupyter-notebook dat dezelfde stappen bevat. Voel je vrij om mee te volgen terwijl je de stappen daarin uitvoert notitieboekje. Houd er rekening mee dat u de Amazon Sage Maker omgeving waarin Amazon Comprehend kan lezen Amazon eenvoudige opslagservice (Amazon S3) zoals beschreven bovenaan de notebook.

Maak PDF-annotaties

Om annotaties voor PDF-documenten te maken, kunt u gebruiken Amazon SageMaker Grondwaarheid, een volledig beheerde service voor het labelen van gegevens waarmee u eenvoudig zeer nauwkeurige trainingsdatasets voor ML kunt bouwen.

Voor deze zelfstudie hebben we de PDF's al in hun oorspronkelijke vorm geannoteerd (zonder ze naar platte tekst te converteren) met behulp van Ground Truth. De Ground Truth-taak genereert drie paden die we nodig hebben voor het trainen van ons aangepaste Amazon Comprehend-model:

bronnen – Het pad naar de invoer-PDF's.
Annotaties – Het pad naar de annotatie-JSON-bestanden die de gelabelde entiteitsinformatie bevatten.
Manifesteren – Het bestand dat verwijst naar de locatie van de annotaties en bron-PDF's. Dit bestand wordt gebruikt om een Amazon Comprehend-trainingstaak voor aangepaste entiteitsherkenning te maken en een aangepast model te trainen.

De volgende schermafbeelding toont een voorbeeldannotatie.

De aangepaste Ground Truth-taak genereert een PDF-annotatie die informatie op blokniveau over de entiteit vastlegt. Dergelijke informatie op blokniveau verschaft de precieze positionele coördinaten van de entiteit (waarbij de kindblokken elk woord binnen het entiteitsblok vertegenwoordigen). Dit verschilt van een standaard Ground Truth-taak waarbij de gegevens in de PDF worden afgevlakt tot tekstueel formaat en alleen offset-informatie (maar geen precieze coördinaatinformatie) wordt vastgelegd tijdens de annotatie. De rijke positionele informatie die we verkrijgen met dit aangepaste annotatieparadigma stelt ons in staat een nauwkeuriger model te trainen.

Het manifest dat op basis van dit type taak wordt gegenereerd, wordt een uitgebreid manifest genoemd, in tegenstelling tot een CSV dat wordt gebruikt voor standaardannotaties. Voor meer informatie, zie Annotaties.

Gebruik de PDF-annotaties om een aangepast model te trainen met behulp van de Python API

Een uitgebreid manifestbestand moet zijn opgemaakt in JSON Lines-indeling. In JSON Lines-indeling is elke regel in het bestand een compleet JSON-object, gevolgd door een scheidingsteken voor nieuwe regels.

De volgende code is een vermelding in dit uitgebreide manifestbestand.

Een paar dingen om op te merken:

Er zijn vijf etiketteringstypen aan deze taak gekoppeld: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss en InsuredMailingAddress.
Het manifestbestand verwijst naar zowel de bron-PDF-locatie als de annotatielocatie.
Metagegevens over de annotatietaak (zoals de aanmaakdatum) worden vastgelegd.
Use-textract-only is ingesteld op False, wat betekent dat de annotatietool beslist of PDFPlumber (voor een native PDF) of Amazon T-extract (voor een gescande PDF). Indien ingesteld op trueIn beide gevallen wordt Amazon Textract gebruikt (wat duurder maar potentieel nauwkeuriger is).

Nu kunnen we de herkenner trainen, zoals weergegeven in de volgende voorbeeldcode.

We creëren een herkenner om alle vijf soorten entiteiten te herkennen. We hadden een subset van deze entiteiten kunnen gebruiken als we dat liever hadden. U kunt maximaal 25 entiteiten gebruiken.

Voor meer informatie over elke parameter raadpleegt u create_entity_recognizer.

Afhankelijk van de grootte van de trainingsset kan de trainingstijd variëren. Voor deze dataset duurt de training ongeveer 1 uur. Om de status van de trainingstaak te controleren, kunt u de describe_entity_recognizer API.

Evaluatiestatistieken verkrijgen uit het getrainde model

Amazon Comprehend biedt modelprestatiestatistieken voor een getraind model, die aangeven hoe goed het getrainde model naar verwachting voorspellingen zal doen met behulp van vergelijkbare invoer. We kunnen zowel globale precisie- en terugroepstatistieken verkrijgen als statistieken per entiteit. Een nauwkeurig model heeft een hoge precisie en een hoge herinnering. Hoge precisie betekent dat het model meestal correct is als het een bepaald label aangeeft; hoge terugroepactie betekent dat het model de meeste labels heeft gevonden. F1 is een samengestelde metriek (harmonisch gemiddelde) van deze maten, en is daarom hoog als beide componenten hoog zijn. Zie voor een gedetailleerde beschrijving van de statistieken Aangepaste metrische gegevens voor entiteitherkenning.

Wanneer u de documenten aan de trainingstaak verstrekt, scheidt Amazon Comprehend ze automatisch in een trein- en testset. Wanneer het model is bereikt TRAINED status, kunt u de describe_entity_recognizer API opnieuw om de evaluatiestatistieken op de testset te verkrijgen.

Het volgende is een voorbeeld van globale statistieken.

Hieronder volgt een voorbeeld van statistieken per entiteit.

De hoge scores geven aan dat het model goed heeft geleerd hoe deze entiteiten kunnen worden gedetecteerd.

Voer gevolgtrekkingen uit op een onzichtbaar document

Laten we met ons getrainde model gevolgtrekkingen maken op basis van een document dat geen deel uitmaakte van de trainingsprocedure. We kunnen deze asynchrone API gebruiken voor standaard of aangepaste NER. Als we het gebruiken voor aangepaste NER (zoals in dit bericht), moeten we de ARN van het getrainde model doorgeven.

We kunnen de ingediende taak beoordelen door het antwoord af te drukken.

We kunnen de uitvoer van de detectietaak met Pandas in een tabel opmaken. De Score waarde geeft het betrouwbaarheidsniveau aan dat het model heeft over de entiteit.

Ten slotte kunnen we de voorspellingen over de ongeziene documenten heen leggen, wat het resultaat oplevert zoals weergegeven bovenaan dit bericht.

Conclusie

In dit bericht zag je hoe je aangepaste entiteiten in hun eigen PDF-formaat kunt extraheren met Amazon Comprehend. Overweeg om als volgende stappen dieper te duiken:

Train uw eigen herkenner met behulp van het meegeleverde notitieboekje hier. Vergeet niet om alle bronnen te verwijderen als u klaar bent, om toekomstige kosten te voorkomen.
Stel uw eigen aangepaste annotatietaak in om PDF-annotaties te verzamelen voor de entiteiten waarin u geïnteresseerd bent. Voor meer informatie, zie Aangepaste documentannotatie voor het extraheren van benoemde entiteiten in documenten met behulp van Amazon Comprehend.
Train een aangepast NER-model op de Amazon Comprehend-console. Voor meer informatie, zie Extraheer aangepaste entiteiten uit documenten in hun oorspronkelijke indeling met Amazon Comprehend.

Over de auteurs

Jozua Levy is Senior Applied Scientist in het Amazon Machine Learning Solutions-lab, waar hij klanten helpt bij het ontwerpen en bouwen van AI/ML-oplossingen om belangrijke zakelijke problemen op te lossen.

Andrew Ango is een Machine Learning Engineer in het Amazon Machine Learning Solutions Lab, waar hij klanten uit een breed spectrum van industrieën helpt bij het identificeren en bouwen van AI/ML-oplossingen om hun meest urgente zakelijke problemen op te lossen. Buiten zijn werk kijkt hij graag naar reis- en foodvlogs.

Alex Chirayath is een Software Engineer bij het Amazon Machine Learning Solutions Lab, gericht op het bouwen van op use case gebaseerde oplossingen die klanten laten zien hoe ze de kracht van AWS AI/ML-services kunnen ontsluiten om echte zakelijke problemen op te lossen.

Jennifer Zhu is een toegepast wetenschapper van Amazon AI Machine Learning Solutions Lab. Ze werkt samen met de klanten van AWS aan het bouwen van AI/ML-oplossingen voor hun zakelijke behoeften met hoge prioriteit.

Niharika Jayanthi is een Front End Engineer in het Amazon Machine Learning Solutions Lab – Human in the Loop-team. Ze helpt bij het creëren van gebruikerservaringsoplossingen voor Amazon SageMaker Ground Truth-klanten.

Boris Aronchik is manager bij Amazon AI Machine Learning Solutions Lab, waar hij leiding geeft aan een team van ML-wetenschappers en -ingenieurs om AWS-klanten te helpen bedrijfsdoelstellingen te realiseren met behulp van AI/ML-oplossingen.

Tijdstempel: 8 april 2022

Tijdstempel: 29-2022-XNUMX

Bouw een aangepaste entiteitsherkenning voor PDF-documenten met Amazon Comprehend

Heruitgegeven door Plato

Overzicht oplossingen

Maak PDF-annotaties

Gebruik de PDF-annotaties om een aangepast model te trainen met behulp van de Python API

Evaluatiestatistieken verkrijgen uit het getrainde model

Voer gevolgtrekkingen uit op een onzichtbaar document

Conclusie

Over de auteurs

Meer van AWS-machine learning

Kostenefficiënte ML-inferentie met multi-framework-modellen op Amazon SageMaker

Amazon Rekognition introduceert Streaming Video Events om realtime waarschuwingen te geven over live videostreams

Verlaag het energieverbruik van uw machine learning-workloads met tot wel 90% met speciaal voor AWS gebouwde versnellers | Amazon-webservices

Chronomics detecteert COVID-19-testresultaten met Amazon Rekognition Custom Labels

T-Mobile US, Inc. gebruikt kunstmatige intelligentie via Amazon Transcribe en Amazon Translate om voicemail te bezorgen in de taal van de keuze van hun klanten | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account

Overzicht oplossingen

Maak PDF-annotaties

Gebruik de PDF-annotaties om een ​​aangepast model te trainen met behulp van de Python API

Evaluatiestatistieken verkrijgen uit het getrainde model

Voer gevolgtrekkingen uit op een onzichtbaar document

Conclusie

Over de auteurs

Meer van AWS-machine learning

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account

Gebruik de PDF-annotaties om een aangepast model te trainen met behulp van de Python API