Bygg en anpassad enhetsidentifierare för PDF-dokument med Amazon Comprehend

Återutgiven av Platon

anhängare: 0

I många branscher är det viktigt att extrahera anpassade enheter från dokument i tid. Detta kan vara utmanande. Försäkringsanspråk, till exempel, innehåller ofta dussintals viktiga attribut (som datum, namn, platser och rapporter) spridda över långa och täta dokument. Att manuellt skanna och extrahera sådan information kan vara felbenägen och tidskrävande. Regelbaserad programvara kan hjälpa, men är i slutändan för stel för att anpassas till de många olika dokumenttyperna och layouterna.

För att hjälpa till att automatisera och påskynda denna process kan du använda Amazon Comprehend att upptäcka anpassade enheter snabbt och exakt genom att använda maskininlärning (ML). Detta tillvägagångssätt är flexibelt och korrekt, eftersom systemet kan anpassa sig till nya dokument genom att använda vad det har lärt sig tidigare. Tills nyligen kunde dock denna funktion endast tillämpas på vanliga textdokument, vilket innebar att positionsinformation gick förlorad när dokumenten konverterades från deras ursprungliga format. För att ta itu med detta var det nyligen meddelat att Amazon Comprehend kan extrahera anpassade enheter i PDF-filer, bilder och Word-filformat.

I det här inlägget går vi igenom ett konkret exempel från försäkringsbranschen på hur du kan bygga en anpassad igenkännare med hjälp av PDF-kommentarer.

Lösningsöversikt

Vi går igenom följande steg på hög nivå:

Skapa PDF-anteckningar.
Använd PDF-anteckningarna för att träna en anpassad modell med Python API.
Skaffa utvärderingsmått från den utbildade modellen.
Gör slutsatser om ett osynligt dokument.

I slutet av detta inlägg vill vi kunna skicka ett obearbetat PDF-dokument till vår utbildade modell och få det att mata ut en strukturerad fil med information om våra intresseetiketter. I synnerhet tränar vi vår modell för att upptäcka följande fem enheter som vi valde på grund av deras relevans för försäkringskrav: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossoch InsuredMailingAddress. Efter att ha läst den strukturerade produktionen kan vi visualisera etikettinformationen direkt på PDF-dokumentet, som i följande bild.

Det här inlägget åtföljs av en Jupyter-anteckningsbok som innehåller samma steg. Följ gärna med medan du kör stegen i det anteckningsbok. Observera att du måste ställa in Amazon SageMaker miljö för att låta Amazon Comprehend läsa från Amazon enkel lagringstjänst (Amazon S3) enligt beskrivningen överst på den bärbara datorn.

Skapa PDF-anteckningar

För att skapa anteckningar för PDF-dokument kan du använda Amazon SageMaker Ground Sannhet, en fullständigt hanterad datamärkningstjänst som gör det enkelt att bygga mycket exakta träningsdatauppsättningar för ML.

För den här handledningen har vi redan kommenterat PDF-filerna i deras ursprungliga form (utan att konvertera till vanlig text) med Ground Truth. Ground Truth-jobbet genererar tre vägar vi behöver för att träna vår anpassade Amazon Comprehend-modell:

Källor – Sökvägen till indata-PDF-filerna.
Anteckningar – Sökvägen till JSON-anteckningsfilerna som innehåller den märkta enhetsinformationen.
Manifest – Filen som pekar på platsen för anteckningarna och käll-PDF-filerna. Den här filen används för att skapa ett anpassat utbildningsjobb för Amazon Comprehend för enhetsigenkänning och träna en anpassad modell.

Följande skärmdump visar en exempelkommentar.

Det anpassade Ground Truth-jobbet genererar en PDF-anteckning som fångar information på blocknivå om entiteten. Sådan information på blocknivå tillhandahåller de exakta positionskoordinaterna för entiteten (med de underordnade blocken som representerar varje ord inom entitetsblocket). Detta skiljer sig från ett standard Ground Truth-jobb där data i PDF-filen är tillplattad till textformat och endast offsetinformation – men inte exakt koordinatinformation – fångas under anteckning. Den rika positionsinformationen vi får med detta anpassade annoteringsparadigm gör att vi kan träna en mer exakt modell.

Manifestet som genereras från den här typen av jobb kallas ett utökat manifest, till skillnad från en CSV som används för standardkommentarer. För mer information, se Anteckningar.

Använd PDF-anteckningarna för att träna en anpassad modell med Python API

En utökad manifestfil måste formateras i JSON Lines-format. I formatet JSON Lines är varje rad i filen ett komplett JSON-objekt följt av en radavgränsare.

Följande kod är en post i denna utökade manifestfil.

Några saker att notera:

Fem märkningstyper är associerade med det här jobbet: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossoch InsuredMailingAddress.
Manifestfilen refererar till både käll-PDF-platsen och anteckningsplatsen.
Metadata om anteckningsjobbet (som skapelsedatum) samlas in.
Use-textract-only är inställd på False, vilket betyder att anteckningsverktyget bestämmer om PDFPlumber ska användas (för en inbyggd PDF) eller amazontext (för en skannad PDF). Om inställt på true, Amazon Textract används i båda fallen (vilket är dyrare men potentiellt mer exakt).

Nu kan vi träna igenkännaren, som visas i följande exempelkod.

Vi skapar en igenkännare för att känna igen alla fem typer av enheter. Vi kunde ha använt en delmängd av dessa enheter om vi hade föredragit det. Du kan använda upp till 25 enheter.

För detaljer om varje parameter, se create_entity_recognizer.

Beroende på storleken på träningssetet kan träningstiden variera. För denna datauppsättning tar utbildningen cirka 1 timme. För att övervaka statusen för träningsjobbet kan du använda describe_entity_recognizer API.

Skaffa utvärderingsmått från den utbildade modellen

Amazon Comprehend tillhandahåller modellprestandamått för en tränad modell, som indikerar hur väl den tränade modellen förväntas göra förutsägelser med liknande indata. Vi kan erhålla både globala precisions- och återkallningsmått såväl som per-entitetsmått. En exakt modell har hög precision och hög återkallelse. Hög precision innebär att modellen vanligtvis är korrekt när den anger en viss etikett; hög återkallelse betyder att modellen hittade de flesta etiketterna. F1 är ett sammansatt mått (harmoniskt medelvärde) av dessa mått, och är därför hög när båda komponenterna är höga. För en detaljerad beskrivning av måtten, se Anpassade entitetsigenkänningsmetriker.

När du tillhandahåller dokumenten till träningsjobbet separerar Amazon Comprehend dem automatiskt i ett tåg- och testset. När modellen har nått TRAINED status kan du använda describe_entity_recognizer API igen för att få utvärderingsstatistiken på testsetet.

Följande är ett exempel på globala mätvärden.

Följande är ett exempel på mätvärden per enhet.

De höga poängen indikerar att modellen har lärt sig väl hur man upptäcker dessa enheter.

Gör slutsatser om ett osynligt dokument

Låt oss dra slutsatser med vår utbildade modell på ett dokument som inte var en del av utbildningsproceduren. Vi kan använda detta asynkrona API för standard eller anpassad NER. Om vi använder den för anpassad NER (som i det här inlägget), måste vi klara ARN för den utbildade modellen.

Vi kan granska det inskickade jobbet genom att skriva ut svaret.

Vi kan formatera utdata från detektionsjobbet med Pandas till en tabell. De Score värde anger vilken konfidensnivå modellen har för enheten.

Slutligen kan vi lägga över förutsägelserna på de osynliga dokumenten, vilket ger resultatet som visas överst i detta inlägg.

Slutsats

I det här inlägget såg du hur man extraherar anpassade enheter i deras ursprungliga PDF-format med Amazon Comprehend. Som nästa steg, överväg att dyka djupare:

Träna din egen igenkännare med hjälp av den medföljande anteckningsboken här.. Kom ihåg att radera alla resurser när du är klar för att undvika framtida avgifter.
Skapa ditt eget anpassade anteckningsjobb för att samla in PDF-kommentarer för dina intressenter. För mer information, se Anpassad dokumentkommentar för att extrahera namngivna enheter i dokument med Amazon Comprehend.
Träna en anpassad NER-modell på Amazon Comprehend-konsolen. För mer information, se Extrahera anpassade enheter från dokument i deras ursprungliga format med Amazon Comprehend.

Om författarna

Joshua Levy är Senior Applied Scientist i Amazon Machine Learning Solutions lab, där han hjälper kunder att designa och bygga AI/ML-lösningar för att lösa viktiga affärsproblem.

Andrew Ang är en maskininlärningsingenjör i Amazon Machine Learning Solutions Lab, där han hjälper kunder från ett brett spektrum av branscher att identifiera och bygga AI/ML-lösningar för att lösa deras mest pressande affärsproblem. Utanför jobbet tycker han om att titta på rese- och matvloggar.

Alex Chirayath är en mjukvaruingenjör i Amazon Machine Learning Solutions Lab med fokus på att bygga användningsfallsbaserade lösningar som visar kunder hur man låser upp kraften hos AWS AI/ML-tjänster för att lösa verkliga affärsproblem.

Jennifer Zhu är en tillämpad forskare från Amazon AI Machine Learning Solutions Lab. Hon arbetar med AWS kunder som bygger AI/ML-lösningar för deras högprioriterade affärsbehov.

Niharika Jayanthi är en frontendingenjör i Amazon Machine Learning Solutions Lab – Human in the Loop-teamet. Hon hjälper till att skapa användarupplevelselösningar för Amazon SageMaker Ground Truth-kunder.

Boris Aronchik är chef i Amazon AI Machine Learning Solutions Lab där han leder ett team av ML-forskare och ingenjörer för att hjälpa AWS-kunder att förverkliga affärsmål med AI/ML-lösningar.

Tidsstämpel: 8 april 2022

Tidsstämpel: Mar 29, 2022

Bygg en anpassad enhetsidentifierare för PDF-dokument med Amazon Comprehend

Återutgiven av Platon

Lösningsöversikt

Skapa PDF-anteckningar

Använd PDF-anteckningarna för att träna en anpassad modell med Python API

Skaffa utvärderingsmått från den utbildade modellen

Gör slutsatser om ett osynligt dokument

Slutsats

Om författarna

Mer från AWS maskininlärning

Kostnadseffektiv ML-inferens med modeller med flera ramar på Amazon SageMaker

Amazon Rekognition introducerar Streaming Video Events för att ge realtidsvarningar på livevideoströmmar

Minska energiförbrukningen för dina maskininlärningsbelastningar med upp till 90 % med specialbyggda AWS acceleratorer | Amazon webbtjänster

Chronomics upptäcker COVID-19-testresultat med Amazon Rekognition Custom Labels

T-Mobile US, Inc. använder artificiell intelligens genom Amazon Transcribe och Amazon Translate för att leverera röstmeddelanden på det språk som kunderna väljer | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto