Amazon Comprehend Document Classifier lägger till layoutstöd för högre noggrannhet

Återutgiven av Platon

anhängare: 0

Förmågan att effektivt hantera och bearbeta enorma mängder dokument har blivit avgörande för företag i den moderna världen. På grund av det kontinuerliga inflödet av information som alla företag hanterar, är manuell klassificering av dokument inte längre ett genomförbart alternativ. Dokumentklassificeringsmodeller kan automatisera proceduren och hjälpa organisationer att spara tid och resurser. Traditionella kategoriseringstekniker, såsom manuell bearbetning och nyckelordsbaserade sökningar, blir mindre effektiva och mer tidskrävande i takt med att mängden dokument ökar. Denna ineffektivitet orsakar lägre produktivitet och högre driftskostnader. Dessutom kan det förhindra att viktig information blir tillgänglig vid behov, vilket kan leda till en dålig kundupplevelse och påverka beslutsfattandet. På AWS re:Invent 2022, Amazon Comprehend, en NLP-tjänst (natural language processing) som använder maskininlärning (ML) för att upptäcka insikter från text, lanserades stöd för inbyggda dokumenttyper. Den här nya funktionen gav dig möjligheten att klassificera dokument i inbyggda format (PDF, TIFF, JPG, PNG, DOCX) med Amazon Comprehend.

Idag är vi glada att kunna meddela att Amazon Comprehend nu stöder anpassad klassificeringsmodellutbildning med dokument som PDF, Word och bildformat. Du kan nu träna skräddarsydda dokumentklassificeringsmodeller på inbyggda dokument som stöder layout utöver text, vilket ökar resultatens noggrannhet.

I det här inlägget ger vi en översikt över hur du kan komma igång med att träna en Amazon Comprehend anpassad dokumentklassificeringsmodell.

Översikt

Förmågan att förstå de relativa placeringarna av objekt inom ett definierat utrymme kallas layoutmedvetenhet. I det här fallet hjälper det modellen att förstå hur rubriker, underrubriker, tabeller och grafik relaterar till varandra i ett dokument. Modellen kan mer effektivt kategorisera ett dokument baserat på dess innehåll när den är medveten om textens struktur och layout.

Amazon Comprehend dokumentklassificerare lägger till layoutstöd för högre precision PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

I det här inlägget går vi igenom de inblandade dataförberedelserna, demonstrerar modellutbildningsprocessen och diskuterar fördelarna med att använda den nya anpassade dokumentklassificeringsmodellen i Amazon Comprehend. Som en bästa praxis bör du överväga följande punkter innan du börjar träna den anpassade dokumentklassificeringsmodellen.

Utvärdera dina dokumentklassificeringsbehov

Identifiera de olika typer av dokument som du kan behöva klassificera, tillsammans med de olika klasserna eller kategorierna för att stödja ditt användningsfall. Bestäm lämplig klassificeringsstruktur eller taxonomi efter att ha utvärderat mängden och typerna av dokument som behöver kategoriseras. Dokumenttyper kan variera från PDF, Word, bilder och så vidare. Se till att du har auktoriserad åtkomst till en mängd olika märkta dokument antingen via ett dokumenthanteringssystem eller andra lagringsmekanismer.

Förbered dina data

Se till att dokumentfilerna du tänker använda för modellträning inte är krypterade eller låsta – se till till exempel att dina PDF-filer inte är krypterade och låsta med ett lösenord. Du måste dekryptera sådana filer innan du kan använda dem för träningsändamål. Märk ett prov av dina dokument med lämpliga kategorier eller etiketter (klasser). Bestäm om klassificering med en enda etikett (flerklassläge) Eller multi-label klassificering är lämplig för ditt användningsfall. Flerklassläge associerar endast en enskild klass med varje dokument, medan multi-etikettläge associerar en eller flera klasser med ett dokument.

Överväg modellutvärdering

Använd den märkta datamängden för att träna modellen så att den kan lära sig att klassificera nya dokument korrekt och utvärdera hur den nyligen tränade modellversionen presterar genom att förstå modellmåtten. För att förstå statistiken som tillhandahålls av Amazon Comprehend post-modellutbildning, se Anpassad klassificeringsstatistik. När utbildningsprocessen är klar kan du börja klassificera dokument asynkront eller i realtid. Vi går igenom hur man tränar en anpassad klassificeringsmodell i följande avsnitt.

Förbered träningsdata

Innan vi tränar vår anpassade klassificeringsmodell måste vi förbereda träningsdata. Utbildningsdata består av en uppsättning märkta dokument, som kan vara föridentifierade dokument från ett dokumentförråd som du redan har tillgång till. För vårt exempel tränade vi en anpassad klassificeringsmodell med några olika dokumenttyper som vanligtvis finns i en process för bedömning av sjukförsäkringskrav: sammanfattning av patientutskrivning, fakturor, kvitton och så vidare. Vi behöver också förbereda en anteckningsfil i CSV-format. Följande är ett exempel på en anteckningsfil CSV-data som krävs för utbildningen:

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

CSV-filen för kommentarer måste innehålla tre kolumner. Den första kolumnen innehåller den önskade klassen (etiketten) för dokumentet, den andra kolumnen är dokumentnamnet (filnamnet), och den sista kolumnen är sidnumret på dokumentet som du vill inkludera i utbildningsdataset. Eftersom utbildningsprocessen stöder inbyggda flersidiga PDF- och DOCX-filer, måste du ange sidnumret om dokumentet är ett flersidigt dokument. Om du vill inkludera alla sidor i ett flersidigt dokument i utbildningsdataset måste du ange varje sida som en separat rad i CSV-anteckningsfilen. Till exempel, i den föregående anteckningsfilen, invoice-1.pdf är ett tvåsidigt dokument och vi vill inkludera båda sidorna i klassificeringsdataset. Eftersom filer som PDF, PNG och TIFF är bildformat måste sidnummervärdet (tredje kolumnen) alltid vara 1. Om din datauppsättning innehåller TIF-filer med flera ramar (flersidiga) måste du dela upp dem i separata TIF-filer i för att kunna använda dem i utbildningsprocessen.

Vi förberedde en anteckningsfil som heter test.csv med lämpliga data för att träna en anpassad klassificeringsmodell. För varje exempeldokument innehåller CSV-filen klassen som dokumentet tillhör, platsen för dokumentet i Amazon enkel lagringstjänst (Amazon S3), som t.ex path/to/prefix/document.pdfoch sidnumret (om tillämpligt). Eftersom de flesta av våra dokument är antingen ensidiga DOCX-, PDF-filer eller TIF-, JPG- eller PNG-filer, är sidnumret 1. Eftersom våra anteckningar CSV och exempeldokument är alla under samma Amazon S3-prefix, gör vi t behöver explicit ange prefixet i den andra kolumnen. Vi förbereder också minst 10 dokumentprover eller fler för varje klass, och vi använde en blandning av JPG-, PNG-, DOCX-, PDF- och TIF-filer för att träna modellen. Observera att det vanligtvis rekommenderas att ha en mångsidig uppsättning exempeldokument för modellträning för att undvika övermontering av modellen, vilket påverkar dess förmåga att känna igen nya dokument. Det rekommenderas också att antalet prover per klass är balanserat, även om det inte krävs att ha exakt samma antal prover per klass. Därefter laddar vi upp test.csv anteckningsfil och alla dokument till Amazon S3. Följande bild visar en del av vår CSV-fil för kommentarer.

Amazon Comprehend dokumentklassificerare lägger till layoutstöd för högre precision PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Träna en anpassad klassificeringsmodell

Nu när vi har anteckningsfilen och alla våra exempeldokument redo, skapar vi en anpassad klassificeringsmodell och tränar den. Innan du börjar ställa in anpassad klassificeringsmodellutbildning, se till att anteckningarna CSV och exempeldokument finns på en Amazon S3-plats.

Välj på Amazon Comprehend-konsolen Anpassad klassificering i navigeringsfönstret.
Välja Skapa ny modell.
För Modellnamn, ange ett unikt namn.
För Versionsnamn, ange ett unikt versionsnamn.
För Typ av träningsmodell, Välj Inhemska dokument.

Detta berättar för Amazon Comprehend att du tänker använda inbyggda dokumenttyper för att träna modellen istället för serialiserad text.

För Klassificeringsläge, Välj Använder enkeletikettsläge.

Detta läge talar om för klassificeraren att vi avser att klassificera dokument i en enda klass. Om du behöver träna en modell med multi-label mode, vilket innebär att ett dokument kan tillhöra en eller flera klasser, måste du ställa in anteckningsfilen på lämpligt sätt genom att specificera klasserna för dokumentet separerade med ett specialtecken i annotations CSV fil. I så fall skulle du välja Använder multi-label mode alternativ.

För Anteckningsplats på S3, ange sökvägen till CSV-filen för kommentarer.
För Träningsdataplats på S3, ange Amazon S3-platsen där dina dokument finns.
Lämna alla andra alternativ som standard i det här avsnittet.
I Utdata avsnittet, ange en Amazon S3-plats för din utdata.

Detta är valfritt, men det är en god praxis att tillhandahålla en utdataplats eftersom Amazon Comprehend kommer att generera utvärderingsstatistiken efter modellutbildning på den här platsen. Dessa data är användbara för att utvärdera modellprestanda, iterera och förbättra noggrannheten hos din modell.

I IAM-roll sektion, välj en lämplig AWS identitets- och åtkomsthantering (IAM) roll som tillåter Amazon Comprehend att komma åt Amazon S3-platsen och skriva och läsa från den.
Välja Skapa att initiera modellutbildningen.

Modellen kan ta flera minuter att träna, beroende på antalet klasser och datauppsättningens storlek. Du kan granska träningsstatusen på Anpassad klassificering sida. Utbildningsprocessen kommer att visa en Lämnats status direkt efter att träningsprocessen startar och kommer att ändras till Utbildning status när träningsprocessen börjar. Efter att din modell har tränats, Versionsstatus kommer att ändras till Tränad. Om Amazon Comprehend hittar inkonsekvenser i din träningsdata kommer status att visas Felaktigt tillsammans med en varning som visar lämpligt felmeddelande så att du kan vidta korrigerande åtgärder och starta om träningsprocessen med den korrigerade informationen.

Amazon Comprehend dokumentklassificerare lägger till layoutstöd för högre precision PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

I det här inlägget demonstrerade vi stegen för att träna en anpassad klassificeringsmodell med Amazon Comprehend-konsolen. Du kan också använda AWS SDK på vilket språk som helst (t.ex. Boto3 för Python) eller den AWS-kommandoradsgränssnitt (AWS CLI) för att initiera en anpassad klassificeringsmodellutbildning. Med antingen SDK eller AWS CLI kan du använda CreateDocumentClassifier API för att initiera modellutbildningen och därefter använda BeskrivDocumentClassifier API för att kontrollera modellens status.

Efter att modellen har tränats kan du utföra antingen realtidsanalys or asynkrona (batch) analysjobb på nya dokument. För att utföra realtidsklassificering av dokument måste du distribuera en Amazon Comprehend realtidsslutpunkt med den utbildade anpassade klassificeringsmodellen. Realtidsslutpunkter är bäst lämpade för användningsfall som kräver låg latens, realtids slutledningsresultat, medan ett asynkront analysjobb är mer lämpligt för att klassificera en stor uppsättning dokument. För att lära dig hur du kan utföra asynkron slutledning på nya dokument med hjälp av en utbildad klassificeringsmodell, se Introducerar klassificering i ett steg och enhetsigenkänning med Amazon Comprehend för intelligent dokumentbehandling.

Fördelar med den layoutmedvetna anpassade klassificeringsmodellen

Den nya klassificeringsmodellen erbjuder ett antal förbättringar. Det är inte bara enklare att träna den nya modellen, utan du kan också träna en ny modell med bara några få prover för varje klass. Dessutom behöver du inte längre extrahera serialiserad vanlig text ur skannade eller digitala dokument som bilder eller PDF-filer för att förbereda utbildningsdataset. Följande är några ytterligare anmärkningsvärda förbättringar som du kan förvänta dig av den nya klassificeringsmodellen:

Förbättrad noggrannhet – Modellen tar nu hänsyn till dokumentens layout och struktur, vilket leder till en bättre förståelse för dokumentens struktur och innehåll. Detta hjälper till att skilja mellan dokument med liknande text men olika layouter eller strukturer, vilket resulterar i ökad klassificeringsnoggrannhet.
Robusthet – Modellen hanterar nu variationer i dokumentstruktur och formatering. Detta gör den bättre lämpad för att klassificera dokument från olika källor med olika layouter eller formateringsstilar, vilket är en vanlig utmaning i verkliga dokumentklassificeringsuppgifter. Den är kompatibel med flera dokumenttyper inbyggt, vilket gör den mångsidig och användbar för olika branscher och användningsfall.
Minskat manuellt ingrepp – Högre noggrannhet leder till mindre manuella ingrepp i klassificeringsprocessen. Detta kan spara tid och resurser och öka den operativa effektiviteten i din arbetsbelastning för dokumentbearbetning.

Slutsats

Den nya Amazon Comprehend-dokumentklassificeringsmodellen, som inkluderar layoutmedvetenhet, är en spelomvandlare för företag som hanterar stora volymer dokument. Genom att förstå dokumentens struktur och layout erbjuder denna modell förbättrad klassificeringsnoggrannhet och effektivitet. Genom att implementera en robust och korrekt dokumentklassificeringslösning med hjälp av en layoutmedveten modell kan ditt företag spara tid, minska driftskostnaderna och förbättra beslutsprocesserna.

Som ett nästa steg uppmuntrar vi dig att prova den nya anpassade klassificeringsmodellen för Amazon Comprehend via Amazon Comprehend-konsol. Vi rekommenderar också att du återvänder till våra anpassade klassificeringsmodeller förbättringsmeddelanden från förra året och besöka GitHub repository för kodexempel.

Om författarna

Anjan Biswas är Senior AI Services Solutions Architect med fokus på AI/ML och Data Analytics. Anjan är en del av det världsomspännande AI-serviceteamet och arbetar med kunder för att hjälpa dem att förstå och utveckla lösningar på affärsproblem med AI och ML. Anjan har över 14 års erfarenhet av att arbeta med globala supply chain-, tillverknings- och detaljhandelsorganisationer och hjälper aktivt kunder att komma igång och skala på AWS AI-tjänster.

Godwin Sahayaraj Vincent är en Enterprise Solutions Architect på AWS som brinner för maskininlärning och ger vägledning till kunder för att designa, distribuera och hantera deras AWS-arbetsbelastningar och arkitekturer. På fritiden älskar han att spela cricket med sina vänner och tennis med sina tre barn.

Wrick Talukdar är seniorarkitekt med Amazon Comprehend Service-teamet. Han arbetar med AWS-kunder för att hjälpa dem att ta till sig maskininlärning i stor skala. Utanför jobbet tycker han om att läsa och fotografera.