Build A Custom Entity Recognizer For PDF Documents Using Amazon Comprehend

Újra kiadta Platón

Követő: 0

Számos iparágban kritikus fontosságú az egyéni entitások időben történő kinyerése a dokumentumokból. Ez kihívást jelenthet. A biztosítási igények például gyakran több tucat fontos attribútumot (például dátumokat, neveket, helyszíneket és jelentéseket) tartalmaznak hosszú és sűrű dokumentumok között. Az ilyen információk kézi beolvasása és kinyerése hibás és időigényes lehet. A szabályalapú szoftverek segíthetnek, de végül túl merevek ahhoz, hogy alkalmazkodjanak a sokféle dokumentumtípushoz és elrendezéshez.

A folyamat automatizálásához és felgyorsításához használhatja Amazon Comprehend az egyéni entitások gyors és pontos észlelése gépi tanulás (ML) használatával. Ez a megközelítés rugalmas és pontos, mert a rendszer képes alkalmazkodni az új dokumentumokhoz a múltban tanultak felhasználásával. Ez a képesség azonban egészen a közelmúltig csak sima szöveges dokumentumokra volt alkalmazható, ami azt jelentette, hogy a dokumentumok natív formátumukból való konvertálásakor a pozícióinformációk elvesztek. Ennek megoldására az volt a közelmúltban bejelentette, hogy az Amazon Comprehend ki tudja bontani az egyéni entitásokat PDF-, kép- és Word-fájlformátumokban.

Ebben a bejegyzésben egy konkrét példát mutatunk be a biztosítási ágazatból, hogyan hozhat létre egyéni felismerőt PDF-annotációk segítségével.

Megoldás áttekintése

Végigvezetjük a következő magas szintű lépéseken:

PDF-jegyzetek létrehozása.
A PDF-annotációk segítségével egyéni modellt taníthat be a Python API használatával.
Szerezzen be értékelési mutatókat a betanított modellből.
Következtetés végrehajtása egy nem látott dokumentumon.

Ennek a bejegyzésnek a végére szeretnénk nyers PDF-dokumentumot küldeni betanított modellünknek, és kiadni egy strukturált fájlt az érdeklődésre számot tartó címkéinkről. Konkrétan arra oktatjuk modellünket, hogy észlelje a következő öt entitást, amelyeket a biztosítási kárigények szempontjából választottunk: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossés InsuredMailingAddress. A strukturált kimenet elolvasása után a címkeinformációkat közvetlenül a PDF dokumentumon jeleníthetjük meg, ahogy az alábbi képen is látható.

Ezt a bejegyzést egy Jupyter notebook kíséri, amely ugyanazokat a lépéseket tartalmazza. Nyugodtan kövesse a lépéseit, miközben végrehajtja a lépéseket jegyzetfüzet. Vegye figyelembe, hogy be kell állítania a Amazon SageMaker környezet, amelyből az Amazon Comprehend olvasni tud Amazon egyszerű tárolási szolgáltatás (Amazon S3) a notebook tetején leírtak szerint.

PDF-jegyzetek létrehozása

Megjegyzések létrehozásához PDF dokumentumokhoz használhatja Amazon SageMaker Ground Truth, egy teljesen felügyelt adatcímkézési szolgáltatás, amely megkönnyíti a rendkívül pontos képzési adatkészletek készítését az ML számára.

Ehhez az oktatóanyaghoz a Ground Truth segítségével már natív formájukban (anélkül, hogy sima szöveggé konvertálnánk) megjegyzéseket fűztünk a PDF-ekhez. A Ground Truth feladat három utat generál, amelyekre szükségünk van az egyéni Amazon Comprehend modellünk betanításához:

Források – A bemeneti PDF-fájlok elérési útja.
Magyarázatok – A címkézett entitásinformációkat tartalmazó annotációs JSON-fájlok elérési útja.
Nyilvánvaló – Az a fájl, amely a megjegyzések és a forrás-PDF-ek helyére mutat. Ez a fájl egy Amazon Comprehend egyéni entitásfelismerési képzési feladat létrehozására és egy egyéni modell betanítására szolgál.

A következő képernyőképen egy minta annotáció látható.

Az egyéni Ground Truth feladat PDF-jegyzetet hoz létre, amely blokkszintű információkat rögzít az entitásról. Az ilyen blokkszintű információk megadják az entitás pontos helyzeti koordinátáit (az entitásblokkon belül a gyermekblokkok minden egyes szót képviselnek). Ez eltér a szabványos Ground Truth-feladattól, amelyben a PDF-fájlban lévő adatok szöveges formátumra vannak kiegyenlítve, és csak az eltolási információkat – de nem a pontos koordinátainformációkat – rögzíti a megjegyzéskészítés során. Az ezzel az egyéni annotációs paradigmával nyert gazdag helyzetinformáció lehetővé teszi, hogy pontosabb modellt készítsünk.

Az ilyen típusú feladatokból generált jegyzéket kiterjesztett jegyzéknek nevezik, szemben a szabványos megjegyzésekhez használt CSV-vel. További információkért lásd Magyarázatok.

A PDF-annotációk segítségével egyéni modellt taníthat be a Python API használatával

A kiterjesztett jegyzékfájlt JSON Lines formátumban kell formázni. JSON-sorok formátumban a fájl minden sora egy teljes JSON-objektum, amelyet egy újsor-elválasztó követ.

A következő kód egy bejegyzés ebben a kiterjesztett jegyzékfájlban.

Néhány megjegyzés:

Öt címkézési típus kapcsolódik ehhez a munkához: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossés InsuredMailingAddress.
A jegyzékfájl mind a forrás PDF-helyére, mind a megjegyzés helyére hivatkozik.
A feljegyzési munkával kapcsolatos metaadatok (például a létrehozás dátuma) rögzítésre kerülnek.
Use-textract-only be van állítva False, vagyis az annotációs eszköz dönti el, hogy használja-e a PDFPlumber-t (natív PDF esetén), vagy Amazon szöveg (beszkennelt PDF esetén). Ha be van állítva true, az Amazon Textract mindkét esetben használatos (ami költségesebb, de potenciálisan pontosabb).

Most már betaníthatjuk a felismerőt, ahogy az a következő példakódban látható.

Létrehozunk egy felismerőt mind az öt entitástípus felismerésére. Használhattuk volna ezen entitások egy részhalmazát, ha úgy tetszik. Legfeljebb 25 entitást használhat.

Az egyes paraméterek részleteit lásd: create_entity_recognizer.

Az edzési készlet méretétől függően az edzési idő változhat. Ennél az adatkészletnél a képzés körülbelül 1 órát vesz igénybe. A képzési feladat állapotának nyomon követéséhez használhatja a describe_entity_recognizer API.

Szerezzen be értékelési mutatókat a betanított modellből

Az Amazon Comprehend modellteljesítmény-mutatókat biztosít egy betanított modellhez, amely azt jelzi, hogy a betanított modell várhatóan mennyire képes előrejelzéseket készíteni hasonló bemenetek használatával. Kaphatunk globális precíziós és visszahívási mérőszámokat, valamint entitásonkénti mérőszámokat is. A pontos modell nagy pontossággal és nagy visszahívással rendelkezik. A nagy pontosság azt jelenti, hogy a modell általában helyes, ha egy adott címkét jelez; magas visszahívás azt jelenti, hogy a modell megtalálta a legtöbb címkét. Az F1 ezeknek a mértékeknek az összetett mérőszáma (harmonikus átlaga), ezért akkor magas, ha mindkét összetevő magas. A mérőszámok részletes leírását lásd Egyéni entitásfelismerő metrikák.

Amikor megadja a dokumentumokat a képzési munkához, az Amazon Comprehend automatikusan vonat- és tesztkészletre osztja őket. Amikor a modell elérte TRAINED állapotát, használhatja a describe_entity_recognizer API-t ismét a tesztkészlet értékelési mutatóinak lekéréséhez.

A következő példa a globális mérőszámokra.

A következő egy példa az entitásonkénti metrikákra.

A magas pontszámok azt jelzik, hogy a modell jól megtanulta ezeket az entitásokat észlelni.

Következtetés végrehajtása egy nem látott dokumentumon

Futtassunk következtetést betanított modellünkkel egy olyan dokumentumon, amely nem volt a képzési eljárás része. Ezt az aszinkron API-t használhatjuk szabványos vagy egyedi NER-hez. Ha egyéni NER-hez használjuk (mint ebben a bejegyzésben), át kell adnunk a betanított modell ARN-jét.

A beküldött munkát a válasz kinyomtatásával tudjuk áttekinteni.

A Pandákkal végzett észlelési feladat kimenetét táblázatba formázhatjuk. A Score Az érték a modellnek az entitásra vonatkozó megbízhatósági szintjét jelzi.

Végül a jóslatokat ráboríthatjuk a nem látott dokumentumokra, ami a bejegyzés tetején látható eredményt adja.

Következtetés

Ebben a bejegyzésben láthatta, hogyan lehet egyéni entitásokat kinyerni natív PDF formátumukban az Amazon Comprehend segítségével. Következő lépésként fontolja meg a mélyebbre merülést:

Tanítsa meg saját felismerőjét a mellékelt jegyzetfüzet segítségével itt. Ne felejtsen el törölni minden erőforrást, ha végzett, hogy elkerülje a jövőbeni költségeket.
Állítsa be saját egyéni kommentár-feladatát, hogy PDF-jegyzeteket gyűjtsön az Ön érdeklődésére számot tartó entitásokhoz. További információkért lásd: Egyéni dokumentumjegyzet a megnevezett entitások kinyeréséhez a dokumentumokban az Amazon Comprehend segítségével.
Tanítson egyéni NER-modellt az Amazon Comprehend konzolon. További információkért lásd Az Amazon Comprehend segítségével egyedi entitásokat nyerhet ki a dokumentumokból natív formátumukban.

A szerzőkről

Joshua Levy Senior Applied Scientist az Amazon Machine Learning Solutions laboratóriumában, ahol segít ügyfeleinek AI/ML megoldások tervezésében és elkészítésében kulcsfontosságú üzleti problémák megoldására.

Andrew Ang az Amazon Machine Learning Solutions Lab gépi tanulási mérnöke, ahol az iparágak legkülönbözőbb spektrumából származó ügyfeleknek segít azonosítani és elkészíteni az AI/ML megoldásokat a legégetőbb üzleti problémáik megoldására. Munkán kívül szívesen néz utazási és étkezési vlogokat.

Alex Chirayath az Amazon Machine Learning Solutions Lab szoftvermérnöke, aki olyan esetalapú megoldások építésére összpontosít, amelyek megmutatják az ügyfeleknek, hogyan szabadíthatják fel az AWS AI/ML-szolgáltatások erejét a valós üzleti problémák megoldásában.

Jennifer Zhu az Amazon AI Machine Learning Solutions Lab alkalmazott tudósa. Az AWS ügyfeleivel együttműködve AI/ML megoldásokat építenek kiemelt üzleti igényeiknek.

Niharika Jayanthi front-end mérnök az Amazon Machine Learning Solutions Lab – Human in the Loop csapatában. Segít felhasználói élményt nyújtó megoldások létrehozásában az Amazon SageMaker Ground Truth ügyfelei számára.

Borisz Aroncsik az Amazon AI Machine Learning Solutions Lab menedzsere, ahol ML tudósokból és mérnökökből álló csapatot vezet, hogy segítse az AWS ügyfeleit üzleti célok megvalósításában az AI/ML megoldások felhasználásával.

Időbélyeg: April 8, 2022

Időbélyeg: 29. március 2022.

Hozzon létre egyéni entitásfelismerőt PDF-dokumentumokhoz az Amazon Comprehend segítségével

Újra kiadta Platón

Megoldás áttekintése

PDF-jegyzetek létrehozása

A PDF-annotációk segítségével egyéni modellt taníthat be a Python API használatával

Szerezzen be értékelési mutatókat a betanított modellből

Következtetés végrehajtása egy nem látott dokumentumon

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Költséghatékony ML következtetés az Amazon SageMaker több keretrendszerű modelljeivel

Az Amazon Rekognition bemutatja a Streaming Video Events szolgáltatást, amely valós idejű riasztásokat biztosít az élő videó közvetítésekről

Csökkentse a gépi tanulási feladatok energiafogyasztását akár 90%-kal az AWS erre a célra épített gyorsítóival | Amazon webszolgáltatások

A Chronomics észleli a COVID-19 teszteredményeket az Amazon Rekognition egyedi címkéivel

A T-Mobile US, Inc. mesterséges intelligenciát használ az Amazon Transcribe és az Amazon Translate szolgáltatáson keresztül, hogy az ügyfelek által választott nyelven kézbesítse a hangpostát | Amazon webszolgáltatások

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók