Számos iparágban kritikus fontosságú az egyéni entitások időben történő kinyerése a dokumentumokból. Ez kihívást jelenthet. A biztosítási igények például gyakran több tucat fontos attribútumot (például dátumokat, neveket, helyszíneket és jelentéseket) tartalmaznak hosszú és sűrű dokumentumok között. Az ilyen információk kézi beolvasása és kinyerése hibás és időigényes lehet. A szabályalapú szoftverek segíthetnek, de végül túl merevek ahhoz, hogy alkalmazkodjanak a sokféle dokumentumtípushoz és elrendezéshez.
A folyamat automatizálásához és felgyorsításához használhatja Amazon Comprehend az egyéni entitások gyors és pontos észlelése gépi tanulás (ML) használatával. Ez a megközelítés rugalmas és pontos, mert a rendszer képes alkalmazkodni az új dokumentumokhoz a múltban tanultak felhasználásával. Ez a képesség azonban egészen a közelmúltig csak sima szöveges dokumentumokra volt alkalmazható, ami azt jelentette, hogy a dokumentumok natív formátumukból való konvertálásakor a pozícióinformációk elvesztek. Ennek megoldására az volt a közelmúltban bejelentette, hogy az Amazon Comprehend ki tudja bontani az egyéni entitásokat PDF-, kép- és Word-fájlformátumokban.
Ebben a bejegyzésben egy konkrét példát mutatunk be a biztosítási ágazatból, hogyan hozhat létre egyéni felismerőt PDF-annotációk segítségével.
Megoldás áttekintése
Végigvezetjük a következő magas szintű lépéseken:
- PDF-jegyzetek létrehozása.
- A PDF-annotációk segítségével egyéni modellt taníthat be a Python API használatával.
- Szerezzen be értékelési mutatókat a betanított modellből.
- Következtetés végrehajtása egy nem látott dokumentumon.
Ennek a bejegyzésnek a végére szeretnénk nyers PDF-dokumentumot küldeni betanított modellünknek, és kiadni egy strukturált fájlt az érdeklődésre számot tartó címkéinkről. Konkrétan arra oktatjuk modellünket, hogy észlelje a következő öt entitást, amelyeket a biztosítási kárigények szempontjából választottunk: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
és InsuredMailingAddress
. A strukturált kimenet elolvasása után a címkeinformációkat közvetlenül a PDF dokumentumon jeleníthetjük meg, ahogy az alábbi képen is látható.
Ezt a bejegyzést egy Jupyter notebook kíséri, amely ugyanazokat a lépéseket tartalmazza. Nyugodtan kövesse a lépéseit, miközben végrehajtja a lépéseket jegyzetfüzet. Vegye figyelembe, hogy be kell állítania a Amazon SageMaker környezet, amelyből az Amazon Comprehend olvasni tud Amazon egyszerű tárolási szolgáltatás (Amazon S3) a notebook tetején leírtak szerint.
PDF-jegyzetek létrehozása
Megjegyzések létrehozásához PDF dokumentumokhoz használhatja Amazon SageMaker Ground Truth, egy teljesen felügyelt adatcímkézési szolgáltatás, amely megkönnyíti a rendkívül pontos képzési adatkészletek készítését az ML számára.
Ehhez az oktatóanyaghoz a Ground Truth segítségével már natív formájukban (anélkül, hogy sima szöveggé konvertálnánk) megjegyzéseket fűztünk a PDF-ekhez. A Ground Truth feladat három utat generál, amelyekre szükségünk van az egyéni Amazon Comprehend modellünk betanításához:
- Források – A bemeneti PDF-fájlok elérési útja.
- Magyarázatok – A címkézett entitásinformációkat tartalmazó annotációs JSON-fájlok elérési útja.
- Nyilvánvaló – Az a fájl, amely a megjegyzések és a forrás-PDF-ek helyére mutat. Ez a fájl egy Amazon Comprehend egyéni entitásfelismerési képzési feladat létrehozására és egy egyéni modell betanítására szolgál.
A következő képernyőképen egy minta annotáció látható.
Az egyéni Ground Truth feladat PDF-jegyzetet hoz létre, amely blokkszintű információkat rögzít az entitásról. Az ilyen blokkszintű információk megadják az entitás pontos helyzeti koordinátáit (az entitásblokkon belül a gyermekblokkok minden egyes szót képviselnek). Ez eltér a szabványos Ground Truth-feladattól, amelyben a PDF-fájlban lévő adatok szöveges formátumra vannak kiegyenlítve, és csak az eltolási információkat – de nem a pontos koordinátainformációkat – rögzíti a megjegyzéskészítés során. Az ezzel az egyéni annotációs paradigmával nyert gazdag helyzetinformáció lehetővé teszi, hogy pontosabb modellt készítsünk.
Az ilyen típusú feladatokból generált jegyzéket kiterjesztett jegyzéknek nevezik, szemben a szabványos megjegyzésekhez használt CSV-vel. További információkért lásd Magyarázatok.
A PDF-annotációk segítségével egyéni modellt taníthat be a Python API használatával
A kiterjesztett jegyzékfájlt JSON Lines formátumban kell formázni. JSON-sorok formátumban a fájl minden sora egy teljes JSON-objektum, amelyet egy újsor-elválasztó követ.
A következő kód egy bejegyzés ebben a kiterjesztett jegyzékfájlban.
Néhány megjegyzés:
- Öt címkézési típus kapcsolódik ehhez a munkához:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
ésInsuredMailingAddress
. - A jegyzékfájl mind a forrás PDF-helyére, mind a megjegyzés helyére hivatkozik.
- A feljegyzési munkával kapcsolatos metaadatok (például a létrehozás dátuma) rögzítésre kerülnek.
Use-textract-only
be van állítvaFalse
, vagyis az annotációs eszköz dönti el, hogy használja-e a PDFPlumber-t (natív PDF esetén), vagy Amazon szöveg (beszkennelt PDF esetén). Ha be van állítvatrue
, az Amazon Textract mindkét esetben használatos (ami költségesebb, de potenciálisan pontosabb).
Most már betaníthatjuk a felismerőt, ahogy az a következő példakódban látható.
Létrehozunk egy felismerőt mind az öt entitástípus felismerésére. Használhattuk volna ezen entitások egy részhalmazát, ha úgy tetszik. Legfeljebb 25 entitást használhat.
Az egyes paraméterek részleteit lásd: create_entity_recognizer.
Az edzési készlet méretétől függően az edzési idő változhat. Ennél az adatkészletnél a képzés körülbelül 1 órát vesz igénybe. A képzési feladat állapotának nyomon követéséhez használhatja a describe_entity_recognizer
API.
Szerezzen be értékelési mutatókat a betanított modellből
Az Amazon Comprehend modellteljesítmény-mutatókat biztosít egy betanított modellhez, amely azt jelzi, hogy a betanított modell várhatóan mennyire képes előrejelzéseket készíteni hasonló bemenetek használatával. Kaphatunk globális precíziós és visszahívási mérőszámokat, valamint entitásonkénti mérőszámokat is. A pontos modell nagy pontossággal és nagy visszahívással rendelkezik. A nagy pontosság azt jelenti, hogy a modell általában helyes, ha egy adott címkét jelez; magas visszahívás azt jelenti, hogy a modell megtalálta a legtöbb címkét. Az F1 ezeknek a mértékeknek az összetett mérőszáma (harmonikus átlaga), ezért akkor magas, ha mindkét összetevő magas. A mérőszámok részletes leírását lásd Egyéni entitásfelismerő metrikák.
Amikor megadja a dokumentumokat a képzési munkához, az Amazon Comprehend automatikusan vonat- és tesztkészletre osztja őket. Amikor a modell elérte TRAINED
állapotát, használhatja a describe_entity_recognizer
API-t ismét a tesztkészlet értékelési mutatóinak lekéréséhez.
A következő példa a globális mérőszámokra.
A következő egy példa az entitásonkénti metrikákra.
A magas pontszámok azt jelzik, hogy a modell jól megtanulta ezeket az entitásokat észlelni.
Következtetés végrehajtása egy nem látott dokumentumon
Futtassunk következtetést betanított modellünkkel egy olyan dokumentumon, amely nem volt a képzési eljárás része. Ezt az aszinkron API-t használhatjuk szabványos vagy egyedi NER-hez. Ha egyéni NER-hez használjuk (mint ebben a bejegyzésben), át kell adnunk a betanított modell ARN-jét.
A beküldött munkát a válasz kinyomtatásával tudjuk áttekinteni.
A Pandákkal végzett észlelési feladat kimenetét táblázatba formázhatjuk. A Score
Az érték a modellnek az entitásra vonatkozó megbízhatósági szintjét jelzi.
Végül a jóslatokat ráboríthatjuk a nem látott dokumentumokra, ami a bejegyzés tetején látható eredményt adja.
Következtetés
Ebben a bejegyzésben láthatta, hogyan lehet egyéni entitásokat kinyerni natív PDF formátumukban az Amazon Comprehend segítségével. Következő lépésként fontolja meg a mélyebbre merülést:
- Tanítsa meg saját felismerőjét a mellékelt jegyzetfüzet segítségével itt. Ne felejtsen el törölni minden erőforrást, ha végzett, hogy elkerülje a jövőbeni költségeket.
- Állítsa be saját egyéni kommentár-feladatát, hogy PDF-jegyzeteket gyűjtsön az Ön érdeklődésére számot tartó entitásokhoz. További információkért lásd: Egyéni dokumentumjegyzet a megnevezett entitások kinyeréséhez a dokumentumokban az Amazon Comprehend segítségével.
- Tanítson egyéni NER-modellt az Amazon Comprehend konzolon. További információkért lásd Az Amazon Comprehend segítségével egyedi entitásokat nyerhet ki a dokumentumokból natív formátumukban.
A szerzőkről
Joshua Levy Senior Applied Scientist az Amazon Machine Learning Solutions laboratóriumában, ahol segít ügyfeleinek AI/ML megoldások tervezésében és elkészítésében kulcsfontosságú üzleti problémák megoldására.
Andrew Ang az Amazon Machine Learning Solutions Lab gépi tanulási mérnöke, ahol az iparágak legkülönbözőbb spektrumából származó ügyfeleknek segít azonosítani és elkészíteni az AI/ML megoldásokat a legégetőbb üzleti problémáik megoldására. Munkán kívül szívesen néz utazási és étkezési vlogokat.
Alex Chirayath az Amazon Machine Learning Solutions Lab szoftvermérnöke, aki olyan esetalapú megoldások építésére összpontosít, amelyek megmutatják az ügyfeleknek, hogyan szabadíthatják fel az AWS AI/ML-szolgáltatások erejét a valós üzleti problémák megoldásában.
Jennifer Zhu az Amazon AI Machine Learning Solutions Lab alkalmazott tudósa. Az AWS ügyfeleivel együttműködve AI/ML megoldásokat építenek kiemelt üzleti igényeiknek.
Niharika Jayanthi front-end mérnök az Amazon Machine Learning Solutions Lab – Human in the Loop csapatában. Segít felhasználói élményt nyújtó megoldások létrehozásában az Amazon SageMaker Ground Truth ügyfelei számára.
Borisz Aroncsik az Amazon AI Machine Learning Solutions Lab menedzsere, ahol ML tudósokból és mérnökökből álló csapatot vezet, hogy segítse az AWS ügyfeleit üzleti célok megvalósításában az AI/ML megoldások felhasználásával.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- Rólunk
- pontos
- át
- cím
- AI
- Minden termék
- már
- amazon
- api
- megközelítés
- körülbelül
- attribútumok
- bővített
- automatizált
- AWS
- Blokk
- épít
- Épület
- üzleti
- kihívást
- díjak
- gyermek
- követelések
- kód
- gyűjt
- bizalom
- Konzol
- tartalmaz
- koordináta
- tudott
- teremtés
- kritikai
- szokás
- Ügyfelek
- dátum
- Időpontok
- mélyebb
- Design
- Érzékelés
- közvetlenül
- dokumentumok
- mérnök
- Mérnökök
- Szervezetek
- Környezet
- példa
- várható
- tapasztalat
- rugalmas
- következik
- következő
- élelmiszer
- forma
- formátum
- talált
- Ingyenes
- jövő
- Globális
- Célok
- segít
- segít
- Magas
- nagyon
- Hogyan
- How To
- HTTPS
- emberi
- azonosítani
- kép
- fontos
- iparágak
- ipar
- információ
- bemenet
- biztosítás
- kamat
- IT
- Munka
- Kulcs
- labor
- címkézés
- Címkék
- vezetékek
- tanult
- tanulás
- szint
- erőfölény
- vonal
- elhelyezkedés
- helyszínek
- gép
- gépi tanulás
- KÉSZÍT
- sikerült
- menedzser
- mód
- kézzel
- jelenti
- Metrics
- ML
- modell
- monitor
- több
- a legtöbb
- nevek
- jegyzetfüzet
- eltolt
- saját
- paradigma
- teljesítmény
- hatalom
- Tippek
- problémák
- folyamat
- ad
- biztosít
- gyorsan
- Nyers
- Olvasás
- való Világ
- észre
- elismerik
- Jelentések
- Tudástár
- válasz
- Kritika
- futás
- futás
- letapogatás
- Tudós
- tudósok
- szolgáltatás
- Szolgáltatások
- készlet
- hasonló
- Egyszerű
- Méret
- szoftver
- Software Engineer
- Megoldások
- SOLVE
- sebesség
- standard
- Állapot
- tárolás
- szerkesztett
- benyújtott
- rendszer
- csapat
- teszt
- The Source
- Keresztül
- idő
- időigényes
- szerszám
- felső
- Képzések
- utazás
- kinyit
- us
- használ
- rendszerint
- érték
- Mit
- vajon
- míg
- belül
- nélkül
- Munka
- művek
- világ