Build A Traceable, Custom, Multi-format Document Parsing Pipeline With Amazon Textract

Újra kiadta Platón

Követő: 0

A szervezeti formák elsődleges üzleti eszközként szolgálnak a különböző iparágakban – a pénzügyi szolgáltatásoktól az egészségügyig stb. Vegyük például az adókezelési ágazatban az adóbevallási űrlapokat, ahol minden évben új nyomtatványok jelennek meg nagyrészt ugyanazokkal az információkkal. Az AWS-ügyfeleknek a különböző szektorokban, mindennapi üzleti gyakorlatuk részeként formákban kell feldolgozniuk és tárolniuk az információkat. Ezek a formák gyakran elsődleges eszközként szolgálnak az információ beáramlásához egy olyan szervezetbe, ahol az adatrögzítés technológiai eszközei nem praktikusak.

Amellett, hogy űrlapokat használ az információk rögzítésére, az évek során nyújtott kínálat Amazon szöveg, megfigyeltük, hogy az AWS-ügyfelek gyakran módosítják szervezeti formáikat az elvégzett strukturális változtatások, a hozzáadott vagy módosított mezők vagy egyéb megfontolások, például az év vagy az űrlap verziójának megváltoztatása alapján.

Amikor egy űrlap szerkezete vagy tartalma megváltozik, ez gyakran kihívásokat jelenthet a hagyományos OCR-rendszerek számára, vagy hatással lehet az információk rögzítésére használt downstream eszközökre, még akkor is, ha évről évre ugyanazt az információt kell rögzítenie, és az adatokat a formátumtól függetlenül összesítenie kell. a dokumentumból.

A probléma megoldása érdekében ebben a bejegyzésben bemutatjuk, hogyan hozhat létre és telepíthet eseményvezérelt, kiszolgáló nélküli, több formátumú dokumentumelemző folyamatot az Amazon Textract segítségével.

Megoldás áttekintése

Az alábbi ábra szemlélteti megoldásunk architektúráját:

Először is, a megoldás csővezetékes feldolgozást kínál Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon S3 eseményértesítések és egy Amazon Simple Queue Service (Amazon SQS) várólista, így a feldolgozás akkor kezdődik, amikor egy űrlap a cél Amazon S3 partícióba kerül. Egy esemény Amazon EventBridge létrejön és elküldi egy AWS Lambda cél, amely egy Amazon Textract-feladatot indít el.

Használhat szerver nélküli AWS szolgáltatásokat, mint például a Lambda és AWS lépésfunkciók aszinkron szolgáltatásintegráció létrehozása az AWS AI-szolgáltatások és az AWS Analytics- és adatbázis-szolgáltatások között raktározási, elemzési, valamint mesterséges intelligenciával és gépi tanulással (ML). Ebben a bejegyzésben bemutatjuk, hogyan használhatjuk a Step Functions funkciót az Amazon Textract aszinkron API-khoz intézett kérések állapotának aszinkron vezérlésére és karbantartására. Ez egy állapotgép használatával érhető el a hívások és válaszok kezelésére. Az állapotgépen belül a Lambda segítségével egyesítjük az Amazon Textract oldalszámozott API-válaszadatait egyetlen JSON-objektummá, amely félig strukturált szöveges adatokat tartalmaz, amelyek OCR segítségével kinyerhetők.

Ezután szűrünk a különböző űrlapok között egy szabványos megközelítést használva, hogy ezeket az OCR-adatokat egy közös strukturált formátumba összesítsük. Amazon Athéné és egy SQL Amazon Textract JSON SerDe.

Nyomon követheti az ezen a folyamaton keresztül megtett lépéseket a kiszolgáló nélküli Step Functions segítségével a feldolgozási állapot nyomon követéséhez és az egyes állapotok kimenetének megőrzéséhez. Egyes iparágakban ezt szívesebben teszik az ügyfelek, amikor olyan adatokkal dolgoznak, ahol meg kell őriznie az olyan szolgáltatásokból származó összes előrejelzés eredményét, mint az Amazon Textract, hogy elősegítse a folyamat eredményeinek hosszú távú magyarázhatóságát.

Végül lekérdezheti a kinyert adatokat az Athena táblákban.

A következő szakaszokban végigvezetjük a csővezeték használatával AWS felhőképződés, a folyamat tesztelése és új űrlapverziók hozzáadása. Ez a folyamat karbantartható megoldást nyújt, mivel minden összetevő (betöltés, szövegkivonás, szövegfeldolgozás) független és elszigetelt.

Határozza meg az alapértelmezett bemeneti paramétereket a CloudFormation veremekhez

A CloudFormation veremek bemeneti paramétereinek meghatározásához nyissa meg default.properties alatt a params mappát, és írja be a következő kódot:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Telepítse a megoldást

A csővezeték üzembe helyezéséhez hajtsa végre a következő lépéseket:

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást:
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
Adja meg a verem részleteit a következő képernyőképen látható módon, és válassza ki Következő.
A Állítsa be a verembeállításokat szakaszt, adjon hozzá opcionális címkéket, engedélyeket és egyéb speciális beállításokat.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
Tekintse át a verem részleteit, és válassza ki Tudomásul veszem, hogy az AWS CloudFormation létrehozhat IAM-erőforrásokat egyéni névvel.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.

Ez elindítja a veremtelepítést az AWS-fiókjában.

A verem sikeres telepítése után megkezdheti a folyamat tesztelését a következő részben leírtak szerint.

Tesztelje a csővezetéket

A sikeres üzembe helyezés után hajtsa végre a következő lépéseket a folyamat teszteléséhez:

Töltse le a mintafájlok számítógépére.
Létrehozása /uploads mappát (partíciót) az újonnan létrehozott bemeneti S3 vödör alatt.
Hozzon létre külön mappákat (partíciókat), mint pl jobapplications alatt /uploads.
Töltse fel az álláspályázat első verzióját a mintadokumentumok mappából a /uploads/jobapplications partíciót.

Amikor a folyamat befejeződött, a dokumentum ezen verziójához tartozó kibontott kulcsértéket itt találhatja meg /OuputS3/03-textract-parsed-output/jobapplications az Amazon S3 konzolon.

Az Athena táblázatban is megtalálod (applications_data_table) a adatbázis menü (jobapplicationsdatabase).

Töltse fel a munkaalkalmazás második verzióját a mintadokumentumok mappából a /uploads/jobapplications partíciót.

Amikor a folyamat befejeződött, a verzióhoz tartozó kulcsértéket itt találhatja meg /OuputS3/03-textract-parsed-output/jobapplications az Amazon S3 konzolon.

Az Athena táblázatban is megtalálod (applications_data_table) a adatbázis menü (jobapplicationsdatabase).

Végeztél! Sikeresen telepítette a folyamatot.

Új űrlapverziók hozzáadása

A megoldás frissítése egy új űrlapverzióhoz egyszerű – minden űrlapverziót csak a feldolgozási veremben lévő lekérdezések tesztelésével kell frissíteni.

A frissítések elvégzése után újratelepítheti a frissített folyamatot az AWS CloudFormation API-k segítségével, és új dokumentumokat dolgozhat fel, így a séma ugyanazokhoz a szabványos adatpontokhoz érkezik, minimális fennakadással és minimális fejlesztési erőfeszítéssel a folyamat módosításához. Ez a rugalmasság, amely az elemzési és kibontási viselkedés szétválasztásával és az Athena JSON SerDe funkciójának használatával érhető el, karbantartható megoldássá teszi ezt a folyamatot bármilyen számú űrlapverzióhoz, amelyet a szervezetnek fel kell dolgoznia az információgyűjtéshez.

A feldolgozási megoldás futtatása során a bejövő űrlapokról származó adatok automatikusan feltöltődnek az Athénába a hozzájuk társított fájlokkal és bemenetekkel kapcsolatos információkkal. Amikor az űrlapokon lévő adatok a strukturálatlanról a strukturált adatokra kerülnek, készen állnak a későbbi alkalmazásokhoz, például elemzésekhez, ML modellezéshez és egyebekhez.

Tisztítsuk meg

A folyamatos költségek elkerülése érdekében törölje a megoldás részeként létrehozott erőforrásokat, ha végzett.

Az Amazon S3 konzolon manuálisan törölje a CloudFormation verem részeként létrehozott gyűjtősávokat.
Az AWS CloudFormation konzolon válassza a lehetőséget Stacks a navigációs ablaktáblában.
Válassza ki a fő veremet, és válassza ki töröl.

Ez automatikusan törli a beágyazott veremeket.

Következtetés

Ebben a bejegyzésben bemutattuk, hogy a dokumentumfeldolgozás nyomon követésére és testreszabására törekvő ügyfelek hogyan építhetnek fel és telepíthetnek eseményvezérelt, szerver nélküli, több formátumú dokumentumelemző folyamatot az Amazon Textract segítségével. Ez a folyamat karbantartható megoldást kínál, mivel minden összetevő (betöltés, szövegkivonás, szövegfeldolgozás) független és elszigetelt, lehetővé téve a szervezetek számára, hogy megoldásaikat a különféle feldolgozási igények kielégítésére operacionalizálják.

Próbálja ki a megoldást még ma, és írja meg véleményét a megjegyzések részben.

A szerzőkről

Emily Soward az AWS Professional Services adattudós. Mesterséges intelligencia szakon kiemelkedő mesterfokozatot szerzett a skóciai Edinburgh-i Egyetemen, az Egyesült Királyságban, különös tekintettel a természetes nyelvi feldolgozásra (NLP). Emily alkalmazott tudományos és mérnöki feladatokat látott el, amelyek középpontjában az AI-kompatibilis termékek kutatása és fejlesztése, a működési kiválóság, valamint a köz- és magánszektorbeli szervezeteknél futó mesterségesintelligencia-terhelések irányítása áll. Az AWS vezető előadójaként, nemrég pedig az AWS Well-Architected in the Machine Learning Lens szerzőjeként vesz részt az ügyfelek tanácsadásában.

Sandeep Singh az AWS Professional Services adattudós. A kaliforniai San Diego Állami Egyetemen (SDSU) szerzett Master of Science fokozatot információrendszerekből, mesterséges intelligenciával és adattudományokkal foglalkozva. Teljes stack adattudós, erős számítástechnikai háttérrel és megbízható tanácsadó, aki az AI-rendszerek és -vezérlés tervezésére specializálódott. Szenvedélyesen segíti ügyfeleit nagy hatású projektjeik megfelelő irányba terelésében, tanácsokkal és útmutatásokkal látja el őket a felhőben való utazásukban, valamint a legmodernebb AI/ML-kompatibilis megoldások kiépítésében.

Időbélyeg: Március 17, 2022

Időbélyeg: 18. július 2023.

Építsen nyomon követhető, egyedi, több formátumú dokumentumelemző folyamatot az Amazon Textract segítségével

Újra kiadta Platón

Megoldás áttekintése

Határozza meg az alapértelmezett bemeneti paramétereket a CloudFormation veremekhez

Telepítse a megoldást

Tesztelje a csővezetéket

Új űrlapverziók hozzáadása

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Az Amazon Bedrock tudásbázisa mostantól támogatja a metaadat-szűrést a visszakeresési pontosság javítása érdekében | Amazon webszolgáltatások

Hozzon létre egy szöveges összefoglaló projektet a Hugging Face Transformers segítségével: 1. rész

Hozzon létre egy e-mail spam érzékelőt az Amazon SageMaker | segítségével Amazon webszolgáltatások

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók