A szervezeti formák elsődleges üzleti eszközként szolgálnak a különböző iparágakban – a pénzügyi szolgáltatásoktól az egészségügyig stb. Vegyük például az adókezelési ágazatban az adóbevallási űrlapokat, ahol minden évben új nyomtatványok jelennek meg nagyrészt ugyanazokkal az információkkal. Az AWS-ügyfeleknek a különböző szektorokban, mindennapi üzleti gyakorlatuk részeként formákban kell feldolgozniuk és tárolniuk az információkat. Ezek a formák gyakran elsődleges eszközként szolgálnak az információ beáramlásához egy olyan szervezetbe, ahol az adatrögzítés technológiai eszközei nem praktikusak.
Amellett, hogy űrlapokat használ az információk rögzítésére, az évek során nyújtott kínálat Amazon szöveg, megfigyeltük, hogy az AWS-ügyfelek gyakran módosítják szervezeti formáikat az elvégzett strukturális változtatások, a hozzáadott vagy módosított mezők vagy egyéb megfontolások, például az év vagy az űrlap verziójának megváltoztatása alapján.
Amikor egy űrlap szerkezete vagy tartalma megváltozik, ez gyakran kihívásokat jelenthet a hagyományos OCR-rendszerek számára, vagy hatással lehet az információk rögzítésére használt downstream eszközökre, még akkor is, ha évről évre ugyanazt az információt kell rögzítenie, és az adatokat a formátumtól függetlenül összesítenie kell. a dokumentumból.
A probléma megoldása érdekében ebben a bejegyzésben bemutatjuk, hogyan hozhat létre és telepíthet eseményvezérelt, kiszolgáló nélküli, több formátumú dokumentumelemző folyamatot az Amazon Textract segítségével.
Megoldás áttekintése
Az alábbi ábra szemlélteti megoldásunk architektúráját:
Először is, a megoldás csővezetékes feldolgozást kínál Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon S3 eseményértesítések és egy Amazon Simple Queue Service (Amazon SQS) várólista, így a feldolgozás akkor kezdődik, amikor egy űrlap a cél Amazon S3 partícióba kerül. Egy esemény Amazon EventBridge létrejön és elküldi egy AWS Lambda cél, amely egy Amazon Textract-feladatot indít el.
Használhat szerver nélküli AWS szolgáltatásokat, mint például a Lambda és AWS lépésfunkciók aszinkron szolgáltatásintegráció létrehozása az AWS AI-szolgáltatások és az AWS Analytics- és adatbázis-szolgáltatások között raktározási, elemzési, valamint mesterséges intelligenciával és gépi tanulással (ML). Ebben a bejegyzésben bemutatjuk, hogyan használhatjuk a Step Functions funkciót az Amazon Textract aszinkron API-khoz intézett kérések állapotának aszinkron vezérlésére és karbantartására. Ez egy állapotgép használatával érhető el a hívások és válaszok kezelésére. Az állapotgépen belül a Lambda segítségével egyesítjük az Amazon Textract oldalszámozott API-válaszadatait egyetlen JSON-objektummá, amely félig strukturált szöveges adatokat tartalmaz, amelyek OCR segítségével kinyerhetők.
Ezután szűrünk a különböző űrlapok között egy szabványos megközelítést használva, hogy ezeket az OCR-adatokat egy közös strukturált formátumba összesítsük. Amazon Athéné és egy SQL Amazon Textract JSON SerDe.
Nyomon követheti az ezen a folyamaton keresztül megtett lépéseket a kiszolgáló nélküli Step Functions segítségével a feldolgozási állapot nyomon követéséhez és az egyes állapotok kimenetének megőrzéséhez. Egyes iparágakban ezt szívesebben teszik az ügyfelek, amikor olyan adatokkal dolgoznak, ahol meg kell őriznie az olyan szolgáltatásokból származó összes előrejelzés eredményét, mint az Amazon Textract, hogy elősegítse a folyamat eredményeinek hosszú távú magyarázhatóságát.
Végül lekérdezheti a kinyert adatokat az Athena táblákban.
A következő szakaszokban végigvezetjük a csővezeték használatával AWS felhőképződés, a folyamat tesztelése és új űrlapverziók hozzáadása. Ez a folyamat karbantartható megoldást nyújt, mivel minden összetevő (betöltés, szövegkivonás, szövegfeldolgozás) független és elszigetelt.
Határozza meg az alapértelmezett bemeneti paramétereket a CloudFormation veremekhez
A CloudFormation veremek bemeneti paramétereinek meghatározásához nyissa meg default.properties
alatt a params
mappát, és írja be a következő kódot:
Telepítse a megoldást
A csővezeték üzembe helyezéséhez hajtsa végre a következő lépéseket:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Indítsa el a Stack alkalmazást:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
- Adja meg a verem részleteit a következő képernyőképen látható módon, és válassza ki Következő.
- A Állítsa be a verembeállításokat szakaszt, adjon hozzá opcionális címkéket, engedélyeket és egyéb speciális beállításokat.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
- Tekintse át a verem részleteit, és válassza ki Tudomásul veszem, hogy az AWS CloudFormation létrehozhat IAM-erőforrásokat egyéni névvel.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem létrehozása.
Ez elindítja a veremtelepítést az AWS-fiókjában.
A verem sikeres telepítése után megkezdheti a folyamat tesztelését a következő részben leírtak szerint.
Tesztelje a csővezetéket
A sikeres üzembe helyezés után hajtsa végre a következő lépéseket a folyamat teszteléséhez:
- Töltse le a mintafájlok számítógépére.
- Létrehozása
/uploads
mappát (partíciót) az újonnan létrehozott bemeneti S3 vödör alatt.
- Hozzon létre külön mappákat (partíciókat), mint pl
jobapplications
alatt/uploads
.
- Töltse fel az álláspályázat első verzióját a mintadokumentumok mappából a
/uploads/jobapplications
partíciót.
Amikor a folyamat befejeződött, a dokumentum ezen verziójához tartozó kibontott kulcsértéket itt találhatja meg /OuputS3/03-textract-parsed-output/jobapplications
az Amazon S3 konzolon.
Az Athena táblázatban is megtalálod (applications_data_table
) a adatbázis menü (jobapplicationsdatabase
).
- Töltse fel a munkaalkalmazás második verzióját a mintadokumentumok mappából a
/uploads/jobapplications
partíciót.
Amikor a folyamat befejeződött, a verzióhoz tartozó kulcsértéket itt találhatja meg /OuputS3/03-textract-parsed-output/jobapplications
az Amazon S3 konzolon.
Az Athena táblázatban is megtalálod (applications_data_table
) a adatbázis menü (jobapplicationsdatabase
).
Végeztél! Sikeresen telepítette a folyamatot.
Új űrlapverziók hozzáadása
A megoldás frissítése egy új űrlapverzióhoz egyszerű – minden űrlapverziót csak a feldolgozási veremben lévő lekérdezések tesztelésével kell frissíteni.
A frissítések elvégzése után újratelepítheti a frissített folyamatot az AWS CloudFormation API-k segítségével, és új dokumentumokat dolgozhat fel, így a séma ugyanazokhoz a szabványos adatpontokhoz érkezik, minimális fennakadással és minimális fejlesztési erőfeszítéssel a folyamat módosításához. Ez a rugalmasság, amely az elemzési és kibontási viselkedés szétválasztásával és az Athena JSON SerDe funkciójának használatával érhető el, karbantartható megoldássá teszi ezt a folyamatot bármilyen számú űrlapverzióhoz, amelyet a szervezetnek fel kell dolgoznia az információgyűjtéshez.
A feldolgozási megoldás futtatása során a bejövő űrlapokról származó adatok automatikusan feltöltődnek az Athénába a hozzájuk társított fájlokkal és bemenetekkel kapcsolatos információkkal. Amikor az űrlapokon lévő adatok a strukturálatlanról a strukturált adatokra kerülnek, készen állnak a későbbi alkalmazásokhoz, például elemzésekhez, ML modellezéshez és egyebekhez.
Tisztítsuk meg
A folyamatos költségek elkerülése érdekében törölje a megoldás részeként létrehozott erőforrásokat, ha végzett.
- Az Amazon S3 konzolon manuálisan törölje a CloudFormation verem részeként létrehozott gyűjtősávokat.
- Az AWS CloudFormation konzolon válassza a lehetőséget Stacks a navigációs ablaktáblában.
- Válassza ki a fő veremet, és válassza ki töröl.
Ez automatikusan törli a beágyazott veremeket.
Következtetés
Ebben a bejegyzésben bemutattuk, hogy a dokumentumfeldolgozás nyomon követésére és testreszabására törekvő ügyfelek hogyan építhetnek fel és telepíthetnek eseményvezérelt, szerver nélküli, több formátumú dokumentumelemző folyamatot az Amazon Textract segítségével. Ez a folyamat karbantartható megoldást kínál, mivel minden összetevő (betöltés, szövegkivonás, szövegfeldolgozás) független és elszigetelt, lehetővé téve a szervezetek számára, hogy megoldásaikat a különféle feldolgozási igények kielégítésére operacionalizálják.
Próbálja ki a megoldást még ma, és írja meg véleményét a megjegyzések részben.
A szerzőkről
Emily Soward az AWS Professional Services adattudós. Mesterséges intelligencia szakon kiemelkedő mesterfokozatot szerzett a skóciai Edinburgh-i Egyetemen, az Egyesült Királyságban, különös tekintettel a természetes nyelvi feldolgozásra (NLP). Emily alkalmazott tudományos és mérnöki feladatokat látott el, amelyek középpontjában az AI-kompatibilis termékek kutatása és fejlesztése, a működési kiválóság, valamint a köz- és magánszektorbeli szervezeteknél futó mesterségesintelligencia-terhelések irányítása áll. Az AWS vezető előadójaként, nemrég pedig az AWS Well-Architected in the Machine Learning Lens szerzőjeként vesz részt az ügyfelek tanácsadásában.
Sandeep Singh az AWS Professional Services adattudós. A kaliforniai San Diego Állami Egyetemen (SDSU) szerzett Master of Science fokozatot információrendszerekből, mesterséges intelligenciával és adattudományokkal foglalkozva. Teljes stack adattudós, erős számítástechnikai háttérrel és megbízható tanácsadó, aki az AI-rendszerek és -vezérlés tervezésére specializálódott. Szenvedélyesen segíti ügyfeleit nagy hatású projektjeik megfelelő irányba terelésében, tanácsokkal és útmutatásokkal látja el őket a felhőben való utazásukban, valamint a legmodernebb AI/ML-kompatibilis megoldások kiépítésében.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-texttract/
- "
- 100
- Rólunk
- Fiók
- elért
- át
- cím
- fejlett
- AI
- AI szolgáltatások
- Minden termék
- lehetővé téve
- amazon
- analitika
- api
- API-k
- Alkalmazás
- alkalmazások
- megközelítés
- építészet
- mesterséges
- mesterséges intelligencia
- AWS
- háttér
- határ
- épít
- Épület
- üzleti
- Kalifornia
- Okoz
- kihívások
- változik
- díjak
- felhő
- kód
- Hozzászólások
- Közös
- összetevő
- Computer Science
- koncentráció
- Konzol
- tartalom
- ellenőrzés
- Ügyfelek
- dátum
- adat-tudomány
- adattudós
- adatbázis
- igazolták
- telepíteni
- bevetés
- Design
- Fejlesztés
- különböző
- Zavar
- dokumentumok
- Mérnöki
- esemény
- példa
- Visszacsatolás
- Fields
- pénzügyi
- pénzügyi szolgáltatások
- vezetéknév
- Rugalmasság
- áramlási
- összpontosított
- következő
- forma
- formátum
- formák
- Tele
- funkcionalitás
- kormányzás
- egészségügyi
- Magas
- tart
- Hogyan
- How To
- HTTPS
- Hatás
- iparágak
- ipar
- információ
- integrációk
- Intelligencia
- IT
- Munka
- Királyság
- nyelv
- tanulás
- Szabadság
- Hosszú
- gép
- gépi tanulás
- fenntartása
- vezetés
- kezelése
- kézzel
- ML
- Természetes
- Navigáció
- szám
- felajánlás
- Ajánlatok
- nyitva
- szervezet
- szervezeti
- szervezetek
- Más
- gyakorlat
- Tippek
- elsődleges
- magán
- Probléma
- folyamat
- Termékek
- szakmai
- projektek
- biztosít
- nyilvános
- kutatás
- kutatás és fejlesztés
- Tudástár
- válasz
- Eredmények
- futás
- futás
- San
- Tudomány
- Tudós
- szektor
- ágazatok
- keres
- vagy szerver
- szolgáltatás
- Szolgáltatások
- készlet
- beállítás
- Egyszerű
- So
- megoldások
- Megoldások
- SOLVE
- valami
- Hangszóró
- verem
- kezdet
- Állami
- csúcs-
- tárolás
- tárolni
- erős
- sikeres
- sikeresen
- Systems
- cél
- adó
- teszt
- Tesztelés
- Keresztül
- Ma
- szerszám
- szerszámok
- vágány
- hagyományos
- Egyesült
- Egyesült Királyság
- egyetemi
- Frissítés
- használ
- érték
- belül
- dolgozó
- év
- év