Build A Traceable, Custom, Multi-format Document Parsing Pipeline With Amazon Textract

Ponovno objavil Platon

Spremljevalci: 0

Organizacijske oblike služijo kot primarno poslovno orodje v panogah – od finančnih storitev do zdravstva itd. Razmislite na primer o obrazcih za davčno prijavo v industriji davčnega upravljanja, kjer se vsako leto izdajo novi obrazci z večinoma enakimi informacijami. Stranke AWS v različnih sektorjih morajo obdelovati in shranjevati informacije v obrazcih kot del svoje dnevne poslovne prakse. Ti obrazci pogosto služijo kot primarno sredstvo za pretok informacij v organizacijo, kjer so tehnološka sredstva za zajemanje podatkov nepraktična.

Poleg uporabe obrazcev za zajemanje informacij, v letih ponudbe Amazonovo besedilosmo opazili, da stranke AWS pogosto spreminjajo različice svojih organizacijskih obrazcev na podlagi izvedenih strukturnih sprememb, dodanih ali spremenjenih polj ali drugih razlogov, kot je sprememba leta ali različice obrazca.

Ko se spremeni struktura ali vsebina obrazca, lahko to pogosto povzroči izzive za tradicionalne sisteme OCR ali vpliva na nadaljnja orodja, ki se uporabljajo za zajemanje informacij, tudi ko morate leto za letom zajemati iste informacije in združevati podatke za uporabo ne glede na obliko. dokumenta.

Da bi rešili to težavo, v tej objavi prikazujemo, kako lahko zgradite in uvedete cevovod za razčlenjevanje dokumentov v več formatih, ki temelji na dogodkih, brez strežnika z Amazon Texttract.

Pregled rešitev

Naslednji diagram ponazarja našo arhitekturo rešitve:

Prvič, rešitev ponuja uporabo cevovoda Preprosta storitev shranjevanja Amazon (Amazon S3), obvestila o dogodkih Amazon S3 in an Storitev Amazon Simple Queue Service (Amazon SQS) čakalno vrsto, tako da se obdelava začne, ko obrazec pristane v ciljni particiji Amazon S3. Dogodek na Amazon EventBridge se ustvari in pošlje na AWS Lambda cilj, ki sproži opravilo Amazon Texttract.

Uporabite lahko storitve AWS brez strežnika, kot sta Lambda in Korak funkcije AWS za ustvarjanje asinhronih integracij storitev med storitvami AI AWS in storitvami AWS Analytics and Database za skladiščenje, analitiko ter AI in strojno učenje (ML). V tej objavi prikazujemo, kako uporabiti funkcije korakov za asinhroni nadzor in vzdrževanje stanja zahtev za asinhrone API-je Amazon Texttract. To dosežemo z uporabo državnega avtomata za upravljanje klicev in odgovorov. Znotraj državnega avtomata uporabljamo Lambda za združitev ostranjenih podatkov odziva API-ja iz Amazon Texttract v en sam objekt JSON, ki vsebuje polstrukturirane besedilne podatke, ekstrahirane z OCR.

Nato filtriramo različne obrazce z uporabo standardiziranega pristopa, da te podatke OCR združimo v skupno strukturirano obliko z uporabo Amazonska Atena in SQL Amazon Texttract JSON SerDe.

Korakom, opravljenim skozi ta cevovod, lahko sledite s funkcijami korakov brez strežnika, da sledite stanju obdelave in obdržite izhod vsakega stanja. To je nekaj, kar stranke v nekaterih panogah raje počnejo pri delu s podatki, kjer morate obdržati rezultate vseh napovedi iz storitev, kot je Amazon Texttract, za dolgoročno spodbujanje razložljivosti rezultatov vašega cevovoda.

Končno lahko izvedete poizvedbo po ekstrahiranih podatkih v tabelah Athena.

V naslednjih razdelkih vas vodimo skozi nastavitev cevovoda z uporabo Oblikovanje oblaka AWS, testiranje cevovoda in dodajanje novih različic obrazcev. Ta cevovod zagotavlja rešitev, ki jo je mogoče vzdrževati, ker je vsaka komponenta (vnos, ekstrakcija besedila, obdelava besedila) neodvisna in izolirana.

Določite privzete vhodne parametre za sklade CloudFormation

Če želite definirati vhodne parametre za sklade CloudFormation, odprite default.properties pod params mapo in vnesite naslednjo kodo:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Uvedite rešitev

Za uvedbo cevovoda izvedite naslednje korake:

Izberite Izstrelite sklad:
Izberite Naslednji.
Določite podrobnosti o skladu, kot je prikazano na naslednjem posnetku zaslona, in izberite Naslednji.
v Konfigurirajte možnosti zlaganja dodajte neobvezne oznake, dovoljenja in druge napredne nastavitve.
Izberite Naslednji.
Preglejte podrobnosti sklada in izberite Zavedam se, da AWS CloudFormation lahko ustvari vire IAM z imeni po meri.
Izberite Ustvari sklad.

To sproži uvedbo sklada v vašem računu AWS.

Ko je sklad uspešno nameščen, lahko začnete preizkušati cevovod, kot je opisano v naslednjem razdelku.

Preizkusite cevovod

Po uspešni uvedbi izvedite naslednje korake, da preizkusite svoj cevovod:

Prenos vzorčne datoteke v računalnik.
Ustvari /uploads mapo (particijo) pod novo ustvarjenim vhodnim vedro S3.
Ustvarite ločene mape (particije), kot je jobapplications pod /uploads.
Naložite prvo različico prošnje za zaposlitev iz mape z vzorčnimi dokumenti v /uploads/jobapplications particijo.

Ko je cevovod končan, lahko najdete izvlečen ključ/vrednost za to različico dokumenta v /OuputS3/03-textract-parsed-output/jobapplications na konzoli Amazon S3.

Najdete ga tudi v tabeli Athena (applications_data_table) na Baze podatkov meni (jobapplicationsdatabase).

Naložite drugo različico prošnje za zaposlitev iz mape z vzorčnimi dokumenti v /uploads/jobapplications particijo.

Ko je cevovod končan, lahko najdete izvlečen ključ/vrednost za to različico v /OuputS3/03-textract-parsed-output/jobapplications na konzoli Amazon S3.

Najdete ga tudi v tabeli Athena (applications_data_table) na Baze podatkov meni (jobapplicationsdatabase).

Končal si! Uspešno ste namestili svoj cevovod.

Dodajte nove različice obrazca

Posodobitev rešitve za novo različico obrazca je enostavna – vsako različico obrazca je treba posodobiti samo s testiranjem poizvedb v skladu za obdelavo.

Ko izvedete posodobitve, lahko znova razporedite posodobljeni cevovod z API-ji AWS CloudFormation in obdelate nove dokumente, tako da pridete do istih standardnih podatkovnih točk za vašo shemo z minimalnimi motnjami in razvojnim naporom, potrebnim za spreminjanje cevovoda. Zaradi te prilagodljivosti, ki je dosežena z ločevanjem vedenja razčlenjevanja in ekstrakcije ter uporabo funkcionalnosti JSON SerDe v Atheni, je ta cevovod vzdržljiva rešitev za poljubno število različic obrazcev, ki jih mora vaša organizacija obdelati za zbiranje informacij.

Ko zaženete rešitev za vnos, se podatki iz dohodnih obrazcev samodejno vnesejo v Atheno z informacijami o datotekah in vnosih, povezanih z njimi. Ko se podatki v vaših obrazcih premaknejo iz nestrukturiranih v strukturirane podatke, so pripravljeni za uporabo v nadaljnjih aplikacijah, kot so analitika, modeliranje ML in drugo.

Čiščenje

Da se izognete nenehnim bremenitvam, izbrišite vire, ki ste jih ustvarili kot del te rešitve, ko končate.

Na konzoli Amazon S3 ročno izbrišite vedra, ki ste jih ustvarili kot del sklada CloudFormation.
Na konzoli AWS CloudFormation izberite Skladovnice v podoknu za krmarjenje.
Izberite glavni sklad in izberite Brisanje.

To samodejno izbriše ugnezdene sklade.

zaključek

V tej objavi smo pokazali, kako lahko stranke, ki želijo izslediti in prilagoditi obdelavo dokumentov, zgradijo in uvedejo cevovod za razčlenjevanje dokumentov v več formatih, ki temelji na dogodkih, brez strežnika, z Amazon Texttract. Ta cevovod zagotavlja rešitev, ki jo je mogoče vzdrževati, saj je vsaka komponenta (vnos, ekstrakcija besedila, obdelava besedila) neodvisna in izolirana, kar organizacijam omogoča, da operacionalizirajo svoje rešitve za reševanje različnih potreb obdelave.

Preizkusite rešitev še danes in pustite povratne informacije v razdelku za komentarje.

O avtorjih

Emily Soward je podatkovni znanstvenik pri AWS Professional Services. Ima magisterij znanosti z odliko na področju umetne inteligence z Univerze v Edinburghu na Škotskem v Združenem kraljestvu s poudarkom na obdelavi naravnega jezika (NLP). Emily je opravljala uporabne znanstvene in inženirske vloge, osredotočene na raziskave in razvoj izdelkov, ki podpirajo umetno inteligenco, operativno odličnost in upravljanje delovnih obremenitev umetne inteligence, ki se izvajajo v organizacijah v javnem in zasebnem sektorju. Prispeva k usmerjanju strank kot višja govornica AWS in pred kratkim kot avtorica za AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh je podatkovni znanstvenik pri AWS Professional Services. Ima magisterij iz informacijskih sistemov s poudarkom na umetni inteligenci in podatkovni znanosti na državni univerzi San Diego (SDSU) v Kaliforniji. Je podatkovni znanstvenik z močnim znanjem računalništva in zaupanja vreden svetovalec s specializacijo na področju sistemov umetne inteligence in načrtovanja nadzora. Strastno želi pomagati strankam, da njihove projekte z velikim vplivom usmerijo v pravo smer, jim svetuje in jih vodi na njihovem potovanju v oblak ter gradi najsodobnejše rešitve, ki podpirajo AI/ML.

Časovni žig: Marec 17, 2022

Časovni žig: Julij 18, 2023

Z Amazon Texttract zgradite sledljiv cevovod za razčlenjevanje dokumentov po meri v več formatih

Ponovno objavil Platon

Pregled rešitev

Določite privzete vhodne parametre za sklade CloudFormation

Uvedite rešitev

Preizkusite cevovod

Dodajte nove različice obrazca

Čiščenje

zaključek

O avtorjih

Več od Strojno učenje AWS

Baze znanja za Amazon Bedrock zdaj podpirajo filtriranje metapodatkov za izboljšanje natančnosti iskanja | Spletne storitve Amazon

Nastavite projekt povzemanja besedila s Hugging Face Transformers: 1. del

Zgradite detektor vsiljene e-pošte z uporabo Amazon SageMaker | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun