Organisatsioonivormid on peamise ärivahendina erinevates tööstusharudes – alates finantsteenustest, lõpetades tervishoiuga ja muuga. Mõelge näiteks maksuhaldussektori maksude esitamise vormidele, kus igal aastal ilmuvad uued vormid, mis sisaldavad suures osas sama teavet. AWS-i kliendid erinevates sektorites peavad oma igapäevase äritegevuse osana töötlema ja salvestama teavet vormides. Need vormid on sageli peamised vahendid teabe liikumiseks organisatsiooni, kus andmete kogumise tehnoloogilised vahendid on ebapraktilised.
Lisaks teabe jäädvustamiseks vormide kasutamisele pakkumise aastate jooksul Amazoni tekst, oleme täheldanud, et AWS-i kliendid muudavad oma organisatsioonivorme sageli tehtud struktuurimuudatuste, lisatud või muudetud väljade või muude kaalutluste, näiteks aasta või vormi versiooni muutmise põhjal.
Kui vormi struktuur või sisu muutub, võib see sageli tekitada väljakutseid traditsioonilistele OCR-süsteemidele või mõjutada teabe kogumiseks kasutatavaid allavoolu tööriistu, isegi kui teil on vaja aasta-aastalt koguda sama teavet ja koondada andmed kasutamiseks olenemata vormingust. dokumendist.
Selle probleemi lahendamiseks näitame selles postituses, kuidas saate Amazon Textractiga luua ja juurutada sündmustepõhise serverita mitme vorminguga dokumentide sõelumiskonveieri.
Lahenduse ülevaade
Järgmine diagramm illustreerib meie lahenduse arhitektuuri:
Esiteks pakub lahendus torujuhtme allaneelamist Amazoni lihtne salvestusteenus (Amazon S3), Amazon S3 sündmuste teatised ja an Amazoni lihtsa järjekorra teenus (Amazon SQS) järjekorda, nii et töötlemine algab siis, kui vorm jõuab Amazon S3 sihtpartitsiooni. Sündmus käimas Amazon EventBridge luuakse ja saadetakse aadressile AWS Lambda sihtmärk, mis käivitab Amazon Textracti töö.
Saate kasutada serverita AWS-teenuseid, nagu Lambda ja AWS-i astmefunktsioonid luua asünkroonseid teenuseintegratsioone AWS AI teenuste ning AWS Analyticsi ja andmebaasiteenuste vahel laonduse, analüütika ning tehisintellekti ja masinõppe (ML) jaoks. Selles postituses demonstreerime, kuidas kasutada sammufunktsioone Amazon Textracti asünkroonsete API-de taotluste oleku asünkroonseks juhtimiseks ja säilitamiseks. See saavutatakse kõnede ja vastuste haldamiseks olekumasina abil. Kasutame olekumasinas Lambdat, et liita Amazon Textracti lehekülgedega API vastuse andmed üheks JSON-objektiks, mis sisaldab OCR-i abil ekstraheeritud poolstruktureeritud tekstiandmeid.
Seejärel filtreerime standardiseeritud lähenemisviisi abil eri vormide vahel, et koondada need OCR-andmed ühisesse struktureeritud vormingusse, kasutades Amazonase Athena ja SQL Amazon Textract JSON SerDe.
Saate jälgida selle konveieri kaudu tehtud samme, kasutades serverita sammufunktsioone, et jälgida töötlemisolekut ja säilitada iga oleku väljund. Seda eelistavad kliendid mõnes tööstuses teha andmetega töötamisel, mille puhul peate säilitama kõigi teenuste, nagu Amazon Textract, prognooside tulemused, et edendada teie torujuhtme tulemuste seletatavust pikemas perspektiivis.
Lõpuks saate Athena tabelites ekstraktitud andmete kohta päringuid teha.
Järgmistes jaotistes juhendame teid torujuhtme seadistamisel kasutades AWS CloudFormation, konveieri testimine ja uute vormiversioonide lisamine. See torujuhe pakub hooldatavat lahendust, kuna iga komponent (neelamine, teksti ekstraheerimine, tekstitöötlus) on sõltumatu ja isoleeritud.
Määratlege CloudFormationi virnade jaoks vaikesisendparameetrid
CloudFormationi virnade sisendparameetrite määramiseks avage default.properties
Vastavalt params
ja sisestage järgmine kood:
Rakendage lahendus
Torujuhtme juurutamiseks toimige järgmiselt.
- Vali Käivitage Stack:
- Vali järgmine.
- Määrake virna üksikasjad, nagu on näidatud järgmisel ekraanipildil, ja valige järgmine.
- aasta Konfigureerige virna valikud lisage valikulisi silte, õigusi ja muid täpsemaid seadeid.
- Vali järgmine.
- Vaadake üle virna üksikasjad ja valige Tunnistan, et AWS CloudFormation võib luua kohandatud nimedega IAM-i ressursse.
- Vali Loo virn.
See käivitab teie AWS-i kontol virna juurutamise.
Kui virn on edukalt juurutatud, võite alustada torujuhtme testimist, nagu on kirjeldatud järgmises jaotises.
Testige torujuhet
Pärast edukat juurutamist tehke torujuhtme testimiseks järgmised sammud.
- Lae alla näidisfailid arvutisse.
- Loo
/uploads
kaust (sektsioon) vastloodud sisendi S3 ämbri all.
- Looge eraldi kaustad (partitsioonid) nagu
jobapplications
all/uploads
.
- Laadige töötaotluse esimene versioon näidisdokumentide kaustast üles
/uploads/jobapplications
partitsioon.
Kui konveier on lõpule viidud, leiate selle dokumendiversiooni jaoks ekstraheeritud võtmeväärtuse /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 konsoolil.
Leiad selle ka Athena tabelist (applications_data_table
) andmebaas menüü (jobapplicationsdatabase
).
Kui konveier on lõpule viidud, leiate selle versiooni jaoks ekstraheeritud võtmeväärtuse /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 konsoolil.
Leiad selle ka Athena tabelist (applications_data_table
) andmebaas menüü (jobapplicationsdatabase
).
Sa oled valmis! Olete oma torujuhtme edukalt juurutanud.
Lisage uued vormiversioonid
Uue vormiversiooni lahenduse värskendamine on lihtne – iga vormi versiooni tuleb värskendada ainult töötlemisvirnas olevate päringute testimise teel.
Pärast värskenduste tegemist saate värskendatud konveieri AWS CloudFormation API-de abil ümber paigutada ja uusi dokumente töödelda, jõudes oma skeemi jaoks samadesse standardsetesse andmepunktidesse minimaalsete häirete ja arendustegevusega, mis on vajalik konveieri muutmiseks. See paindlikkus, mis saavutatakse sõelumis- ja ekstraheerimiskäitumise lahtisidumisega ning JSON SerDe funktsiooni kasutamisega Athenas, muudab selle torustiku hooldatavaks lahenduseks mis tahes vormiversioonide jaoks, mida teie organisatsioon peab teabe kogumiseks töötlema.
Sisseelamislahenduse käitamisel sisestatakse sissetulevate vormide andmed automaatselt Athenasse teabega failide ja nendega seotud sisendite kohta. Kui teie vormide andmed liiguvad struktureerimata andmetelt struktureeritud andmetele, on need valmis kasutamiseks järgmistes rakendustes, nagu analüütika, ML-i modelleerimine ja palju muud.
Koristage
Pidevate tasude vältimiseks kustutage selle lahenduse osana loodud ressursid, kui olete lõpetanud.
- Kustutage Amazon S3 konsoolis käsitsi CloudFormationi virna osana loodud ämbrid.
- Valige AWS CloudFormationi konsoolil Hoidla navigeerimispaanil.
- Valige peamine virn ja valige kustutama.
See kustutab pesastatud virnad automaatselt.
Järeldus
Selles postituses näitasime, kuidas kliendid, kes soovivad dokumenditöötlust jälgida ja kohandada, saavad Amazon Textractiga luua ja juurutada sündmustepõhise serverita mitmevormingulise dokumentide sõelumiskonveieri. See konveier pakub hooldatavat lahendust, kuna kõik komponendid (sisenemine, teksti ekstraheerimine, tekstitöötlus) on sõltumatud ja isoleeritud, võimaldades organisatsioonidel kasutada oma lahendusi erinevate töötlemisvajaduste rahuldamiseks.
Proovige lahendust juba täna ja jätke oma tagasiside kommentaaride jaotisesse.
Autoritest
Emily Soward on AWS-i professionaalsete teenustega andmeteadlane. Tal on väljapaistev magistrikraad tehisintellekti erialal Edinburghi ülikoolist Šotimaal, Ühendkuningriigis, rõhuasetusega loomuliku keele töötlemisel (NLP). Emily on töötanud rakendusteaduslikel ja inseneriülesannetel, mis on keskendunud tehisintellekti toega toodete uurimisele ja arendustegevusele, töökvaliteedile ning avaliku ja erasektori organisatsioonide tehisintellekti töökoormuse juhtimisele. Ta osaleb klientide juhendamisel AWS-i vanemesinejana ja hiljuti AWS-i masinõppeobjektiivis hästi arhitektuurse autorina.
Sandeep Singh on AWS-i professionaalsete teenustega andmeteadlane. Tal on Californias San Diego osariigi ülikoolis (SDSU) infosüsteemide magistrikraad, keskendudes tehisintellektile ja andmeteadusele. Ta on tugeva informaatika taustaga täielik andmeteadlane ja usaldusväärne nõustaja, kes on spetsialiseerunud tehisintellektisüsteemidele ja juhtimisdisainile. Ta on kirglik aidata klientidel oma suure mõjuga projekte õiges suunas viia, nõustab ja juhendab neid nende pilveteekonnal ning loob tipptasemel AI/ML-i toega lahendusi.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-texttract/
- "
- 100
- MEIST
- konto
- saavutada
- üle
- aadress
- edasijõudnud
- AI
- AI teenused
- Materjal: BPA ja flataatide vaba plastik
- Lubades
- Amazon
- analytics
- API
- API-liidesed
- taotlus
- rakendused
- lähenemine
- arhitektuur
- kunstlik
- tehisintellekti
- AWS
- tagapõhi
- piir
- ehitama
- Ehitus
- äri
- California
- Põhjus
- väljakutseid
- muutma
- koormuste
- Cloud
- kood
- kommentaarid
- ühine
- komponent
- Arvutiteadus
- kontsentratsioon
- konsool
- sisu
- kontrollida
- Kliendid
- andmed
- andmeteadus
- andmeteadlane
- andmebaas
- Näidatud
- juurutada
- kasutuselevõtu
- Disain
- & Tarkvaraarendus
- erinev
- Katkestus
- dokumendid
- Inseneriteadus
- sündmus
- näide
- tagasiside
- Valdkonnad
- finants-
- finantsteenused
- esimene
- Paindlikkus
- voog
- keskendunud
- Järel
- vorm
- formaat
- vormid
- täis
- funktsionaalsus
- valitsemistava
- tervishoid
- Suur
- omab
- Kuidas
- Kuidas
- HTTPS
- mõju
- tööstusharudes
- tööstus
- info
- integratsioon
- Intelligentsus
- IT
- töö
- Kuningriik
- keel
- õppimine
- Lahkuma
- Pikk
- masin
- masinõpe
- säilitada
- juhtimine
- juhtiv
- käsitsi
- ML
- Natural
- NAVIGATSIOON
- number
- pakkumine
- Pakkumised
- avatud
- organisatsioon
- organisatsiooniline
- organisatsioonid
- Muu
- tava
- Ennustused
- esmane
- era-
- Probleem
- protsess
- Toode
- professionaalne
- projektid
- annab
- avalik
- teadustöö
- teadus-ja arendustegevus
- Vahendid
- vastus
- Tulemused
- jooks
- jooksmine
- San
- teadus
- teadlane
- sektor
- Sektorid
- otsib
- Serverita
- teenus
- Teenused
- komplekt
- kehtestamine
- lihtne
- So
- lahendus
- Lahendused
- LAHENDAGE
- midagi
- Kõneleja
- Kestab
- algus
- riik
- modernne
- ladustamine
- salvestada
- tugev
- edukas
- Edukalt
- süsteemid
- sihtmärk
- maks
- test
- Testimine
- Läbi
- täna
- tööriist
- töövahendid
- jälgida
- traditsiooniline
- Ühendatud
- Ühendkuningriik
- Ülikool
- Uudised
- kasutama
- väärtus
- jooksul
- töö
- aasta
- aastat