Organisaatiomuodot toimivat ensisijaisena liiketoiminnan työkaluna eri toimialoilla – rahoituspalveluista terveydenhuoltoon ja muuhun. Ajatellaanpa esimerkiksi verohallinnon veroilmoituslomakkeita, joissa joka vuosi ilmestyy uusia lomakkeita, joissa on pitkälti samat tiedot. AWS-asiakkaiden eri toimialoilla on prosessoitava ja tallennettava tietoja muodoissa osana päivittäistä liiketoimintaansa. Nämä lomakkeet toimivat usein ensisijaisina keinoina tiedon kulkua varten organisaatioon, jossa tiedonkeruun teknologiset keinot ovat epäkäytännöllisiä.
Lomakkeiden käytön lisäksi tietojen keräämiseen vuosien ajan tarjonnan aikana Amazonin tekstiOlemme havainneet, että AWS-asiakkaat versioivat usein organisaatiomuotonsa tehtyjen rakenteellisten muutosten, lisättyjen tai muutettujen kenttien tai muiden näkökohtien, kuten vuoden tai lomakkeen version muutoksen, perusteella.
Kun lomakkeen rakenne tai sisältö muuttuu, tämä voi usein aiheuttaa haasteita perinteisille OCR-järjestelmille tai vaikuttaa loppupään työkaluihin, joita käytetään tiedon keräämiseen, vaikka sinun on kerättävä samat tiedot vuodesta toiseen ja koottava tiedot käytettäväksi formaatista riippumatta. asiakirjasta.
Tämän ongelman ratkaisemiseksi tässä viestissä näytämme, kuinka voit rakentaa ja ottaa käyttöön tapahtumapohjaisen, palvelimettoman, monimuotoisen asiakirjan jäsennysputkilinjan Amazon Textractin avulla.
Ratkaisun yleiskatsaus
Seuraava kaavio havainnollistaa ratkaisuarkkitehtuuriamme:
Ensinnäkin ratkaisu tarjoaa putkistojen käytön Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon S3 -tapahtumailmoitukset ja an Amazonin yksinkertainen jonopalvelu (Amazon SQS) -jonoon niin, että käsittely alkaa, kun lomake laskeutuu kohde Amazon S3 -osioon. Tapahtuma käynnissä Amazon EventBridge luodaan ja lähetetään osoitteeseen AWS Lambda kohde, joka käynnistää Amazon Textract -työn.
Voit käyttää palvelimettomia AWS-palveluita, kuten Lambda ja AWS-vaihetoiminnot luoda asynkronisia palveluintegraatioita AWS AI -palveluiden ja AWS Analytics- ja tietokantapalvelujen välille varastointia, analytiikkaa sekä tekoälyä ja koneoppimista (ML) varten. Tässä viestissä osoitamme, kuinka Step Functions -toimintoja käytetään asynkronisesti hallitsemaan ja ylläpitämään Amazon Textractin asynkronisten sovellusliittymien pyyntöjen tilaa. Tämä saavutetaan käyttämällä tilakonetta puheluiden ja vastausten hallintaan. Käytämme tilakoneen Lambdaa yhdistääksemme Amazon Textractin sivutetut API-vastaustiedot yhdeksi JSON-objektiksi, joka sisältää OCR:llä purettua puolistrukturoitua tekstidataa.
Sitten suodatamme eri lomakkeiden välillä käyttämällä standardisoitua lähestymistapaa yhdistääksemme nämä OCR-tiedot yhteiseen jäsenneltyyn muotoon käyttämällä Amazon Athena ja SQL Amazon Textract JSON SerDe.
Voit jäljittää tämän liukuhihnan kautta suoritettuja vaiheita käyttämällä palvelimettomia Step Functions -toimintoja, joiden avulla voit seurata käsittelyn tilaa ja säilyttää kunkin tilan tulosteen. Tämä on asia, jonka asiakkaat joillakin toimialoilla tekevät mieluummin työskennellessään tietojen kanssa, joissa sinun on säilytettävä kaikkien Amazon Textractin kaltaisten palveluiden ennusteiden tulokset, jotta putkilinjasi tulosten selitettävyyttä voidaan edistää pitkällä aikavälillä.
Lopuksi voit kysyä purettuja tietoja Athena-taulukoista.
Seuraavissa osissa opastamme sinua putkilinjan määrittämisessä käyttämällä AWS-pilven muodostuminen, testaamalla liukuhihnaa ja lisäämällä uusia lomakeversioita. Tämä liukuhihna tarjoaa ylläpidettävän ratkaisun, koska jokainen komponentti (käsittely, tekstin purku, tekstinkäsittely) on itsenäinen ja eristetty.
Määritä CloudFormation-pinojen oletussyöttöparametrit
Määritä CloudFormation-pinojen syöttöparametrit avaamalla default.properties
alla params
-kansioon ja kirjoita seuraava koodi:
Ota ratkaisu käyttöön
Ota putkisto käyttöön suorittamalla seuraavat vaiheet:
- Valita Käynnistä pino:
- Valita seuraava.
- Määritä pinon tiedot seuraavan kuvakaappauksen mukaisesti ja valitse seuraava.
- In Määritä pinoasetukset Lisää valinnaisia tunnisteita, käyttöoikeuksia ja muita lisäasetuksia.
- Valita seuraava.
- Tarkista pinon tiedot ja valitse Myönnän, että AWS CloudFormation saattaa luoda IAM-resursseja mukautetuilla nimillä.
- Valita Luo pino.
Tämä käynnistää pinon käyttöönoton AWS-tililläsi.
Kun pino on otettu käyttöön onnistuneesti, voit aloittaa putkilinjan testauksen seuraavassa osassa kuvatulla tavalla.
Testaa putkistoa
Kun käyttöönotto on onnistunut, testaa putkilinjasi suorittamalla seuraavat vaiheet:
- Lataa esimerkkitiedostot tietokoneellesi.
- Luo
/uploads
kansio (osio) äskettäin luodun S3-syötteen alla.
- Luo erilliset kansiot (osiot), kuten
jobapplications
varten/uploads
.
- Lataa työhakemuksen ensimmäinen versio mallidokumenttien kansiosta kohteeseen
/uploads/jobapplications
osio.
Kun liukuhihna on valmis, löydät asiakirjan tämän version puretun avainarvon /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 -konsolissa.
Löydät sen myös Athena-taulukosta (applications_data_table
) tietokanta valikko (jobapplicationsdatabase
).
- Lataa työhakemuksen toinen versio mallidokumenttien kansiosta kohteeseen
/uploads/jobapplications
osio.
Kun liukuhihna on valmis, löydät tämän version puretun avainarvon /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 -konsolissa.
Löydät sen myös Athena-taulukosta (applications_data_table
) tietokanta valikko (jobapplicationsdatabase
).
Olet valmis! Putkilinjan käyttöönotto onnistui.
Lisää uusia lomakeversioita
Ratkaisun päivittäminen uudelle lomakeversiolle on yksinkertaista – jokainen lomakeversio tarvitsee vain päivittää testaamalla käsittelypinon kyselyt.
Kun olet tehnyt päivitykset, voit ottaa päivitetyn putkilinjan uudelleen käyttöön AWS CloudFormation API -sovellusliittymien avulla ja käsitellä uusia asiakirjoja, jotka saapuvat skeemasi samoihin vakiotietopisteisiin minimaalisella häiriöllä ja kehitystyöllä, jota tarvitaan muutosten tekemiseen putkistoon. Tämä joustavuus, joka saavutetaan erottamalla jäsennys- ja purkamiskäyttäytymistä ja käyttämällä JSON SerDe -toimintoa Athenassa, tekee tästä liukuhihnasta ylläpidettävän ratkaisun useille lomakeversioille, joita organisaatiosi tarvitsee käsitelläkseen tietojen keräämiseksi.
Kun suoritat käsittelyratkaisua, saapuvien lomakkeiden tiedot täytetään automaattisesti Athenaan tiedoilla tiedostoista ja niihin liittyvistä syötteistä. Kun lomakkeiden tiedot siirtyvät jäsentelemättömästä strukturoituun dataan, se on valmis käytettäväksi myöhempien sovellusten, kuten analytiikan, ML-mallinnuksen ja muiden sovellusten kanssa.
Puhdistaa
Voit välttää jatkuvia kuluja poistamalla tämän ratkaisun osana luomasi resurssit, kun olet valmis.
- Poista manuaalisesti Amazon S3 -konsolissa osana CloudFormation-pinoa luomasi säiliöt.
- Valitse AWS CloudFormation -konsolista Stacks navigointipaneelissa.
- Valitse pääpino ja valitse Poista.
Tämä poistaa automaattisesti sisäkkäiset pinot.
Yhteenveto
Tässä viestissä osoitimme, kuinka asiakkaat, jotka haluavat jäljittää ja mukauttaa asiakirjojen käsittelyä, voivat rakentaa ja ottaa käyttöön tapahtumapohjaisen, palvelimettoman, monimuotoisen asiakirjan jäsennysputkiston Amazon Textractin avulla. Tämä putki tarjoaa ylläpidettävän ratkaisun, koska jokainen komponentti (sisäänotto, tekstin purku, tekstinkäsittely) on riippumaton ja eristetty, minkä ansiosta organisaatiot voivat käyttää ratkaisujaan erilaisiin käsittelytarpeisiin.
Kokeile ratkaisua jo tänään ja jätä palautetta kommenttiosioon.
Tietoja Tekijät
Emily Soward on tietotutkija, jolla on AWS Professional Services. Hän on suorittanut erinomaisen tekoälyn maisterin tutkinnon Edinburghin yliopistosta Skotlannista, Yhdistyneestä kuningaskunnasta painottaen luonnollisen kielen käsittelyä (NLP). Emily on työskennellyt soveltavissa tieteellisissä ja insinööritehtävissä, jotka keskittyvät tekoälypohjaisten tuotteiden tutkimukseen ja kehittämiseen, toiminnalliseen huippuosaamiseen ja tekoälyn työkuormien hallintaan julkisella ja yksityisellä sektorilla. Hän osallistuu asiakkaiden ohjaamiseen AWS:n vanhempana puhujana ja äskettäin AWS Well-Architected in the Machine Learning Lensin kirjoittajana.
Sandeep Singh on tietotutkija, jolla on AWS Professional Services. Hän on koulutukseltaan tietojärjestelmien maisteri, joka keskittyy tekoäly- ja datatieteisiin San Diego State Universitystä (SDSU), Kalifornia. Hän on täyspinon tietotutkija, jolla on vahva tietojenkäsittelytieteen tausta ja luotettava neuvonantaja, joka on erikoistunut tekoälyjärjestelmiin ja ohjaussuunnitteluun. Hän on intohimoinen auttamaan asiakkaita saamaan vaikuttavia projekteja oikeaan suuntaan, neuvomaan ja opastamaan heitä heidän Cloud-matkallaan sekä rakentamaan huippuluokan AI/ML-yhteensopivia ratkaisuja.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-texttract/
- "
- 100
- Meistä
- Tili
- saavutettu
- poikki
- osoite
- kehittynyt
- AI
- Tekoälyn palvelut
- Kaikki
- Salliminen
- Amazon
- Analytics
- api
- API
- Hakemus
- sovellukset
- lähestymistapa
- arkkitehtuuri
- keinotekoinen
- tekoäly
- AWS
- tausta
- reunus
- rakentaa
- Rakentaminen
- liiketoiminta
- Kalifornia
- Aiheuttaa
- haasteet
- muuttaa
- maksut
- pilvi
- koodi
- kommentit
- Yhteinen
- komponentti
- Tietojenkäsittelyoppi
- keskittyminen
- Console
- pitoisuus
- ohjaus
- Asiakkaat
- tiedot
- tietojenkäsittely
- tietojen tutkija
- tietokanta
- osoittivat
- sijoittaa
- käyttöönotto
- Malli
- Kehitys
- eri
- Häiriö
- asiakirjat
- Tekniikka
- tapahtuma
- esimerkki
- palaute
- Fields
- taloudellinen
- rahoituspalvelut
- Etunimi
- Joustavuus
- virtaus
- keskityttiin
- jälkeen
- muoto
- muoto
- lomakkeet
- koko
- toiminnallisuus
- hallinto
- terveydenhuollon
- Korkea
- pitää
- Miten
- Miten
- HTTPS
- Vaikutus
- teollisuuden
- teollisuus
- tiedot
- integraatiot
- Älykkyys
- IT
- Job
- Valtakunta
- Kieli
- oppiminen
- jättää
- Pitkät
- kone
- koneoppiminen
- ylläpitää
- johto
- toimitusjohtaja
- käsin
- ML
- Luonnollinen
- suunnistus
- numero
- tarjoamalla
- Tarjoukset
- avata
- organisaatio
- organisatorinen
- organisaatioiden
- Muut
- harjoitusta.
- Ennusteet
- ensisijainen
- yksityinen
- Ongelma
- prosessi
- Tuotteet
- ammatillinen
- hankkeet
- tarjoaa
- julkinen
- tutkimus
- tutkimus ja kehitys
- Esittelymateriaalit
- vastaus
- tulokset
- ajaa
- juoksu
- San
- tiede
- Tiedemies
- sektori
- sektorit
- etsiä
- serverless
- palvelu
- Palvelut
- setti
- asetus
- Yksinkertainen
- So
- ratkaisu
- Ratkaisumme
- SOLVE
- jotain
- Kaiutin
- pino
- Alkaa
- Osavaltio
- huippu-
- Levytila
- verkkokaupasta
- vahva
- onnistunut
- Onnistuneesti
- järjestelmät
- Kohde
- vero
- testi
- Testaus
- Kautta
- tänään
- työkalu
- työkalut
- raita
- perinteinen
- Yhtenäinen
- Yhdistynyt kuningaskunta
- yliopisto
- Päivitykset
- käyttää
- arvo
- sisällä
- työskentely
- vuosi
- vuotta