Monia yrityksiä painaa suuri määrä asiakirjoja, jotka niiden on käsiteltävä, järjestettävä ja luokiteltava palvellakseen asiakkaitaan paremmin. Esimerkkejä tällaisista voivat olla lainahakemukset, veroilmoitus ja laskutus. Tällaisia asiakirjoja vastaanotetaan yleisemmin kuvamuodoissa, ja ne ovat useimmiten monisivuisia ja huonolaatuisia. Ollakseen kilpailukykyisempiä ja kustannustehokkaampia sekä pysyäkseen turvallisina ja vaatimustenmukaisina näiden yritysten on kehitettävä asiakirjankäsittelykykyään lyhentääkseen käsittelyaikoja ja parantaakseen luokituksen tarkkuutta automatisoidulla ja skaalautuvalla tavalla. Nämä yritykset kohtaavat seuraavat haasteet asiakirjojen käsittelyssä:
- Asiakirjojen valvonta sopimattoman, ei-toivotun tai loukkaavan sisällön havaitsemiseksi
- Manuaalinen dokumenttien luokittelu, jota pienemmät yritykset käyttävät, on aikaa vievää, virhealtista ja kallista
- OCR-tekniikat sääntöihin perustuvilla järjestelmillä eivät ole tarpeeksi älykkäitä eivätkä pysty mukautumaan asiakirjamuodon muutoksiin
- Koneoppimismenetelmiä (ML) käyttävillä yrityksillä ei useinkaan ole resursseja skaalata malliaan vastaamaan saapuvien asiakirjojen määrän piikkejä.
Tämä viesti käsittelee näitä haasteita ja tarjoaa arkkitehtuurin, joka ratkaisee nämä ongelmat tehokkaasti. Näytämme kuinka voit käyttää Amazonin tunnistus ja Amazonin teksti optimoida ja vähentää ihmisten työtä asiakirjojen käsittelyssä. Amazon Rekognition tunnistaa moderointitunnisteet asiakirjassasi ja luokittelee ne käyttämällä Amazon Rekognition mukautetut etiketit. Amazon Textract poimii tekstiä asiakirjoistasi.
Tässä viestissä käsittelemme kahden ML-putkilinjan rakentamista (koulutus ja päättely) asiakirjojen käsittelemiseksi ilman manuaalista työtä tai mukautettua koodia. Päättelyputken korkean tason vaiheet sisältävät:
- Suorita ladattujen asiakirjojen valvonta Amazon Rekognitionin avulla.
- Luokittele asiakirjat eri luokkiin, kuten W-2, laskut, tiliotteet ja maksutositteet käyttämällä Rekognition Custom Labels -tunnisteita.
- Poimi tekstiä asiakirjoista, kuten painetusta tekstistä, käsialasta, lomakkeista ja taulukoista Amazon Textractin avulla.
Ratkaisun yleiskatsaus
Tämä ratkaisu käyttää seuraavia AI-palveluita, palvelimettomia tekniikoita ja hallittuja palveluita skaalautuvan ja kustannustehokkaan arkkitehtuurin toteuttamiseksi:
- Amazon DynamoDB - Avainarvo- ja asiakirjatietokanta, joka tuottaa yksinumeroisen millisekunnin suorituskyvyn missä tahansa mittakaavassa.
- Amazon EventBridge – Palvelimeton tapahtumaväylä tapahtumapohjaisten sovellusten rakentamiseen mittakaavassa käyttämällä sovelluksistasi luotuja tapahtumia, integroituja ohjelmistopalveluita (SaaS) -sovelluksia ja AWS-palveluita.
- AWS Lambda – Palvelimeton laskentapalvelu, jonka avulla voit suorittaa koodia vastauksena laukaisimiin, kuten tietojen muutoksiin, järjestelmän tilan muutoksiin tai käyttäjän toimiin.
- Amazonin tunnistus – ML tunnistaa kuvissa ja videoissa olevat kohteet, ihmiset, tekstit, kohtaukset ja toiminnot sekä havaitsee sopimattoman sisällön.
- Amazon Rekognition mukautetut etiketit – Käyttää AutoML:ää tietokonenäön ja siirron oppimiseen auttaakseen sinua kouluttamaan mukautettuja malleja tunnistamaan kuvissa olevat kohteet ja kohtaukset, jotka vastaavat yrityksesi tarpeita.
- Amazonin yksinkertainen tallennuspalvelu (Amazon S3) – Toimii asiakirjojen objektivarastona ja mahdollistaa keskitetyn hallinnan hienosäädetyillä pääsyohjauksilla.
- Amazon-vaihetoiminnot – Palvelimeton toimintoorkesteri, jonka avulla on helppo järjestellä Lambda-toimintoja ja useita palveluita liiketoimintakriittisiksi sovelluksiksi.
- Amazonin teksti - Käyttää ML: ää tekstin ja tietojen purkamiseen skannatuista asiakirjoista PDF-, JPEG- tai PNG-muodossa.
Seuraava kaavio havainnollistaa päättelyliukuhihnan arkkitehtuuria.
Työnkulku sisältää seuraavat vaiheet:
- Käyttäjä lataa asiakirjat S3-syöttöämpäriin.
- Lataus laukaisee Amazon S3 -tapahtumailmoitus toimittaaksesi reaaliaikaisia tapahtumia suoraan EventBridgeen. Amazon S3 -tapahtumat, jotka vastaavat "
object created
” suodatin määritetty an EventBridge-sääntö käynnistää Step Functions -työnkulun. - Step Functions -työnkulku käynnistää sarjan Lambda-toimintoja, jotka suorittavat seuraavat tehtävät:
- Ensimmäinen toiminto suorittaa esikäsittelytehtävät ja tekee API-kutsuja Amazon Rekognitionille:
- Jos saapuvat asiakirjat ovat kuvamuodossa (kuten JPG tai PNG), toiminto kutsuu Amazon Rekognition API:ta ja toimittaa asiakirjat S3-objekteina. Jos asiakirja on kuitenkin PDF-muodossa, toiminto suoratoistaa kuvatavuja kutsuessaan Amazon Rekognition API:ta.
- Jos asiakirjassa on useita sivuja, toiminto jakaa asiakirjan yksittäisiksi sivuiksi ja tallentaa ne välikansioon tulosteen S3-ämpäriin ennen käsittelyä yksitellen.
- Kun esikäsittelytehtävät on suoritettu, toiminto soittaa API-kutsun Amazon Rekognitionille havaitakseen sopimattoman, ei-toivotun tai loukkaavan sisällön ja tekee uuden API-kutsun koulutetulle Rekognition Custom Labels -mallille asiakirjojen luokittelemiseksi.
- Toinen toiminto tekee API-kutsun Amazon Textractille käynnistääkseen työn tekstin poimimiseksi syöttöasiakirjasta ja tallentamisesta S3-tulostusalueeseen.
- Kolmas toiminto tallentaa asiakirjan metatiedot, kuten moderointitunnisteen, asiakirjan luokituksen, luokituksen luotettavuuden, Amazon Textract -työtunnuksen ja tiedostopolun DynamoDB-taulukkoon.
- Ensimmäinen toiminto suorittaa esikäsittelytehtävät ja tekee API-kutsuja Amazon Rekognitionille:
Voit säätää työnkulkua tarpeidesi mukaan, esimerkiksi voit lisätä luonnollisen kielen käsittelytoiminnon (NLP) tähän työnkulkuun käyttämällä Amazonin käsitys saada näkemyksiä poimitusta tekstistä.
Koulutusputki
Ennen kuin otamme käyttöön tämän arkkitehtuurin, koulutamme mukautetun mallin luokittelemaan asiakirjat eri luokkiin Rekognition Custom Labels -tunnisteiden avulla. Koulutusprosessissa merkitsemme asiakirjat käyttämällä Amazon SageMaker Ground Totuus. Käytämme sitten merkittyjä asiakirjoja mallin kouluttamiseen Rekognitionin mukautetuilla tarroilla. Tässä esimerkissä käytämme an Amazon Sage Maker muistikirja suorittaaksesi nämä vaiheet, mutta voit myös merkitä kuviin Rekognition Custom Labels -konsolin avulla. Katso ohjeet kohdasta Kuvien merkitseminen.
aineisto
Mallin kouluttamiseen käytämme seuraavia julkisia tietojoukkoja, jotka sisältävät W2:t ja laskut:
Voit käyttää toista toimialaasi liittyvää tietojoukkoa.
Seuraavassa taulukossa on yhteenveto tietojoukon jaoista harjoittelun ja testauksen välillä.
luokka | Harjoitussarja | Testisarja |
Laskut | 352 | 75 |
W-2s | 86 | 16 |
Yhteensä | 438 | 91 |
Ota koulutusputki käyttöön AWS CloudFormationin avulla
Asennat AWS-pilven muodostuminen malli tarvittavien tietojen toimittamiseksi AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) koulutusputken roolit ja komponentit, mukaan lukien SageMaker-muistikirjan esiintymä.
- Käynnistä seuraava CloudFormation-malli USA:n itäosassa (N. Virginia):
- varten Pino nimi, kirjoita nimi, kuten
document-processing-training-pipeline
. - Valita seuraava.
- In Kyvyt ja muutokset -osiossa, valitse valintaruutu vahvistaaksesi, että AWS CloudFormation saattaa luoda IAM-resurssit.
- Valita Luo pino.
Pinon tietosivulla pitäisi näkyä pinon tila muodossa CREATE_IN_PROGRESS
. Tila voi muuttua 5 minuutiksi CREATE_COMPLETE
. Kun se on valmis, voit tarkastella tuotoksia Lähdöt Tab.
- Kun pino on käynnistetty onnistuneesti, avaa SageMaker-konsoli ja valitse Notebook-esiintymät navigoinnin nimessä.
- Etsi esimerkkiä
DocProcessingNotebookInstance-
etuliite ja odota, kunnes sen tila on InService. - Alle Toiminnot, valitse Avaa Jupyter.
Suorita esimerkkimuistikirja
Suorita seuraavat toimet, jotta voit käyttää kannettavaa tietokonetta:
- Valitse
Rekognition_Custom_Labels
muistikirja esimerkkinä.
- Valita ajaa suorittaaksesi esimerkkimuistikirjan solut järjestyksessä.
Muistikirja esittelee koulutus- ja testikuvien valmistelun, niiden merkitsemisen, luettelotiedostojen luomisen, mallin koulutuksen ja opetetun mallin käyttämisen koko elinkaaren Rekognition Custom Labels -tunnisteiden avulla. Vaihtoehtoisesti voit kouluttaa ja käyttää mallia Rekognition Custom Labels -konsolin avulla. Katso ohjeet kohdasta Mallin kouluttaminen (konsoli).
Muistikirja on itsestään selvä; voit suorittaa mallin koulutuksen loppuun seuraamalla ohjeita.
- Tee muistiinpano
ProjectVersionArn
päättelyputken käyttöön ottamiseksi myöhemmässä vaiheessa.
SageMaker-muistikirjan ilmentymistä veloitetaan valitsemastasi ilmentymätyypistä käytön keston perusteella. Jos olet lopettanut mallin koulutuksen, voit pysäyttää kannettavan tietokoneen ilmentymän välttääksesi käyttämättömät resurssit.
Ota päättelyputki käyttöön AWS CloudFormationin avulla
Ota päättelyputki käyttöön suorittamalla seuraavat vaiheet:
- Käynnistä seuraava CloudFormation-malli USA:n itäosassa (N. Virginia):
- varten Pino nimi, kirjoita nimi, kuten
document-processing-inference-pipeline
. - varten DynamoDBTableName, anna yksilöllinen DynamoDB-taulukon nimi; esimerkiksi,
document-processing-table
. - varten InputBucketName, anna pinon luomalle S3-ämpärille yksilöllinen nimi; esimerkiksi,
document-processing-input-bucket
.
Syöteasiakirjat ladataan tähän ryhmään ennen niiden käsittelyä. Käytä vain pieniä kirjaimia äläkä välilyöntejä luodessasi syöttöalueen nimeä. Lisäksi tämä toiminto luo uuden S3-säilön, joten älä käytä olemassa olevan ryhmän nimeä. Katso lisätietoja Säiliön nimeämisen säännöt.
- varten OutputBucketName, kirjoita yksilöllinen nimi tulostusalueelle; esimerkiksi d
ocument-processing-output-bucket
.
Tämä lokero tallentaa tulostetut asiakirjat niiden käsittelyn jälkeen. Se tallentaa myös monisivuisten PDF-syöttöasiakirjojen sivut sen jälkeen, kun ne on jaettu Lambda-toiminnolla. Noudata samoja nimeämissääntöjä kuin syöttöalueesi.
- varten RekognitionCustomLabelModelARN, syötä
ProjectVersionArn
arvo, jonka huomasit Jupyter-muistikirjasta. - Valita seuraava.
- On Määritä pinoasetukset -sivulla, aseta pinolle kaikki muut parametrit, mukaan lukien tagit.
- Valita seuraava.
- In Kyvyt ja muutokset -osiossa valitse valintaruutu vahvistaaksesi, että AWS CloudFormation saattaa luoda IAM-resursseja.
- Valita Luo pino.
Pinon tietosivulla pitäisi näkyä pinon tila muodossa CREATE_IN_PROGRESS
. Tila voi muuttua 5 minuutiksi CREATE_COMPLETE
. Kun se on valmis, voit tarkastella tuotoksia Lähdöt Tab.
Käsittele asiakirja liukuhihnan läpi
Olemme ottaneet käyttöön sekä koulutus- että päätelmäputkia, ja olemme nyt valmiita käyttämään ratkaisua ja käsittelemään asiakirjaa.
- Avaa Amazon S3 -konsolissa syöttöalue.
- Lataa malliasiakirja S3-kansioon.
Tämä käynnistää työnkulun. Prosessi täyttää DynamoDB-taulukon asiakirjan luokittelu- ja valvontatunnisteilla. Amazon Textractin tuotos toimitetaan S3-lähtöön TextractOutput
kansio.
Lähetimme työnkulkuun muutamia erilaisia esimerkkiasiakirjoja ja saimme seuraavat tiedot DynamoDB-taulukkoon.
Jos et näe kohteita DynamoDB-taulukossa tai asiakirjoja, jotka on ladattu S3-tulostusalueeseen, tarkista Amazon CloudWatch -lokit vastaavalle Lambda-toiminnolle ja etsi mahdolliset virheet, jotka aiheuttivat vian.
Puhdistaa
Suorita seuraavat vaiheet puhdistaaksesi tähän ratkaisuun käytetyt resurssit:
- Valitse CloudFormation-konsolissa Stacks.
- Valitse tälle ratkaisulle käyttöönotetut pinot.
- Valita Poista.
Nämä vaiheet eivät poista S3-säilöt, DynamoDB-taulukkoa ja koulutettua Rekognition Custom Labels -mallia. Sinulta veloitetaan edelleen tallennusmaksuja, jos niitä ei poisteta. Sinun tulee poistaa nämä resurssit suoraan vastaavien palvelukonsolien kautta, jos et enää tarvitse niitä.
Yhteenveto
Tässä viestissä esittelimme skaalautuvan, suojatun ja automatisoidun lähestymistavan asiakirjojen moderointiin, luokitteluun ja käsittelyyn. Yritykset useilla toimialoilla voivat käyttää tätä ratkaisua parantaakseen liiketoimintaansa ja palvellakseen asiakkaitaan paremmin. Se mahdollistaa nopeamman asiakirjojen käsittelyn ja suuremman tarkkuuden sekä vähentää tietojen poimimisen monimutkaisuutta. Se parantaa myös turvallisuutta ja henkilötietolainsäädännön noudattamista vähentämällä saapuvien asiakirjojen käsittelyyn osallistuvaa työvoimaa.
Lisätietoja, katso Amazon Rekognition Custom Labels -opas, Amazon Rekognition -kehittäjäopas ja Amazon Textractin kehittäjäopas. Jos olet uusi Amazon Rekognition Custom Labelsin käyttäjä, kokeile sitä käyttämällä Free Tier -tasoamme, joka kestää 3 kuukautta ja sisältää 10 ilmaista koulutustuntia kuukaudessa ja 4 ilmaista päättelytuntia kuukaudessa. Ilmainen Amazon Rekognition -taso sisältää 5,000 12 kuvan käsittelyn kuukaudessa 1,000 kuukauden ajan. Amazon Textractin ilmainen taso kestää myös kolme kuukautta ja sisältää XNUMX XNUMX sivua kuukaudessa Detect Document Text API:lle.
Tietoja Tekijät
Jay Rao on AWS:n pääratkaisuarkkitehti. Hän nauttii teknisen ja strategisen ohjauksen antamisesta asiakkaille ja heidän auttamisesta suunnittelemaan ja toteuttamaan AWS-ratkaisuja.
Uchenna Egbe on AWS:n Associate Solutions -arkkitehti. Hän viettää vapaa-aikansa tutkien yrttejä, teelaatuja, superruokia ja sitä, kuinka hän voi sisällyttää ne päivittäiseen ruokavalioonsa.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/moderate-classify-and-process-documents-using-amazon-rekognition-and-amazon-text/
- "
- 000
- 10
- 100
- 116
- 12 kuukautta
- Meistä
- pääsy
- poikki
- toimet
- toiminta
- lisä-
- AI
- Tekoälyn palvelut
- Amazon
- Toinen
- api
- sovellukset
- lähestymistapa
- arkkitehtuuri
- Työtoveri
- Automatisoitu
- AWS
- Pankki
- ennen
- laskutus
- reunus
- Laatikko
- rakentaa
- Rakentaminen
- bussi
- liiketoiminta
- soittaa
- kyvyt
- aiheutti
- keskeinen
- haasteet
- muuttaa
- peritään
- maksut
- Valita
- luokittelu
- koodi
- Yritykset
- kilpailukykyinen
- noudattaminen
- mukautuva
- Laskea
- tietokone
- luottamus
- Console
- sisältää
- pitoisuus
- jatkaa
- vastaava
- kustannustehokas
- kattaa
- luoda
- luo
- Luominen
- asiakassuhde
- Asiakkaat
- tiedot
- tietokanta
- toimitettu
- Antaa
- sijoittaa
- käyttöön
- Malli
- yksityiskohdat
- Kehittäjä
- Ruokavalio
- eri
- suoraan
- asiakirjat
- tehokkaasti
- vaivaa
- ponnisteluja
- enter
- tapahtuma
- Tapahtumat
- kehittää
- esimerkki
- Esimerkit
- olemassa
- otteet
- Kasvot
- Epäonnistuminen
- nopeampi
- Etunimi
- seurata
- jälkeen
- muoto
- muoto
- lomakkeet
- Ilmainen
- toiminto
- tehtävät
- Lisäksi
- kahva
- auttaa
- auttaa
- korkeampi
- Miten
- Kuitenkin
- HTTPS
- ihmisen
- tunnistaa
- Identiteetti
- kuva
- toteuttaa
- parantaa
- sisältää
- sisältää
- Mukaan lukien
- henkilökohtainen
- teollisuuden
- teollisuus
- tiedot
- panos
- oivalluksia
- integroitu
- Älykäs
- osallistuva
- IT
- Job
- merkinnät
- tarrat
- Kieli
- käynnistettiin
- oppiminen
- lainsäädäntö
- kone
- koneoppiminen
- TEE
- onnistui
- johto
- manuaalinen
- ottelu
- ehkä
- ML
- malli
- mallit
- Kuukausi
- kk
- lisää
- moninkertainen
- Luonnollinen
- suunnistus
- välttämätön
- tarpeet
- muistikirja
- avata
- toiminta
- Optimoida
- tilata
- Maksaa
- Ihmiset
- suorituskyky
- henkilöstö
- henkilökohtaiset tiedot
- mahdollinen
- Pääasiallinen
- ongelmia
- prosessi
- käsittely
- toimittaa
- tarjoaa
- tarjoamalla
- julkinen
- reaaliaikainen
- sai
- vähentää
- vähentämällä
- merkityksellinen
- Esittelymateriaalit
- vastaus
- säännöt
- ajaa
- juoksu
- skaalautuva
- Asteikko
- kohtaukset
- turvallinen
- turvallisuus
- Sarjat
- serverless
- palvelu
- Palvelut
- setti
- Yksinkertainen
- So
- Tuotteemme
- ohjelmisto palveluna
- vankka
- ratkaisu
- Ratkaisumme
- Ratkaisee
- tilat
- jakaa
- splits
- pino
- alkaa
- Osavaltio
- lausuntoja
- Tila
- pysyä
- Levytila
- verkkokaupasta
- varastot
- Strateginen
- toimitettu
- Onnistuneesti
- järjestelmä
- järjestelmät
- tehtävät
- vero
- Tekninen
- tekniikat
- Technologies
- testi
- Testaus
- Kautta
- aika
- aikaavievä
- kertaa
- koulutus
- siirtää
- unique
- us
- käyttää
- arvo
- Vahvistus
- Videoita
- Näytä
- virginia
- visio
- tilavuus
- odottaa
- ilman
- työvoima