Tänapäeva ärimaastikul otsivad organisatsioonid pidevalt võimalusi oma finantsprotsesside optimeerimiseks, tõhususe suurendamiseks ja kulude kokkuhoiu saavutamiseks. Üks valdkond, millel on märkimisväärne paranemispotentsiaal, on võlgnevused. Kõrgel tasemel hõlmab võlgnevuste protsess arvete vastuvõtmist ja skannimist, skannitud arvetelt asjakohaste andmete väljavõtmist, valideerimist, kinnitamist ja arhiveerimist. Teine etapp (ekstraheerimine) võib olla keeruline. Iga arve ja kviitung näevad välja erinevad. Sildid on ebatäiuslikud ja ebajärjekindlad. Kõige olulisem teave, nagu hind, hankija nimi, hankija aadress ja maksetingimused, ei ole sageli selgelt märgistatud ja neid tuleb tõlgendada konteksti alusel. Traditsiooniline lähenemine inimeste arvustajate kasutamisele andmete väljavõtmiseks on aeganõudev, veatundlik ja mitte skaleeritav.
Selles postituses näitame, kuidas automatiseerida võlgnevuste protsessi kasutades Amazoni tekst andmete väljavõtmiseks. Pakume ka võrdlusarhitektuuri arvete automatiseerimise konveieri loomiseks, mis võimaldab ekstraheerimist, kontrollimist, arhiveerimist ja intelligentset otsingut.
Lahenduse ülevaade
Järgmine arhitektuuriskeem näitab kviitungi ja arve töötlemise töövoo etappe. See algab dokumentide kogumise etapist, et skannitud arveid ja kviitungeid turvaliselt koguda ja salvestada. Järgmine etapp on kaevandamise faas, kus edastate kogutud arved ja kviitungid Amazon Textracti AnalyzeExpense
API, et eraldada teksti vahel rahaliselt seotud seosed, nagu hankija nimi, arve laekumise kuupäev, tellimuse kuupäev, tasumisele kuuluv summa, makstud summa jne. Järgmises etapis kasutate eelmääratletud kulureegleid, et määrata, kas peaksite kviitungi automaatselt kinnitama või tagasi lükkama. Heakskiidetud ja tagasilükatud dokumendid lähevad nende vastavatesse kaustadesse Amazoni lihtne salvestusteenus (Amazon S3) kopp. Kinnitatud dokumentide jaoks saate otsida kõiki ekstraktitud välju ja väärtusi kasutades Amazon OpenSearchi teenus. Saate visualiseerida indekseeritud metaandmeid OpenSearchi juhtpaneelide abil. Kinnitatud dokumendid on samuti seadistatud teisaldamiseks Amazon S3 intelligentne tasand pikaajaliseks säilitamiseks ja arhiveerimiseks, kasutades S3 elutsükli poliitikat.
Järgmised jaotised juhatavad teid läbi lahenduse loomise protsessi.
Eeldused
Selle lahenduse juurutamiseks peab teil olema järgmine:
- AWS-i konto.
- An AWSi pilv keskkond. AWS Cloud9 on pilvepõhine integreeritud arenduskeskkond (IDE), mis võimaldab teil koodi kirjutada, käitada ja siluda vaid brauseriga. See sisaldab koodiredaktorit, silurit ja terminali.
AWS Cloud9 keskkonna loomiseks sisestage nimi ja kirjeldus. Hoidke kõik muu vaikimisi. Valige IDE-sse navigeerimiseks AWS Cloud9 konsoolil link IDE. Nüüd olete valmis kasutama AWS Cloud9 keskkonda.
Rakendage lahendus
Lahenduse seadistamiseks kasutage AWS pilvearenduskomplekt (AWS CDK), et juurutada an AWS CloudFormation virn.
- Kloonige oma AWS Cloud9 IDE terminalis GitHubi hoidla ja installige sõltuvused. Käivitage järgmised käsud, et juurutada
InvoiceProcessor
virn:
Juurutamine võtab GitHubi repost vaikekonfiguratsiooniseadetega umbes 25 minutit. Täiendav väljundteave on saadaval ka AWS CloudFormationi konsoolil.
- Pärast AWS CDK juurutamise lõpetamist looge kulude valideerimise reeglid a Amazon DynamoDB laud. Sama AWS Cloud9 terminali saate kasutada järgmiste käskude käitamiseks:
- S3 ämbris, mis algab
invoiceprocessorworkflow-invoiceprocessorbucketf1-*
, looge üleslaadimiste kaust.
In Amazon Cognito, peaks teil juba olema olemasolev kasutajakogu nimega OpenSearchResourcesCognitoUserPool*
. Kasutame seda kasutajate kogumit uue kasutaja loomiseks.
- Navigeerige Amazon Cognito konsoolis kasutajate basseini
OpenSearchResourcesCognitoUserPool*
. - Looge uus Amazon Cognito kasutaja.
- Esitage enda valitud kasutajanimi ja parool ning märkige need üles hilisemaks kasutamiseks.
- Laadige dokumendid üles juhuslik_arve1 ja juhuslik_arve2 S3-le
uploads
kausta töövoogude käivitamiseks.
Nüüd sukeldume igasse dokumenditöötlusetappi.
Dokumendi jäädvustamine
Kliendid käsitlevad erinevate tarnijate arveid ja kviitungeid paljudes vormingutes. Need dokumendid võetakse vastu selliste kanalite kaudu nagu paberkoopiad, failimällu üles laaditud skannitud koopiad või jagatud salvestusseadmed. Dokumendi hõivamise etapis salvestate kõik kviitungite ja arvete skannitud koopiad hästi skaleeritavasse salvestusruumi, näiteks S3 ämbrisse.
Kaevandamine
Järgmine etapp on kaevandamise faas, kus edastate kogutud arved ja kviitungid Amazon Textracti AnalyzeExpense
API, et eraldada rahaliselt seotud seosed tekstide (nt hankija nimi, arve laekumise kuupäev, tellimuse kuupäev, tasumisele kuuluv/makstud summa jne) vahel.
Analüüsi kulu on arvete ja kviitungite dokumentide töötlemiseks mõeldud API. See on saadaval nii sünkroonse kui ka asünkroonse API-na. Sünkroonne API võimaldab saata pilte baitide formaadis ja asünkroonne API võimaldab saata faile JPG-, PNG-, TIFF- ja PDF-vormingus. The AnalyzeExpense
API vastus koosneb kolmest erinevast jaotisest:
- Kokkuvõtte väljad – See jaotis sisaldab nii normaliseeritud võtmeid kui ka selgesõnaliselt mainitud võtmeid koos nende väärtustega.
AnalyzeExpense
normaliseerib kontaktiga seotud teabe võtmed, nagu hankija nimi ja hankija aadress, maksu-ID-ga seotud võtmed, nagu maksumaksja ID, maksega seotud võtmed, nagu tasumisele kuuluv summa ja allahindlus, ning üldvõtmed, nagu arve ID, tarnekuupäev ja konto number. Võtmed, mida ei ole normaliseeritud, kuvatakse kokkuvõtteväljadel võtme-väärtuse paaridena. Toetatud kuluväljade täieliku loendi leiate aadressilt Arvete ja kviitungite analüüsimine. - Reaüksused – See jaotis sisaldab normaliseeritud reaüksuse võtmeid, nagu kauba kirjeldus, ühikuhind, kogus ja tootekood.
- OCR-i blokk – Plokk sisaldab toorteksti väljavõtet arve lehelt. Toorteksti väljavõtet saab kasutada sellise teabe järeltöötluseks ja tuvastamiseks, mida kokkuvõtte ja reaüksuse väljad ei hõlma.
See postitus kasutab Amazon Textract IDP CDK konstruktsioonid (AWS CDK komponendid intelligentse dokumenditöötluse (IDP) töövoogude infrastruktuuri määratlemiseks), mis võimaldab teil luua kasutusjuhtumipõhiseid kohandatavaid IDP töövooge. Konstruktsioonid ja näidised on komponentide kogum, mis võimaldab AWS-is IDP-protsesse määratleda ja avaldada GitHub. Peamised kasutatavad mõisted on AWS CDK konstruktsioonid, tegelikud AWS CDK virnadja AWS-i astmefunktsioonid.
Järgmine joonis näitab sammufunktsioonide töövoogu.
Ekstraheerimise töövoog sisaldab järgmisi samme.
- InvoiceProcessor-Decider - An AWS Lambda funktsioon, mis kontrollib, kas Amazon Textract toetab sisenddokumendi vormingut. Toetatud vormingute kohta lisateabe saamiseks vaadake Sisestage dokumendid.
- Dokumendijagaja – Lambda-funktsioon, mis genereerib dokumentidest 2,500-leheküljelisi (maksimaalselt) tükke ja suudab töödelda suuri mitmeleheküljelisi dokumente.
- Kaardiriik – Lambda funktsioon, mis töötleb iga tükki paralleelselt.
- TextractAsync - See ülesanne kutsub Amazon Textracti, kasutades järgmist asünkroonset API-d parimaid tavasid koos Amazoni lihtne teavitusteenus (Amazon SNS) teatised ja kasutusviisid
OutputConfig
Amazon Textract JSON-i väljundi salvestamiseks varem loodud S3 ämbrisse. See koosneb kahest Lambda funktsioonist: üks esitab dokumendi töötlemiseks ja teine, mis käivitatakse SNS-teatises. - TextractAsyncToJSON2 – Sest
TextractAsync
ülesanne võib toota mitu lehekülgedega väljundfailiTextractAsyncToJSON2
protsess ühendab need üheks JSON-failiks.
Järgmistes jaotistes käsitleme kolme järgmise etapi üksikasju.
Kontrollimine ja kinnitamine
Kontrollimisetapi jaoks SetMetaData
Lambda funktsioon kontrollib, kas üleslaaditud fail on varem DynamoDB tabelis konfigureeritud reeglite kohaselt kehtiv kulu. Selle postituse jaoks kasutate järgmisi näidisreegleid:
- Kinnitamine on edukas, kui
INVOICE_RECEIPT_ID
on olemas ja vastab regexile(?i)[0-9]{3}[a-z]{3}[0-9]{3}$
ja ifPO_NUMBER
on olemas ja vastab regexile(?i)[a-z0-9]+$
- Kinnitamine ei õnnestu, kui kumbki
PO_NUMBER
orINVOICE_RECEIPT_ID
on dokumendis vale või puudub.
Pärast failide töötlemist teisaldab kulude kontrollimise funktsioon sisendfailid kummassegi approved
or declined
kaustad samas S3 ämbris.
Selle lahenduse jaoks kasutame kulude kontrollimise reeglite salvestamiseks DynamoDB-d. Siiski saate seda lahendust muuta, et integreerida see teie enda või ärikulude valideerimis- või halduslahendustega.
Arukas register ja otsing
Koos OpenSearchPushInvoke
Lambda-funktsioon, ekstraheeritud kulu metaandmed lükatakse OpenSearch Service'i registrisse ja on otsimiseks saadaval.
lõplik TaskOpenSearchMapping
samm puhastab konteksti, mis muidu võiks ületada Sammufunktsioonide kvoot ülesande, oleku või töövoo käitamise maksimaalse sisendi või väljundi suurus.
Pärast OpenSearch Service'i indeksi loomist saate otsida väljavõetud tekstist märksõnu OpenSearchi juhtpaneelide kaudu.
Arhiveerimine, audit ja analüüs
Arvete ja kviitungite elutsükli ja arhiivi haldamiseks saate konfigureerida S3 olelustsükli reeglid, et viia S3 objektid standardsetest salvestusklassidest intelligentse tasemega salvestusklassidesse. S3 Intelligent-Tiering jälgib juurdepääsumustreid ja teisaldab objektid automaatselt harva juurdepääsu tasemele, kui neile pole juurde pääsetud 30 järjestikuse päeva jooksul. Pärast 90-päevast juurdepääsuta objektid teisaldatakse arhiivi kiirjuurdepääsu tasemele, ilma et see mõjutaks jõudlust või töökulusid.
Auditeerimiseks ja analüüsimiseks kasutab see lahendus OpenSearch Service'i, et käitada arvepäringute analüüsi. OpenSearch Service võimaldab teil hõlpsalt alla neelata, kaitsta, otsida, koondada, vaadata ja analüüsida andmeid mitme kasutusjuhtumi jaoks, nagu logianalüütika, rakenduste otsing, ettevõtte otsing ja palju muud.
Logige sisse OpenSearchi juhtpaneelidesse ja navigeerige saidile Virna haldamine, Salvestatud objektid, siis vali Import. Vali arved.ndjson fail kloonitud hoidlast ja valige Import. See täidab indeksid ja koostab visualiseeringu.
Värskendage lehte ja navigeerige lehele Avaleht, armatuurlaudja avage Arved. Nüüd saate varasemate arvete uurimiseks valida ja rakendada filtreid ning laiendada ajaakent.
Koristage
Kui olete kviitungite ja arvete töötlemiseks Amazon Textracti hindamise lõpetanud, soovitame puhastada kõik teie loodud ressursid. Tehke järgmised sammud.
- Kustutage kogu sisu S3 ämbrist
invoiceprocessorworkflow-invoiceprocessorbucketf1-*
. - Rakenduses AWS Cloud9 käivitage Amazon Cognito ressursside ja CloudFormationi virnade kustutamiseks järgmised käsud:
- Kustutage AWS Cloud9 keskkond, mille lõite AWS Cloud9 konsoolist.
Järeldus
Selles postituses andsime ülevaate sellest, kuidas saame koostada arvete automatiseerimise torustiku, kasutades andmete ekstraheerimiseks Amazon Textracti ning luua töövoo valideerimiseks, arhiveerimiseks ja otsimiseks. Esitasime koodinäidised, kuidas seda kasutada AnalyzeExpense
API arvelt kriitiliste väljade eraldamiseks.
Alustamiseks logige selle funktsiooni proovimiseks sisse Amazon Textracti konsooli. Amazon Textracti võimaluste kohta lisateabe saamiseks vaadake Amazon Textracti arendaja juhend or Tekstiressursid. IDP kohta lisateabe saamiseks vaadake IDP koos AWS AI teenustega Osa 1 ja Osa 2 postitusi.
Autoritest
Sushant Pradhan on Amazon Web Services'i lahenduste vanemarhitekt, kes aitab ärikliente. Tema huvide ja kogemuste hulka kuuluvad konteinerid, serverita tehnoloogia ja DevOps. Vabal ajal veedab Sushant perega õues aega.
Shibin Michaelraj on AWS Textracti meeskonna vanem tootejuht. Ta on keskendunud AI/ML-põhiste toodete loomisele AWS-i klientidele.
Suprakash Dutta on Amazon Web Services'i lahenduste arhitekt. Ta keskendub digitaalse ümberkujundamise strateegiale, rakenduste moderniseerimisele ja migratsioonile, andmeanalüütikale ja masinõppele. Ta on osa AWS-i AI/ML kogukonnast ja kavandab intelligentseid dokumenditöötluslahendusi.
Maran Chandrasekaran on Amazon Web Servicesi vanemlahenduste arhitekt, kes töötab meie äriklientidega. Väljaspool tööd armastab ta reisida ja Texas Hill Countryis oma mootorrattaga sõita.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/build-a-receipt-and-invoice-processing-pipeline-with-amazon-textract/
- :on
- :mitte
- : kus
- $ UP
- 1
- 100
- 25
- 30
- 7
- 8
- 9
- a
- MEIST
- juurdepääs
- pääses
- konto
- Kontod
- võlgnevused
- tegelik
- Täiendavad lisad
- aadress
- pärast
- agregaat
- AI
- AI teenused
- AI / ML
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- mööda
- juba
- Ka
- Amazon
- Amazon Cognito
- Amazoni tekst
- Amazon Web Services
- summa
- an
- analytics
- analüüsima
- ja
- mistahes
- API
- ilmuma
- taotlus
- kehtima
- lähenemine
- heakskiit
- heaks kiitma
- heaks
- arhitektuur
- Arhiiv
- OLEME
- PIIRKOND
- ümber
- AS
- At
- audit
- auditeerimine
- automatiseerima
- automaatselt
- Automaatika
- saadaval
- AWS
- AWSi pilv
- AWS CloudFormation
- põhineb
- BE
- sest
- olnud
- vahel
- Blokeerima
- Bootstrap
- mõlemad
- brauseri
- ehitama
- Ehitus
- Ehitab
- äri
- by
- kutsutud
- Kutsub
- CAN
- võimeid
- lüüa
- juhtudel
- kanalid
- kontrollima
- valik
- Vali
- klassid
- puhastamine
- Cloud
- Cloud9
- kood
- koguma
- kogumine
- ühendab
- kaubandus-
- kogukond
- täitma
- keeruline
- komponendid
- mõisted
- konfiguratsioon
- konfigureeritud
- järjestikune
- koosneb
- konsool
- pidevalt
- konstrueerib
- Konteinerid
- sisaldab
- sisu
- kontekst
- Maksma
- kulude kokkuhoid
- võiks
- riik
- kaetud
- looma
- loodud
- loomine
- kriitiline
- Kliendid
- kohandatav
- armatuurlaud
- armatuurlauad
- andmed
- Andmete analüüs
- kuupäev
- Päeva
- pühendunud
- vaikimisi
- määratlema
- määratlus
- tarne
- sõltuvused
- juurutada
- kasutuselevõtu
- kirjeldus
- disainilahendused
- hävitama
- detailid
- Määrama
- arendaja
- & Tarkvaraarendus
- seadmed
- skeem
- erinev
- digitaalne
- Digitaalne Transformation
- Allahindlus
- arutama
- eristatav
- sukelduma
- dokument
- dokumendid
- ajam
- kaks
- dutta
- iga
- Ajalugu
- miss
- toimetaja
- efektiivsus
- sundimatult
- kumbki
- teine
- võimaldama
- võimaldab
- suurendama
- ettevõte
- keskkond
- jms
- hindamine
- kõik
- ületama
- olemasolevate
- Laiendama
- kogemus
- selgesõnaliselt
- uurima
- väljavõte
- kaevandamine
- pere
- tunnusjoon
- väli
- Valdkonnad
- Joonis
- fail
- Faile
- Filtrid
- lõplik
- finants-
- rahaliselt
- keskendunud
- keskendub
- Järel
- eest
- formaat
- Alates
- funktsioon
- funktsioonid
- Üldine
- genereerib
- saama
- Git
- GitHub
- Go
- käepide
- Raske
- Olema
- he
- aidates
- Suur
- kõrgelt
- tema
- omab
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- inim-
- i
- ID
- identifitseerimiseks
- if
- pildid
- mõju
- import
- oluline
- paranemine
- in
- sisaldama
- hõlmab
- ebaõige
- indeks
- indekseeritud
- indeksid
- info
- Infrastruktuur
- sisend
- paigaldama
- kiire
- integreerima
- integreeritud
- Intelligentne
- Arukas dokumenditöötlus
- el
- sisse
- arve
- arvete töötlemine
- arved
- IT
- jpg
- Json
- lihtsalt
- hoidma
- võtmed
- märksõnad
- Labels
- maastik
- suur
- pärast
- Õppida
- õppimine
- Lets
- Tase
- eluring
- nagu
- joon
- LINK
- nimekiri
- logi
- pikaajaline
- Vaata
- armastab
- masin
- masinõpe
- põhiline
- juhtima
- juhtimine
- juht
- tikud
- max
- maksimaalne
- mainitud
- Metaandmed
- võib
- ränne
- protokoll
- puuduvad
- muutma
- monitorid
- rohkem
- kõige
- mootorratas
- kolis
- käike
- mitmekordne
- rohkus
- peab
- nimi
- Navigate
- Uus
- järgmine
- ei
- meeles
- teade
- teated
- nüüd
- number
- esemeid
- of
- sageli
- on
- ONE
- avatud
- töökorras
- optimeerima
- or
- et
- organisatsioonid
- muidu
- meie
- väljas
- väljund
- väljaspool
- üldkulud
- ülevaade
- enda
- lehekülg
- makstud
- paari
- Parallel
- osa
- sooritama
- Parool
- minevik
- mustrid
- maksma
- makse
- kohta
- jõudlus
- faas
- tükki
- torujuhe
- Platon
- Platoni andmete intelligentsus
- PlatoData
- PO
- Poliitika
- ujula
- post
- Postitusi
- potentsiaal
- ettemääratud
- esitada
- varem
- hind
- protsess
- Töödeldud
- Protsessid
- töötlemine
- tootma
- Toode
- tootejuht
- Toodet
- anda
- tingimusel
- avaldatud
- eesmärkidel
- lükatakse
- kogus
- Töötlemata
- valmis
- laekumised
- saadud
- vastuvõtmine
- soovitama
- viitama
- viide
- regulaaravaldis
- Tagasi lükatud..
- seotud
- Suhted
- asjakohane
- Hoidla
- Taotlusi
- Nõuded
- Vahendid
- need
- vastus
- säilitamine
- Sõitma
- eeskirjade
- jooks
- jooksmine
- sama
- proov
- Hoiused
- skaalautuvia
- skaneerimine
- Otsing
- Teine
- Osa
- lõigud
- kindlustama
- kindlalt
- otsib
- valima
- saatma
- vanem
- Serverita
- teenus
- Teenused
- komplekt
- seaded
- jagatud
- peaks
- näitama
- Näitused
- kirjutama
- märkimisväärne
- lihtne
- SUURUS
- So
- lahendus
- Lahendused
- Kulutused
- Kestab
- Hoidla
- Stage
- etappidel
- standard
- algus
- alustatud
- algab
- riik
- Samm
- Sammud
- Veel
- ladustamine
- salvestada
- Strateegia
- esitama
- edukas
- selline
- KOKKUVÕTE
- Toetatud
- tabel
- Võtma
- võtab
- Ülesanne
- maks
- meeskond
- Tehnoloogia
- terminal
- tingimused
- texas
- tekst
- et
- .
- Plokk
- oma
- Neile
- SIIS
- Need
- nad
- see
- kolm
- Läbi
- rida
- aeg
- aega võttev
- et
- tänane
- traditsiooniline
- Transformation
- Ümberkujundamise strateegia
- üleminek
- reisima
- vallandas
- püüdma
- kaks
- tüüp
- üksus
- laetud
- kasutama
- Kasutatud
- Kasutaja
- kasutusalad
- kasutamine
- kehtiv
- kinnitamine
- väärtus
- Väärtused
- müüja
- müüjad
- Kontrollimine
- kaudu
- vaade
- visualiseerimine
- visualiseeri
- kuidas
- we
- web
- veebiteenused
- millal
- kas
- mis
- aken
- koos
- jooksul
- ilma
- Töö
- töövoog
- Töövoogud
- töö
- kirjutama
- sa
- Sinu
- sephyrnet