A mai üzleti környezetben a szervezetek folyamatosan keresik a lehetőségeket pénzügyi folyamataik optimalizálására, a hatékonyság növelésére és a költségmegtakarítások elérésére. Az egyik olyan terület, amely jelentős fejlesztési lehetőséget rejt magában, a szállítói tartozások. Magas szinten a szállítói kötelezettségek folyamata magában foglalja a számlák fogadását és szkennelését, a vonatkozó adatok szkennelt számlákból való kinyerését, érvényesítését, jóváhagyását és archiválását. A második lépés (kivonás) összetett lehet. Minden számla és nyugta másképp néz ki. A címkék tökéletlenek és következetlenek. A legfontosabb információk, mint például az ár, a szállító neve, a szállító címe és a fizetési feltételek gyakran nincsenek kifejezetten felcímkézve, és azokat a kontextus alapján kell értelmezni. A hagyományos megközelítés, miszerint emberi ellenőröket használnak az adatok kinyerésére, időigényes, hibás és nem méretezhető.
Ebben a bejegyzésben bemutatjuk, hogyan automatizálható a szállítói kötelezettségek folyamata Amazon szöveg adatkinyeréshez. Referenciaarchitektúrát is biztosítunk egy számlaautomatizálási folyamat létrehozásához, amely lehetővé teszi a kivonást, ellenőrzést, archiválást és intelligens keresést.
Megoldás áttekintése
A következő architektúra diagram a nyugta- és számlafeldolgozás munkafolyamatának szakaszait mutatja be. Egy dokumentumrögzítési szakaszsal kezdődik a beszkennelt számlák és nyugták biztonságos összegyűjtése és tárolása. A következő szakasz a kivonatolási fázis, ahol az összegyűjtött számlákat és nyugtákat továbbítja az Amazon Textractnak AnalyzeExpense
API a szövegek közötti pénzügyi vonatkozású kapcsolatok kinyerésére, például a szállító neve, a számla beérkezésének dátuma, a rendelés dátuma, az esedékes összeg, a kifizetett összeg stb. A következő szakaszban előre meghatározott költségszabályok segítségével határozza meg, hogy automatikusan jóvá kell-e hagynia vagy el kell utasítania a nyugtát. A jóváhagyott és elutasított dokumentumok a megfelelő mappákba kerülnek a következőn belül Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör. A jóváhagyott dokumentumokhoz az összes kivont mezőben és értékben kereshet a használatával Amazon OpenSearch szolgáltatás. Az indexelt metaadatokat az OpenSearch irányítópultjaival jelenítheti meg. A jóváhagyott dokumentumok áthelyezésre is be vannak állítva Amazon S3 Intelligens rétegezés hosszú távú megőrzéshez és archiváláshoz az S3 életciklus-irányelvek használatával.
A következő szakaszok végigvezetik a megoldás létrehozásának folyamatán.
Előfeltételek
A megoldás üzembe helyezéséhez a következőkre van szükség:
- AWS-fiók.
- An AWS Cloud9 környezet. Az AWS Cloud9 egy felhőalapú integrált fejlesztői környezet (IDE), amely lehetővé teszi a kód megírását, futtatását és hibakeresését egyetlen böngészővel. Tartalmaz egy kódszerkesztőt, hibakeresőt és terminált.
Az AWS Cloud9 környezet létrehozásához adjon meg egy nevet és leírást. Minden más maradjon alapértelmezettként. Válassza az IDE hivatkozást az AWS Cloud9 konzolon az IDE navigációhoz. Most már készen áll az AWS Cloud9 környezet használatára.
Telepítse a megoldást
A megoldás beállításához használja a AWS Cloud Development Kit (AWS CDK) egy AWS felhőképződés Kazal.
- Az AWS Cloud9 IDE termináljában klónozza a GitHub tárház és telepítse a függőségeket. Futtassa a következő parancsokat a telepítéshez
InvoiceProcessor
Kazal:
A központi telepítés körülbelül 25 percet vesz igénybe a GitHub-tárhely alapértelmezett konfigurációs beállításaival. További kimeneti információk is elérhetők az AWS CloudFormation konzolon.
- Az AWS CDK üzembe helyezése után hozzon létre költségellenőrzési szabályokat egy Amazon DynamoDB asztal. Ugyanazt az AWS Cloud9 terminált használhatja a következő parancsok futtatásához:
- Azzal kezdődő S3 vödörben
invoiceprocessorworkflow-invoiceprocessorbucketf1-*
, hozzon létre egy feltöltési mappát.
In Amazon Cognito, akkor már rendelkeznie kell egy létező nevű felhasználókészlettel OpenSearchResourcesCognitoUserPool*
. Ezt a felhasználói csoportot használjuk új felhasználó létrehozására.
- Az Amazon Cognito konzolon navigáljon a felhasználói készlethez
OpenSearchResourcesCognitoUserPool*
. - Hozzon létre egy új Amazon Cognito felhasználót.
- Adjon meg egy választott felhasználónevet és jelszót, és jegyezze fel későbbi használatra.
- Töltse fel a dokumentumokat random_számla1 és a random_számla2 az S3-ra
uploads
mappát a munkafolyamatok elindításához.
Most nézzük meg a dokumentumfeldolgozás egyes lépéseit.
Dokumentum rögzítése
Az ügyfelek a különböző szállítóktól származó számlákat és nyugtákat sokféle formátumban kezelik. Ezeket a dokumentumokat olyan csatornákon keresztül fogadják, mint a nyomtatott másolatok, a fájltárolóba feltöltött szkennelt másolatok vagy a megosztott tárolóeszközök. A dokumentumrögzítési szakaszban a nyugták és számlák összes beszkennelt másolatát egy jól méretezhető tárolóban tárolja, például egy S3 tárolóban.
Kivonat
A következő szakasz a kivonatolási fázis, ahol az összegyűjtött számlákat és nyugtákat továbbítja az Amazon Textractnak AnalyzeExpense
API a pénzügyi vonatkozású kapcsolatok kinyerésére a szövegek között, például a szállító neve, a számla beérkezésének dátuma, a rendelés dátuma, az esedékes/fizetett összeg stb.
AnalyzeExpense egy olyan API, amely a számlák és nyugták feldolgozására szolgál. Szinkron vagy aszinkron API-ként is elérhető. A szinkron API lehetővé teszi a képek bájt formátumú küldését, az aszinkron API pedig JPG, PNG, TIFF és PDF formátumú fájlok küldését. A AnalyzeExpense
Az API válasz három különálló részből áll:
- Összefoglaló mezők – Ez a szakasz tartalmazza a normalizált kulcsokat és az explicit módon említett kulcsokat és azok értékeit.
AnalyzeExpense
normalizálja a kapcsolattartással kapcsolatos információk kulcsait, például a szállító nevét és címét, az adóazonosítóval kapcsolatos kulcsokat, például az adófizető azonosítóját, a fizetéssel kapcsolatos kulcsokat, például az esedékes összeget és a kedvezményt, valamint az általános kulcsokat, például a számlaazonosítót, a szállítási dátumot és számlaszám. A nem normalizált kulcsok továbbra is kulcs-érték párként jelennek meg az összefoglaló mezőkben. A támogatott költségmezők teljes listáját lásd: Számlák és nyugták elemzése. - Sorok – Ez a szakasz normalizált sorkulcsokat tartalmaz, például cikkleírást, egységárat, mennyiséget és termékkódot.
- OCR blokk – A blokk a számlaoldal nyers szöveges kivonatát tartalmazza. A nyers szöveg kivonat felhasználható olyan információk utófeldolgozására és azonosítására, amelyek nem szerepelnek az összefoglaló és a sor mezőkben.
Ez a bejegyzés a Amazon Textract IDP CDK konstrukciók (AWS CDK komponensek az intelligens dokumentumfeldolgozási (IDP) munkafolyamatok infrastruktúrájának meghatározásához), amely lehetővé teszi az esetspecifikus, testreszabható IDP munkafolyamatok létrehozását. A konstrukciók és a minták olyan összetevők gyűjteményét képezik, amelyek lehetővé teszik az IDP-folyamatok meghatározását az AWS-ben, és közzé teszik GitHub. A főbb használt fogalmak az AWS CDK konstrukciók, a tényleges AWS CDK veremés AWS lépésfunkciók.
A következő ábra a Step Functions munkafolyamatot mutatja be.
A kivonási munkafolyamat a következő lépéseket tartalmazza:
- InvoiceProcessor-Decider - Egy AWS Lambda funkció, amely ellenőrzi, hogy a bemeneti dokumentum formátumát támogatja-e az Amazon Textract. A támogatott formátumokkal kapcsolatos további részletekért lásd: Beviteli dokumentumok.
- DocumentSplitter – Lambda funkció, amely 2,500 oldalas (maximum) darabokat hoz létre a dokumentumokból, és képes feldolgozni a nagy, többoldalas dokumentumokat.
- Térkép állapota – Lambda funkció, amely minden egyes darabot párhuzamosan dolgoz fel.
- TextractAsync – Ez a feladat az Amazon Textractot hívja meg a következő aszinkron API használatával legjobb gyakorlatok val vel Amazon Simple Notification Service (Amazon SNS) értesítései és felhasználásai
OutputConfig
hogy az Amazon Textract JSON kimenetét a korábban létrehozott S3 tárolóba tárolja. Két Lambda-funkcióból áll: az egyik a dokumentum feldolgozásra való benyújtása, a másik pedig az SNS-értesítésen aktiválódik. - TextractAsyncToJSON2 - Mert a
TextractAsync
feladat több oldalszámozott kimeneti fájlt állíthat elő, aTextractAsyncToJSON2
folyamat egyetlen JSON-fájlba egyesíti őket.
A következő három lépés részleteit a következő szakaszokban tárgyaljuk.
Ellenőrzés és jóváhagyás
Az ellenőrzési szakaszhoz a SetMetaData
A Lambda funkció ellenőrzi, hogy a feltöltött fájl érvényes költség-e a DynamoDB táblában korábban konfigurált szabályok szerint. Ehhez a bejegyzéshez a következő mintaszabályokat használja:
- Az ellenőrzés sikeres, ha
INVOICE_RECEIPT_ID
jelen van, és megfelel a reguláris kifejezésnek(?i)[0-9]{3}[a-z]{3}[0-9]{3}$
és a ifPO_NUMBER
jelen van, és megfelel a reguláris kifejezésnek(?i)[a-z0-9]+$
- Az ellenőrzés sikertelen, ha bármelyik
PO_NUMBER
orINVOICE_RECEIPT_ID
hibás vagy hiányzik a dokumentumból.
A fájlok feldolgozása után a költségellenőrző funkció áthelyezi a bemeneti fájlokat bármelyikbe approved
or declined
mappákat ugyanabban az S3 tárolóban.
A megoldás céljaira a DynamoDB-t használjuk a költségellenőrzési szabályok tárolására. Ezt a megoldást azonban módosíthatja, hogy integrálja saját vagy kereskedelmi költségellenőrzési vagy felügyeleti megoldásaival.
Intelligens index és keresés
Aktivitáskövető OpenSearchPushInvoke
Lambda függvény, a kivont költség metaadatok egy OpenSearch Service indexbe kerülnek, és elérhetők a kereséshez.
A végső TaskOpenSearchMapping
lépés megtisztítja a kontextust, amely egyébként meghaladná a Lépésfunkciók kvóta a maximális bemeneti vagy kimeneti méret egy feladat, állapot vagy munkafolyamat futtatásához.
Az OpenSearch Service index létrehozása után az OpenSearch irányítópultjain keresztül kereshet kulcsszavakat a kivont szövegből.
Archiválás, audit és elemzés
A számlák és nyugták életciklusának és archiválásának kezeléséhez konfigurálhatja az S3 életciklus-szabályokat, hogy az S3 objektumokat standardról intelligens rétegződésű tárolási osztályokra helyezze át. Az S3 Intelligent-Tiering figyeli a hozzáférési mintákat, és automatikusan áthelyezi az objektumokat a ritka hozzáférési szintre, ha 30 egymást követő napon keresztül nem fértek hozzájuk. 90 napos hozzáférés hiánya után az objektumok az azonnali hozzáférés archiválási szintjére kerülnek áthelyezésre a teljesítmény vagy a működési többletköltségek nélkül.
Az auditáláshoz és elemzéshez ez a megoldás az OpenSearch szolgáltatást használja a számlakérések elemzéséhez. Az OpenSearch szolgáltatás lehetővé teszi az adatok könnyed feldolgozását, biztonságossá tételét, keresését, összesítését, megtekintését és elemzését számos felhasználási esetre, például naplóelemzésre, alkalmazáskeresésre, vállalati keresésre stb.
Jelentkezzen be az OpenSearch irányítópultjaiba, és navigáljon ide Stack Management, Mentett objektumok, majd válassza ki import. Válaszd a számlák.ndjson fájlt a klónozott tárolóból, és válassza ki import. Ez előre feltölti az indexeket és felépíti a vizualizációt.
Frissítse az oldalt, és navigáljon ide Kezdőlap, Műszerfal, és nyissa meg Számlák. Mostantól kiválaszthat és alkalmazhat szűrőket, és kiterjesztheti az időablakot a múltbeli számlák felfedezéséhez.
Tisztítsuk meg
Ha befejezte az Amazon Textract értékelését a nyugták és számlák feldolgozásához, javasoljuk, hogy tisztítsa meg az esetlegesen létrehozott erőforrásokat. Hajtsa végre a következő lépéseket:
- Törölje az összes tartalmat az S3 vödörből
invoiceprocessorworkflow-invoiceprocessorbucketf1-*
. - Az AWS Cloud9 szolgáltatásban futtassa a következő parancsokat az Amazon Cognito erőforrások és a CloudFormation veremek törléséhez:
- Törölje az AWS Cloud9 konzolról létrehozott AWS Cloud9 környezetet.
Következtetés
Ebben a bejegyzésben áttekintést adunk arról, hogyan építhetünk fel számlaautomatizálási folyamatot az Amazon Textract használatával adatkinyeréshez, és hogyan hozhatunk létre munkafolyamatot az érvényesítéshez, archiváláshoz és kereséshez. Kódmintákat adtunk a használatához AnalyzeExpense
API a kritikus mezők számlából való kinyeréséhez.
A kezdéshez jelentkezzen be az Amazon Textract konzolba a funkció kipróbálásához. Ha többet szeretne megtudni az Amazon Textract képességeiről, tekintse meg a Amazon Textract fejlesztői útmutató or Szövegforrások. Ha többet szeretne megtudni az IDP-ről, tekintse meg az IDP with AWS AI-szolgáltatásokat rész 1 és a rész 2 hozzászólások.
A szerzőkről
Sushant Pradhan az Amazon Web Services Sr. Solutions Architect-je, aki a vállalati ügyfeleket segíti. Érdeklődési körei és tapasztalatai közé tartoznak a konténerek, a szerver nélküli technológia és a DevOps. Szabadidejében Sushant szívesen tölt időt a szabadban a családjával.
Shibin Michaelraj az AWS Textract csapatának idősebb termékmenedzsere. Arra összpontosít, hogy mesterséges intelligencia/ML-alapú termékeket készítsen az AWS-ügyfelek számára.
Suprakash Dutta Sr. Solutions Architect az Amazon Web Servicesnél. A digitális átalakítási stratégiára, az alkalmazások modernizálására és migrációjára, az adatelemzésre és a gépi tanulásra összpontosít. Az AWS AI/ML közösségének tagja, és intelligens dokumentumfeldolgozási megoldásokat tervez.
Maran Chandrasekaran az Amazon Web Services vezető megoldástervezője, aki vállalati ügyfeleinkkel dolgozik együtt. Munkán kívül szeret utazni és motorozni Texas Hill Countryban.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/build-a-receipt-and-invoice-processing-pipeline-with-amazon-textract/
- :is
- :nem
- :ahol
- $ UP
- 1
- 100
- 25
- 30
- 7
- 8
- 9
- a
- Rólunk
- hozzáférés
- igénybe vett
- Fiók
- Fiókok
- fizetendő számlák
- tényleges
- További
- cím
- Után
- adalékanyag
- AI
- AI szolgáltatások
- AI / ML
- Minden termék
- lehetővé teszi, hogy
- mentén
- már
- Is
- amazon
- Amazon Cognito
- Amazon szöveg
- Az Amazon Web Services
- összeg
- an
- analitika
- elemez
- és a
- bármilyen
- api
- megjelenik
- Alkalmazás
- alkalmaz
- megközelítés
- jóváhagyás
- jóváhagy
- jóváhagyott
- építészet
- Archív
- VANNAK
- TERÜLET
- körül
- AS
- At
- könyvvizsgálat
- könyvvizsgálat
- automatizált
- automatikusan
- Automatizálás
- elérhető
- AWS
- AWS Cloud9
- AWS felhőképződés
- alapján
- BE
- mert
- óta
- között
- Blokk
- Bootstrap
- mindkét
- böngésző
- épít
- Épület
- épít
- üzleti
- by
- hívott
- kéri
- TUD
- képességek
- elfog
- esetek
- csatornák
- ellenőrizze
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- osztályok
- Takarításra
- felhő
- Cloud9
- kód
- gyűjt
- gyűjtemény
- kombájnok
- kereskedelmi
- közösség
- teljes
- bonyolult
- alkatrészek
- fogalmak
- Configuration
- konfigurálva
- folyamatos
- áll
- Konzol
- állandóan
- konstrukciókat
- Konténerek
- tartalmaz
- tartalom
- kontextus
- Költség
- költségmegtakarítás
- tudott
- ország
- fedett
- teremt
- készítette
- létrehozása
- kritikai
- Ügyfelek
- szabható
- műszerfal
- műszerfalak
- dátum
- Adatelemzés
- találka
- Nap
- elszánt
- alapértelmezett
- meghatározott
- definíció
- kézbesítés
- függőségek
- telepíteni
- bevetés
- leírás
- tervek
- elpusztítani
- részletek
- Határozzuk meg
- Fejlesztő
- Fejlesztés
- Eszközök
- diagram
- különböző
- digitális
- digitális átalakítás
- Kedvezmény
- megvitatni
- különböző
- merülés
- dokumentum
- dokumentumok
- hajtás
- két
- dutta
- minden
- Korábban
- visszhang
- szerkesztő
- hatékonyság
- erőfeszítés nélkül
- bármelyik
- más
- lehetővé
- lehetővé teszi
- növelése
- Vállalkozás
- Környezet
- stb.
- értékelő
- minden
- haladja meg
- létező
- Bontsa
- tapasztalat
- kifejezetten
- feltárása
- kivonat
- kitermelés
- család
- Funkció
- mező
- Fields
- Ábra
- filé
- Fájlok
- Szűrők
- utolsó
- pénzügyi
- pénzügyileg
- összpontosított
- koncentrál
- következő
- A
- formátum
- ból ből
- funkció
- funkciók
- általános
- generál
- kap
- megy
- GitHub
- Go
- fogantyú
- Kemény
- Legyen
- he
- segít
- Magas
- nagyon
- övé
- tart
- Hogyan
- How To
- azonban
- HTML
- http
- HTTPS
- emberi
- i
- ID
- azonosító
- if
- képek
- Hatás
- importál
- fontos
- javulás
- in
- tartalmaz
- magában foglalja a
- hibás
- index
- indexelt
- indexek
- információ
- Infrastruktúra
- bemenet
- telepíteni
- azonnali
- integrálni
- integrált
- Intelligens
- Intelligens dokumentumfeldolgozás
- érdekek
- bele
- számla
- számlafeldolgozás
- számlák
- IT
- jpg
- json
- éppen
- Tart
- kulcsok
- kulcsszavak
- Címkék
- táj
- nagy
- a későbbiekben
- TANUL
- tanulás
- Lets
- szint
- életciklus
- mint
- vonal
- LINK
- Lista
- log
- hosszú lejáratú
- néz
- szeret
- gép
- gépi tanulás
- Fő
- kezelése
- vezetés
- menedzser
- gyufa
- max
- maximális
- említett
- Metaadatok
- esetleg
- elvándorlás
- Perc
- hiányzó
- módosítása
- monitorok
- több
- a legtöbb
- motorkerékpár
- áthelyezve
- mozog
- többszörös
- sokaság
- kell
- név
- Keresse
- Új
- következő
- nem
- megjegyezni
- bejelentés
- értesítések
- Most
- szám
- objektumok
- of
- gyakran
- on
- ONE
- nyitva
- operatív
- Optimalizálja
- or
- érdekében
- szervezetek
- másképp
- mi
- szabadban
- teljesítmény
- kívül
- felső
- áttekintés
- saját
- oldal
- fizetett
- párok
- Párhuzamos
- rész
- elhalad
- Jelszó
- múlt
- minták
- fizet
- fizetés
- mert
- teljesítmény
- fázis
- darabok
- csővezeték
- Plató
- Platón adatintelligencia
- PlatoData
- PO
- Politikák
- medence
- állás
- Hozzászólások
- potenciális
- előre meghatározott
- be
- korábban
- ár
- folyamat
- Feldolgozott
- Folyamatok
- feldolgozás
- gyárt
- Termékek
- termék menedzser
- Termékek
- ad
- feltéve,
- közzétett
- célokra
- meglökött
- mennyiség
- Nyers
- kész
- bevételek
- kapott
- fogadó
- ajánl
- utal
- referencia
- regex
- Elutasítva..
- összefüggő
- Kapcsolatok
- raktár
- kéri
- követelmények
- Tudástár
- azok
- válasz
- visszatartás
- Lovagol
- szabályok
- futás
- futás
- azonos
- minta
- Megtakarítás
- skálázható
- letapogatás
- Keresés
- Második
- Rész
- szakaszok
- biztonság
- biztosan
- keres
- válasszuk
- küld
- idősebb
- vagy szerver
- szolgáltatás
- Szolgáltatások
- készlet
- beállítások
- megosztott
- kellene
- előadás
- Műsorok
- <p></p>
- jelentős
- Egyszerű
- Méret
- So
- megoldások
- Megoldások
- Költési
- verem
- Stacks
- Színpad
- állapota
- standard
- kezdet
- kezdődött
- kezdődik
- Állami
- Lépés
- Lépései
- Még mindig
- tárolás
- tárolni
- Stratégia
- beküldése
- sikeres
- ilyen
- ÖSSZEFOGLALÓ
- Támogatott
- táblázat
- Vesz
- tart
- Feladat
- adó
- csapat
- Technológia
- terminál
- feltételek
- Texas
- szöveg
- hogy
- A
- A háztömb
- azok
- Őket
- akkor
- Ezek
- ők
- ezt
- három
- Keresztül
- tier
- idő
- időigényes
- nak nek
- mai
- hagyományos
- Átalakítás
- Átalakítási stratégia
- átmenet
- utazás
- váltott
- megpróbál
- kettő
- típus
- egység
- feltöltve
- használ
- használt
- használó
- használ
- segítségével
- érvényes
- érvényesítés
- érték
- Értékek
- eladó
- gyártók
- Igazolás
- keresztül
- Megnézem
- megjelenítés
- Képzeld
- módon
- we
- háló
- webes szolgáltatások
- amikor
- vajon
- ami
- ablak
- val vel
- belül
- nélkül
- Munka
- munkafolyamat
- munkafolyamatok
- dolgozó
- ír
- te
- A te
- zephyrnet