Amazon szöveg egy gépi tanulási (ML) szolgáltatás, amely automatikusan kivonja a szöveget, a kézírást és az adatokat a beolvasott dokumentumokból. Lekérdezések Ez egy olyan szolgáltatás, amely lehetővé teszi, hogy természetes nyelven kinyerjen bizonyos információkat változó, összetett dokumentumokból. Egyéni lekérdezések lehetőséget biztosít a Lekérdezések funkció testreszabására a vállalkozásspecifikus, nem szabványos dokumentumokhoz, például autókölcsönzési szerződésekhez, csekkek és fizetési kimutatásokhoz, önkiszolgáló módon. A funkció testreszabásával, hogy felismerje az ezen dokumentumtípusokra jellemző egyedi kifejezéseket, struktúrákat és kulcsfontosságú információkat, nagyobb pontossággal és minimális emberi beavatkozással kielégítheti a későbbi feldolgozási igényeit. Az egyéni lekérdezések könnyen integrálhatók meglévő Textract folyamatába, és továbbra is élvezheti az Amazon Textract teljesen felügyelt intelligens dokumentumfeldolgozási funkcióit anélkül, hogy ML-szakértelembe vagy infrastruktúra-kezelésbe kellene fektetnie.
Ebben a bejegyzésben bemutatjuk, hogy az egyéni lekérdezések hogyan tudnak pontosan adatokat kinyerni az összetett, nem szabványos dokumentumok ellenőrzéseiből. Ezenkívül megvitatjuk az egyéni lekérdezések előnyeit, és megosztjuk a bevált gyakorlatokat a funkció hatékony használatához.
Megoldás áttekintése
Amikor új használati esetet kezd, kiértékelheti, hogy a Textract Queries hogyan teljesít a dokumentumokon, ha a következőhöz navigál Textract konzol és a Dokumentumelemzés bemutatója vagy a Tömeges dokumentumfeltöltő használata. Hivatkozni Bevált módszerek a lekérdezésekhez az Ön használati esetére vonatkozó lekérdezések vázlatához. Ha az üzleti dokumentumok természetéből adódóan hibákat észlel a lekérdezési válaszokban, az egyéni lekérdezések segítségével javíthatja a pontosságot. Órákon belül a mintadokumentumait megjegyzésekkel elláthatja a AWS felügyeleti konzol és képezzen egy adapter. Az adapterek olyan összetevők, amelyek az Amazon Textract előre betanított mély tanulási modelljéhez csatlakoznak, és testreszabják annak kimenetét a megjegyzésekkel ellátott dokumentumok alapján. Használhatja az adaptert következtetésre, ha az adapter azonosítóját további paraméterként adja át a Dokumentumlekérdezések elemzése API-kérés.
Vizsgáljuk meg, hogyan Egyéni lekérdezések javíthatja a kinyerési pontosságot egy olyan kihívást jelentő valós forgatókönyv esetén, mint például az ellenőrzésekből származó adatok kinyerése. A csekkek feldolgozása során az elsődleges kihívás a típustól (pl. személyi vagy pénztári csekk), a pénzintézettől és az országtól (pl. MICR-sorformátum) függő nagyfokú eltérésekből adódik. . Ezek a változatok magukban foglalhatják a kedvezményezett nevének elhelyezését, az összeget számokban és szavakban, a dátumot és az aláírást. Ezen eltérések felismerése és alkalmazkodása összetett feladat lehet az adatkinyerés során. Az adatkinyerés javítása érdekében a szervezetek gyakran manuális ellenőrzési és érvényesítési eljárásokat alkalmaznak, ami növeli a kinyerési folyamat költségeit és idejét.
Az Egyéni lekérdezések megoldást kínál ezekre a kihívásokra azáltal, hogy lehetővé teszi az előre betanított lekérdezések szolgáltatásainak testreszabását az ellenőrzések különböző változataihoz. Az előre betanított funkció testreszabása segít nagyfokú adatkinyerési pontosság elérésében a feldolgozott elrendezések különféle változataiban.
A mi felhasználási esetünkben a pénzintézet a következő mezőket szeretné kivonni egy csekkből: kedvezményezett neve, fizető neve, számlaszám, útválasztási szám, kifizetés összege (számokban), kifizetés összege (szavakkal), csekk száma, dátuma, ill. Memo.
Vizsgáljuk meg az adapter (a kimenetet testreszabó komponens) létrehozásának folyamatát az ellenőrzések feldolgozásához. Az adapterek létrehozhatók a konzolon keresztül vagy programozottan az API-n keresztül. Ez a bejegyzés részletezi a konzol tapasztalatait; Ha azonban programozottan szeretné létrehozni az adaptert, tekintse meg a kódmintákat a következőben: custom-queries-checks-blog.ipynb Jupyter notebook (2. lehetőség).
Az illesztőgenerálási folyamat öt magas szintű lépésből áll: hozzon létre egy adaptert, töltsön fel mintadokumentumokat, jegyezze fel a dokumentumokat, betanítsa az illesztőt, és értékelje a teljesítménymutatókat.
Hozzon létre egy adaptert
Az Amazon Textract konzolon hozzon létre egy új adaptert egy név, leírás és opcionális címkék megadásával, amelyek segíthetnek az adapter azonosításában. Lehetősége van az automatikus frissítések engedélyezésére, amely lehetővé teszi az Amazon Textract számára, hogy frissítse az adaptert, amikor az alapul szolgáló lekérdezések funkció új képességekkel frissül.
Az adapter létrehozása után megjelenik az adapter részleteit tartalmazó oldal, amely a lépések listáját tartalmazza Hogyan működik? szakasz. Ez a szakasz aktiválja a következő lépéseket, ahogy egymás után végrehajtja azokat.
Töltsön fel mintadokumentumokat
Az adapter generálásának kezdeti fázisa magában foglalja a megfelelő mintadokumentumok készletének gondos kiválasztását a megjegyzésekhez, betanításhoz és teszteléshez. Lehetőségünk van a dokumentumok automatikus felosztására teszt- és betanítási adatkészletekre; azonban ehhez a folyamathoz manuálisan felosztjuk az adatkészletet.
Fontos megjegyezni, hogy akár öt teszt- és öt betanítási mintából is létrehozhat egy adaptert, de elengedhetetlen annak biztosítása, hogy ez a mintakészlet sokrétű legyen, és reprezentálja az éles környezetben előforduló munkaterhelést.
Ehhez az oktatóanyaghoz olyan minta-ellenőrzési adatkészleteket állítottunk össze, amelyekre Ön is képes letöltés. Adatkészletünk olyan változatokat tartalmaz, mint a személyi csekkek, a pénztári csekkek, az ösztönző csekkek és a fizetési csonkokba ágyazott csekkek. Kézzel írt és nyomtatott csekkeket is tartalmaztunk; olyan mezők variációival együtt, mint például a jegyzetsor.
Jegyezze fel a mintadokumentumokat
Következő lépésként jegyzetekkel látja el a mintadokumentumokat úgy, hogy lekérdezéseket társít a megfelelő válaszokhoz a konzolon keresztül. A megjegyzéseket automatikus vagy kézi címkézéssel kezdeményezheti. Az automatikus címkézés az Amazon Textract lekérdezéseket használja az adatkészlet előzetes címkézéséhez. Javasoljuk, hogy használja az automatikus címkézést a megjegyzési folyamat felgyorsításához.
Az ellenőrzések feldolgozásához a következő lekérdezéseket használjuk. Ha az Ön használati esete más dokumentumtípusokra vonatkozik, lásd a Bevált módszerek a lekérdezésekhez az Ön használati esetére vonatkozó lekérdezések vázlatához.
- Ki a kedvezményezett?
- Mi az a csekk#?
- Mi a kedvezményezett címe?
- Mi a dátum?
- Mi az a fiók#?
- Mennyi a csekk összege szavakban?
- Mi a számla/fizető/fiók neve?
- Mennyi a dollár összege?
- Mi a bank neve/számla neve?
- Mi a banki úti szám?
- Mi az a MICR vonal?
- Mi az a feljegyzés?
Ha az automatikus címkézési folyamat befejeződött, lehetősége van áttekinteni és szerkeszteni az egyes dokumentumokhoz adott válaszokat. Választ Kezdje el az áttekintést hogy ellenőrizze az egyes képekhez tartozó megjegyzéseket.
Ha egy lekérdezésre adott válasz hiányzik vagy hibás, a választ hozzáadhatja vagy szerkesztheti határolókeret rajzolásával vagy a válasz manuális megadásával.
Az áttekintés felgyorsítása érdekében előzetesen feljegyeztük az ellenőrzési mintákat, amelyeket átmásolhat az AWS-fiókjába. Futtassa a custom-queries-checks-blog.ipynb Jupyter notebook belül Amazon Textract kódminták könyvtárat, hogy automatikusan frissítse a kommentárokat.
Tanítsa meg az adaptert
Miután áttekintette az összes mintadokumentumot a megjegyzések pontosságának biztosítása érdekében, megkezdheti az adapter betanítási folyamatát. Ebben a lépésben ki kell jelölnie egy tárolási helyet, ahová az adaptert menteni kell. A képzési folyamat időtartama a képzéshez használt adatkészlet méretétől függően változik. A képzési API programozottan is meghívható, ha úgy dönt, hogy egy saját választása szerinti annotációs eszközt használ, és átadja a vonatkozó bemeneti fájlokat az API-nak. Hivatkozni Egyéni lekérdezések fül alatt találsz.
Értékelje a teljesítménymutatókat
Miután az adapter befejezte a betanítást, felmérheti teljesítményét az olyan értékelési mutatók vizsgálatával, mint pl F1 pontszám, pontosság és felidézés. Ezeket a mutatókat együttesen vagy dokumentumonként is elemezheti. A mintaellenőrzési adatkészletünk segítségével látni fogja, hogy a pontossági mutató (F1 pontszám) 68%-ról 92%-ra javul a betanított adapterrel.
Ezenkívül a választással tesztelheti az adapter kimenetét az új dokumentumokon Próbáld ki az adaptert.
Az értékelést követően dönthet úgy, hogy növeli az adapter teljesítményét, ha további mintadokumentumokat épít be a betanítási adatkészletbe, vagy újból megjegyzéseket fűz a dokumentumokhoz a küszöbértéknél alacsonyabb pontszámokkal. A dokumentumok újbóli jegyzeteléséhez válassza a lehetőséget Ellenőrizze a dokumentumokat az adapter részleteinek oldalán jelölje ki a dokumentumot, majd válassza ki Tekintse át a megjegyzéseket.
Programozottan tesztelje az adaptert
Miután a képzés sikeresen befejeződött, most már használhatja az adaptert AnalyzeDocument API-hívások. Az API-kérés hasonló az Amazon Textract Queries API-kéréshez, hozzáadva a AdaptersConfig
tárgy.
Futtathatja a következő mintakódot, vagy közvetlenül a következőben custom-queries-checks-blog.ipynb Jupyter notebook. A mintajegyzetfüzet kódot is tartalmaz az Amazon Textract Queries és az Amazon Textract Custom Queries eredményeinek összehasonlításához.
Létrehozása AdaptersConfig objektumot az illesztőazonosítóval és az adapter verziójával, és opcionálisan tartalmazza azokat az oldalakat, amelyekre alkalmazni szeretné az adaptert:
Hozzon létre egy QueriesConfig
objektumot azokkal a lekérdezésekkel, amelyekkel betanította az adaptert, és hívja meg az Amazon Textract API-t. Vegye figyelembe, hogy további olyan lekérdezéseket is felvehet, amelyekre az adaptert nem képezték ki. Az Amazon Textract automatikusan a Lekérdezések funkciót fogja használni ezekhez a kérdésekhez, nem pedig az egyéni lekérdezésekhez, így biztosítva Önnek azt a rugalmasságot, hogy az egyéni lekérdezéseket csak szükség esetén használja.
Végül táblázatba foglaljuk eredményeinket a jobb olvashatóság érdekében:
Tisztítsuk meg
Az erőforrások megtisztításához hajtsa végre a következő lépéseket:
- Az Amazon Textract konzolon válassza a lehetőséget Egyéni lekérdezések a navigációs ablaktáblában.
- Válassza ki a törölni kívánt adaptert.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a töröl.
Adapter menedzsment
Rendszeresen fejlesztheti adaptereit egy korábban generált adapter új verzióinak létrehozásával. Az adapter új verziójának létrehozásához új mintadokumentumokat kell hozzáadnia egy meglévő adapterhez, fel kell címkéznie a dokumentumokat, és oktatást kell végeznie. Egy adapter több verzióját is karbantarthatja egyidejűleg a fejlesztési folyamatokban való használatra. Az adapterek zökkenőmentes frissítéséhez ne módosítsa vagy törölje az adaptert Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör, ahol az adapter generálásához szükséges fájlok mentésre kerülnek.
Legjobb gyakorlatok
Ha egyéni lekérdezéseket használ a dokumentumokon, lásd: Az Amazon Textract egyéni lekérdezések legjobb gyakorlatai további megfontolások és bevált gyakorlatok miatt.
Az egyéni lekérdezések előnyei
Az egyéni lekérdezések a következő előnyöket kínálják:
- Továbbfejlesztett dokumentumértés – Az adatok nagy pontosságú kinyerésére és normalizálására való képessége révén az egyéni lekérdezések csökkentik a kézi ellenőrzésekre és auditokra való támaszkodást, és lehetővé teszi az intelligens dokumentumfeldolgozási munkafolyamatok megbízhatóbb automatizálását.
- Gyorsabb idő az értékeléshez – Ha új dokumentumtípusokkal találkozik, ahol nagyobb pontosságra van szükség, az egyéni lekérdezések segítségével néhány órán belül önkiszolgáló módon generálhat adaptert. Nem kell várnia egy előre betanított modellfrissítésre, ha új dokumentumtípusokkal vagy meglévők változataival találkozik a munkafolyamat során. Teljesen kézben tarthatja a folyamatot, és nem kell az Amazon Textracttól függenie az új dokumentumtípusok támogatásához.
- adatvédelem – Az Egyéni lekérdezések nem őrzik meg és nem használják fel az adapterek generálásához felhasznált adatokat, hogy általános, előképzett modelljeinket minden ügyfél számára elérhetővé tegyék. Az adapter az ügyfél fiókjára vagy az ügyfél által kifejezetten kijelölt fiókokra korlátozódik, biztosítva, hogy csak ezek a fiókok férhessenek hozzá az ügyfél adatainak felhasználásával végzett fejlesztésekhez.
- Kényelem – Az egyéni lekérdezések a lekérdezésekhez hasonló, teljesen felügyelt következtetési élményt biztosítanak. Az adapterképzés ingyenes, és csak a következtetésért kell fizetni. Az Egyéni lekérdezések segítségével megtakaríthatja a képzéssel és az egyéni modellek üzemeltetésével kapcsolatos általános költségeket és kiadásokat.
Következtetés
Ebben a bejegyzésben megvitattuk az egyéni lekérdezések előnyeit, bemutattuk, hogyan tudnak az egyéni lekérdezések pontosan kinyerni az adatokat az ellenőrzésekből, és megosztottuk a bevált gyakorlatokat a funkció hatékony használatához. Néhány óra alatt létrehozhat egy adaptert a konzol segítségével, és felhasználhatja azt az AnalyzeDocument API-ban adatkinyerési igényeinek kielégítésére. További információkért lásd: Egyéni lekérdezések.
A szerzőkről
Shibin Michaelraj idősebb termékmenedzser az Amazon Textract csapatánál. Arra összpontosít, hogy mesterséges intelligencia/ML-alapú termékeket készítsen az AWS-ügyfelek számára. Izgatottan várja, hogy segítse ügyfeleit összetett üzleti kihívásaik megoldásában az AI és az ML technológiák kihasználásával. Szabadidejében szívesen fut, podcastokra hangol, és finomítja amatőr tenisztudását.
Keith Mascarenhas Sr. Solutions Architect az Amazon Textract szolgáltatási csapatánál. Szenvedélyesen törekszik az üzleti problémák nagyarányú megoldására a gépi tanulás segítségével, és jelenleg világszerte segít ügyfeleinknek a dokumentumfeldolgozás automatizálásában, hogy gyorsabban, alacsonyabb működési költségek mellett érjék el a piacra kerülést.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :van
- :is
- :nem
- :ahol
- $ UP
- 1
- 10
- 100
- 17
- 36
- 7
- a
- képesség
- Rólunk
- gyorsul
- hozzáférés
- Fiók
- Fiókok
- pontosság
- pontosan
- Elérése
- alkalmazkodás
- hozzá
- mellett
- További
- cím
- címek
- ellen
- AI
- Minden termék
- lehetővé teszi, hogy
- mentén
- Is
- amatőr
- amazon
- Amazon szöveg
- Az Amazon Web Services
- összeg
- an
- elemez
- és a
- válaszok
- api
- alkalmazható
- alkalmazott
- megfelelő
- VANNAK
- AS
- értékeli
- At
- ellenőrzések
- auto
- automatizált
- Automatikus
- automatikusan
- Automatizálás
- elérhető
- AWS
- Bank
- alapján
- alap
- BE
- óta
- kezdődik
- haszon
- Előnyök
- BEST
- legjobb gyakorlatok
- Jobb
- között
- Doboz
- épít
- Épület
- üzleti
- de
- by
- hívás
- kéri
- TUD
- képességek
- óvatos
- eset
- kihívás
- kihívások
- kihívást
- Változások
- ellenőrizze
- Ellenőrzések
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- választja
- ragadozó ölyv
- kód
- együttesen
- összehasonlítani
- teljes
- Befejezett
- bonyolult
- összetevő
- alkatrészek
- megfontolások
- Konzol
- konstrukció
- folytatódik
- szerződések
- ellenőrzés
- Megfelelő
- Költség
- kiadások
- ország
- teremt
- készítette
- létrehozása
- a válogatott
- Jelenleg
- szokás
- vevő
- Ügyfelek
- testreszabás
- testre
- dátum
- adatkészletek
- találka
- mély
- mély tanulás
- Fok
- demó
- attól
- leírás
- kijelölt
- részletek
- Fejlesztés
- különböző
- közvetlenül
- megvitatni
- tárgyalt
- számos
- do
- dokumentum
- dokumentumok
- nem
- Dollár
- ne
- vázlat
- rajz
- két
- időtartama
- alatt
- e
- minden
- könnyű
- hatékonyan
- bármelyik
- beágyazott
- munkavállaló
- lehetővé
- lehetővé teszi
- lehetővé téve
- növelése
- biztosítására
- biztosítása
- belépés
- Környezet
- hibák
- alapvető
- értékelni
- értékelés
- megvizsgálni
- vizsgálva
- izgatott
- létező
- költségek
- tapasztalat
- szakvélemény
- kifejezetten
- feltárása
- kivonat
- kitermelés
- kivonatok
- f1
- gyorsabb
- Funkció
- Jellemzők
- kevés
- Fields
- Fájlok
- pénzügyi
- pénzintézet
- öt
- Rugalmasság
- összpontosított
- következő
- A
- formátum
- Ingyenes
- ból ből
- teljesen
- általános
- generál
- generált
- generáló
- generáció
- GitHub
- nagyobb
- Legyen
- tekintettel
- he
- segít
- segít
- segít
- Magas
- magas szinten
- <p></p>
- övé
- NYITVATARTÁS
- Hogyan
- azonban
- HTML
- http
- HTTPS
- emberi
- ID
- azonosító
- azonosítani
- if
- kép
- importál
- fontos
- javul
- fejlesztések
- in
- tartalmaz
- beleértve
- magában foglalja a
- amely magában foglalja
- Növeli
- információ
- Infrastruktúra
- kezdetben
- kezdeményez
- bemenet
- telepíteni
- Intézmény
- integrálni
- Intelligens
- Intelligens dokumentumfeldolgozás
- beavatkozás
- bele
- befektet
- hivatkozni
- IT
- ITS
- jpg
- éppen
- Kulcs
- Címke
- címkézés
- nyelv
- tanulás
- hitelezési
- erőfölény
- könyvtár
- mint
- Korlátozott
- vonal
- Lista
- elhelyezkedés
- alacsonyabb
- gép
- gépi tanulás
- készült
- fenntartása
- csinál
- sikerült
- vezetés
- menedzser
- mód
- kézikönyv
- kézzel
- piacára
- Találkozik
- Emlékeztető
- metrikus
- Metrics
- minimális
- hiányzó
- ML
- modell
- modellek
- több
- többszörös
- név
- Természetes
- Természet
- navigálás
- Navigáció
- Szükség
- szükséges
- igények
- Új
- következő
- jegyzetfüzet
- Most
- szám
- számok
- tárgy
- of
- Ajánlatok
- gyakran
- on
- azok
- csak
- üzemeltetési
- operatív
- opció
- or
- szervezetek
- Más
- mi
- teljesítmény
- felett
- saját
- oldal
- oldalak
- üvegtábla
- paraméter
- elhalad
- Múló
- szenvedélyes
- Fizet
- fizetés
- Teljesít
- teljesítmény
- Előadja
- személyes
- fázis
- darabok
- csővezeték
- elhelyezés
- Plató
- Platón adatintelligencia
- PlatoData
- dugó
- Podcastek
- állás
- gyakorlat
- Pontosság
- korábban
- elsődleges
- problémák
- folyamat
- Folyamatok
- feldolgozás
- Termékek
- termék menedzser
- Termelés
- Termékek
- feltéve,
- biztosít
- amely
- lekérdezések
- Kérdések
- való Világ
- elismerik
- felismerés
- ajánl
- Csökkent
- csökkenti
- utal
- finomítás
- rendszeresen
- megbízható
- bizalom
- reprezentatív
- kérni
- Tudástár
- válasz
- válaszok
- Eredmények
- megtartása
- Kritika
- felül
- Vélemények
- routing
- futás
- futás
- mentett
- Skála
- forgatókönyv
- pontszám
- zökkenőmentesen
- Rész
- lát
- kiválasztás
- Önkiszolgáló
- szolgáltatás
- Szolgáltatások
- készlet
- Megosztás
- megosztott
- kellene
- előadás
- kimutatta,
- aláírás
- hasonló
- Egyszerű
- egyszerre
- Méret
- készségek
- Megoldások
- SOLVE
- Megoldása
- különleges
- osztott
- Kezdve
- nyilatkozatok
- Lépés
- Lépései
- inger
- stimulus ellenőrzések
- tárolás
- struktúrák
- sikeresen
- ilyen
- támogatás
- Feladat
- csapat
- Technologies
- feltételek
- teszt
- Tesztelés
- szöveg
- mint
- hogy
- A
- azok
- Őket
- ezáltal
- Ezek
- ezt
- küszöb
- Keresztül
- idő
- nak nek
- szerszám
- Vonat
- kiképzett
- Képzések
- TRP
- hangolás
- oktatói
- típus
- típusok
- mögöttes
- egyedi
- Frissítések
- frissítve
- Frissítés
- használ
- használati eset
- használ
- segítségével
- hasznosított
- kihasználva
- érvényesítés
- fajta
- változó
- Igazolás
- változat
- verzió
- keresztül
- várjon
- végigjátszás
- akar
- akar
- Út..
- we
- háló
- webes szolgáltatások
- Mit
- Mi
- amikor
- ami
- WHO
- Wikipedia
- lesz
- val vel
- belül
- nélkül
- szavak
- munkafolyamat
- munkafolyamatok
- világszerte
- Rossz
- te
- A te
- zephyrnet
- Postai irányítószám