Amazoni tekst on masinõppe (ML) teenus, mis ekstraheerib automaatselt teksti, käsitsikirja ja andmed mis tahes dokumendist või pildist. Amazon Textract pakub nüüd paindlikkust dokumentidest eraldatavate andmete täpsustamiseks, kasutades uut päringud funktsiooni Analüüsi dokumendi API-s. Te ei pea teadma dokumendis olevate andmete struktuuri (tabel, vorm, kaudne väli, pesastatud andmed) ega muretsema dokumendi versioonide ja vormingute erinevuste pärast.
Selles postituses käsitleme järgmisi teemasid:
- AWS-i klientide edulood ja uue päringufunktsiooni eelised
- Kuidas dokumentide päringute analüüsimise API aitab dokumentidest teavet hankida
- Amazon Textracti konsooli ülevaade
- Koodinäited dokumendipäringute API kasutamiseks
- Kuidas töödelda vastust Amazon Textracti parseriteegi abil
Uue päringufunktsiooni eelised
Traditsioonilistel OCR-lahendustel on raske enamikust poolstruktureeritud ja struktureerimata dokumentidest andmeid täpselt eraldada, kuna nende dokumentide mitmes versioonis ja vormingus on andmete paigutus oluliselt erinev. Peate juurutama kohandatud järeltöötluskoodi või nendest dokumentidest eraldatud teabe käsitsi üle vaatama. Funktsiooni Päringud abil saate määrata vajaliku teabe loomuliku keele küsimuste kujul (nt "Mis on kliendi nimi") ja saada täpse teabe ("John Doe") API vastuse osana. Funktsioon kasutab otsitava teabe suure täpsusega eraldamiseks visuaalsete, ruumiliste ja keelemudelite kombinatsiooni. Funktsioon Päringud on eelkoolitatud paljudele poolstruktureeritud ja struktureerimata dokumentidele. Mõned näited hõlmavad makselehti, pangaväljavõtteid, W-2-sid, laenutaotluse vorme, hüpoteegi märkmeid ning vaktsiini- ja kindlustuskaarte.
"Amazon Textract võimaldab meil automatiseerida klientide dokumenditöötlusvajadusi. Funktsiooni Päringud abil saame veelgi suurema paindlikkuse ja täpsusega eraldada andmeid mitmesugustest dokumentidest," ütles TekStream Solutionsi tegevjuht Robert Jansen. "Näeme seda suure tootlikkuse võiduna meie äriklientidele, kes saavad meie IDP-lahenduse osana kasutada päringute võimalust, et saada kiiresti oma dokumentidest välja põhiteave."
"Amazon Textract võimaldab meil piltidelt suure täpsusega eraldada nii teksti kui ka struktureeritud elemente, nagu vormid ja tabelid. Amazon Textract Queries on aidanud meil drastiliselt parandada teabe hankimise kvaliteeti mitmetest ärikriitilistest dokumentidest, nagu ohutuskaardid või materjali spetsifikatsioonid" ütles Thorsten Warnecke, direktor | PC Analyticsi juht, Camelot Management Consultants. "Loomuliku keele päringusüsteem pakub suurt paindlikkust ja täpsust, mis on vähendanud meie järeltöötluskoormust ja võimaldanud meil kiiremini lisada uusi dokumente oma andmeväljavõtte tööriistadesse."
Kuidas dokumentide päringute analüüsimise API aitab dokumentidest teavet hankida
Ettevõtted on suurendanud digitaalsete platvormide kasutuselevõttu, eriti COVID-19 pandeemia valguses. Enamik organisatsioone pakub nüüd digitaalset viisi oma teenuste ja toodete hankimiseks nutitelefonide ja muude mobiilseadmete abil, mis pakub kasutajatele paindlikkust, kuid suurendab ka digitaalsete dokumentide ülevaatamise, töötlemise ja analüüsimise ulatust. Mõne töökoormuse korral, kus näiteks hüpoteeklaenu dokumente, vaktsineerimiskaarte, palgalehti, kindlustuskaarte ja muid dokumente tuleb digitaalselt analüüsida, võib andmete väljavõtmise keerukus muutuda eksponentsiaalselt raskemaks, kuna nendel dokumentidel puudub standardvorm või nende andmevormingus on olulisi erinevusi. dokumendi erinevates versioonides.
Isegi võimsate optilise tekstituvastuse lahenduste abil on raske nendest dokumentidest andmeid täpselt eraldada ja teil võib tekkida vajadus rakendada nende dokumentide jaoks kohandatud järeltöötlust. See hõlmab vormivõtmete võimalike variatsioonide vastendamist kliendi väljade nimedega või kohandatud masinõppe kaasamist, et tuvastada struktureerimata dokumendis spetsiifiline teave.
Amazon Textracti uus dokumendipäringute analüüsimise API suudab vastata loomulikus keeles kirjalikke küsimusi, nagu "Mis on intressimäär?" ja teostage dokumendil võimas AI- ja ML-analüüs, et leida soovitud teave ja see ilma järeltöötluseta dokumendist eraldada. Funktsioon Päringud ei nõua kohandatud mudeli väljaõpet ega mallide või konfiguratsioonide seadistamist. Saate kiiresti alustada, laadides üles oma dokumendid ja täpsustades nende kohta küsimusi Amazon Textracti konsooli kaudu. AWS-i käsurea liides (AWS CLI) või AWS SDK.
Selle postituse järgmistes osades käsitleme üksikasjalikke näiteid selle uue funktsiooni kasutamise kohta tavalistel töökoormuse kasutusjuhtudel ja kuidas kasutada dokumendipäringute analüüsi API-t, et lisada oma töökoormuse digitaliseerimise protsessi paindlikkust.
Kasutage Amazon Textracti konsooli funktsiooni Päringud
Enne API ja koodinäidistega alustamist vaatame üle Amazon Textracti konsooli. Järgmisel pildil on näide vaktsineerimiskaardist Päringud vahekaart Analüüsi dokumenti API jaoks Amazon Textracti konsoolis. Pärast dokumendi Amazon Textracti konsooli üleslaadimist valige Päringud aasta Konfigureerige dokument osa. Seejärel saate lisada päringuid loomuliku keele küsimuste vormis. Pärast kõigi päringute lisamist valige Rakenda konfiguratsioon. Vastused küsimustele asuvad aadressil Päringud Tab.
Koodi näited
Selles jaotises selgitame, kuidas käivitada parameetriga Päringud API analüüsi dokumenti, et saada vastuseid loomuliku keele küsimustele dokumendi kohta. Sisenddokument on kas baitimassiivi vormingus või asub Amazoni lihtne salvestusteenus (Amazon S3) kopp. Saate edastada pildibaite Amazon Textract API toimingule, kasutades atribuuti Bytes. Näiteks võite kasutada Bytes
atribuut kohalikust failisüsteemist laaditud dokumendi edastamiseks. Pildibaidid edastati kasutades Bytes
atribuut peab olema base64 kodeeritud. Kui kasutate Amazon Textract API toimingute kutsumiseks AWS SDK-d, ei pruugi teie kood vajada dokumendifaili baite kodeerimist. Teise võimalusena saate S3 ämbrisse salvestatud pilte Amazon Textract API toimingule edastada, kasutades S3Object
vara. S3 ämbrisse salvestatud dokumendid ei pea olema base64 kodeeritud.
Saate kasutada päringufunktsiooni, et saada vastuseid erinevat tüüpi dokumentidelt, nagu palgalehed, vaktsineerimiskaardid, hüpoteegi dokumendid, pangaväljavõtted, W-2 vormid, 1099 vormid ja muud. Järgmistes jaotistes käsitleme mõnda neist dokumentidest ja näitame, kuidas funktsioon Päringud töötab.
Palgaleht
Selles näites käime läbi toimingud, mille abil analüüsida palganumbrit funktsiooni Päringud abil, nagu on näidatud järgmisel näitepildil.
Kasutame järgmist Pythoni näidiskoodi:
Järgmine kood on näidis AWS CLI käsk:
Analüüsime vastust, mille saame kahe päringu kohta, mille me eelmises näites dokumendi analüüsi API-le edastasime. Järgmist vastust on kärbitud, et kuvada ainult asjakohased osad:
Vastuses on a BlockType
of QUERY
see näitab küsitud küsimust ja a Relationships
jaotis, millel on vastust sisaldava ploki ID. Vastus on BlockType
of QUERY_RESULT
. Analüüsi dokumendi API-le sisendina edastatud pseudonüüm tagastatakse vastuse osana ja seda saab kasutada vastuse märgistamiseks.
Me kasutame Amazon Textract Response Parser et eraldada ainult küsimused, varjunimed ja nendele küsimustele vastavad vastused:
Eelnev kood tagastab järgmised tulemused:
Rohkem küsimusi ja täieliku koodi leiate sülearvutist aadressil GitHub repo.
Hüpoteeklaenu märkus
Dokumendipäringute analüüsimise API töötab hästi ka järgmiste hüpoteeklaenu märkidega.
API kutsumise ja tulemuste töötlemise protsess on sama, mis eelmises näites. Koodi täieliku näite leiate veebisaidilt GitHub repo.
Järgmine kood näitab API abil saadud vastuseid:
Vaktsineerimiskaart
Funktsioon Amazon Textract Queries töötab väga hästi ka vaktsineerimiskaartidelt või seda meenutavatelt kaartidelt teabe hankimiseks, nagu järgmises näites.
API-le helistamise ja tulemuste sõelumise protsess on sama, mida kasutatakse palganumbri puhul. Pärast vastuse töötlemist saame järgmise teabe:
Täieliku koodi leiate sülearvutist aadressil GitHub repo.
Kindlustuskaart
Funktsioon Päringud töötab hästi ka järgmiste kindlustuskaartidega.
API kutsumise ja tulemuste töötlemise protsess on sama, mis varem näidatud. Koodi täielik näide on saadaval sülearvutis aadressil GitHub repo.
Järgmised on API abil saadud vastused.
Parimad tavad päringute koostamiseks
Päringute koostamisel võtke arvesse järgmisi parimaid tavasid.
- Üldiselt esitage loomulikus keeles küsimus, mis algab sõnadega "Mis on", "Kus on" või "Kes on". Erandiks on see, kui proovite ekstraheerida standardseid võtme-väärtuse paare. Sel juhul saate võtme nime päringuna edastada.
- Vältige valesti vormistatud või grammatiliselt valesid küsimusi, kuna need võivad põhjustada ootamatuid vastuseid. Näiteks valesti vormindatud päring on "Millal?" arvestades, et hästi vormistatud päring on "Millal manustati esimene vaktsiiniannus?"
- Võimaluse korral kasutage päringu koostamiseks dokumendi sõnu. Kuigi funktsioon Päringud üritab leida akronüüme ja sünonüüme mõnele tööstusharu levinud terminile, nagu "SSN", "maksu ID" ja "sotsiaalkindlustusnumber", parandab otse dokumendist pärit keele kasutamine tulemusi. Näiteks kui dokumendis on kirjas „töö edenemine“, proovige vältida selliste variatsioonide kasutamist nagu „projekti edenemine“, „programmi edenemine“ või „töö olek“.
- Koostage päring, mis sisaldab sõnu nii reapäisest kui ka veerupäisest. Näiteks eelmises vaktsineerimiskaardi näites saate teise vaktsineerimise kuupäeva teadasaamiseks esitada päringu järgmiselt: "Mis kuupäeval manustati 2. annus?"
- Pikad vastused suurendavad vastuse latentsust ja võivad põhjustada ajalõpu. Proovige esitada küsimusi, mille vastused on vähem kui 100 sõna.
- Vormi standardsete võtme-väärtuste paaride eraldamisel toimib küsimusena ainult võtme nime edastamine. Kõigi muude ekstraktimise kasutusjuhtude jaoks soovitame raamida täisküsimused.
- Olge võimalikult konkreetne. Näiteks:
- Kui dokument sisaldab mitut jaotist (nt "laenuvõtja" ja "kaaslaenaja") ja mõlemas osas on väli nimega "SSN", küsige "Mis on laenuvõtja SSN?" ja "Mis on kaaslaenaja SSN?"
- Kui dokumendil on mitu kuupäevaga seotud välja, olge päringukeeles konkreetne ja küsige "Mis on dokumendi allkirjastamise kuupäev?" või "Mis on taotluse sünnikuupäev?" Vältige mitmetähenduslike küsimuste esitamist, nagu "Mis on kuupäev?"
- Kui teate eelnevalt dokumendi kujundust, andke tulemuste täpsuse parandamiseks asukohavihjeid. Näiteks küsige "Mis on ülaosas olev kuupäev?" või "What is the date on the left?" või "Mis on allosas olev kuupäev?"
Funktsiooni Päringud kohta lisateabe saamiseks vaadake Textracti dokumentatsioon.
Järeldus
Selles postituses andsime ülevaate Amazon Textracti uuest funktsioonist Päringud, et kiiresti ja lihtsalt hankida teavet sellistest dokumentidest nagu palgalehed, hüpoteeklaenulehed, kindlustuskaardid ja vaktsineerimiskaardid loomuliku keele küsimuste põhjal. Samuti kirjeldasime, kuidas saate vastuse JSON-i sõeluda.
Täpsema info saamiseks vt Dokumentide analüüsimine või vaadake Amazon Textracti konsooli ja proovige seda funktsiooni.
Autoritest
Uday Narayanan on AWS-i lahenduste vanemarhitekt. Talle meeldib aidata klientidel leida uuenduslikke lahendusi keerukatele äriprobleemidele. Tema põhivaldkonnad on andmeanalüütika, suurandmesüsteemid ja masinõpe. Vabal ajal meeldib talle sportida, uisapäisa telesaateid vaadata ja reisida.
Rafael Caixeta on Californias asuva AWS-i vanemlahenduste arhitekt. Tal on üle 10-aastane kogemus pilvearhitektuuride arendamisel. Tema põhivaldkonnad on serverita, konteinerid ja masinõpe. Vabal ajal meeldib talle lugeda ilukirjanduslikke raamatuid ja reisida mööda maailma.
Navneeth Nair on Amazon Textracti meeskonna tehniline vanem tootejuht. Ta on keskendunud masinõppepõhiste teenuste loomisele AWS-i klientidele.
Martin Schade on Senior ML Product SA koos Amazon Textracti meeskonnaga. Tal on üle 20-aastane kogemus internetiga seotud tehnoloogiate, inseneri- ja arhitektuurilahendustega. Ta liitus AWS-iga 2014. aastal, juhendades esmalt mõningaid suurimaid AWS-i kliente AWS-i teenuste kõige tõhusamal ja skaleeritavamal kasutamisel ning hiljem keskendus AI/ML-ile, keskendudes arvutinägemisele. Praegu on ta kinnisideeks dokumentidest teabe hankimisest.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/specify-and-extract-information-from-documents-using-the-new-queries-feature-in-amazon-texttract/
- "
- 000
- 10
- 100
- 20 aastat
- 2022
- MEIST
- omandama
- üle
- manustatud
- Vastuvõtmine
- AI
- Materjal: BPA ja flataatide vaba plastik
- Kuigi
- Amazon
- summa
- analüüs
- analytics
- API
- taotlus
- Aprill
- automatiseerima
- saadaval
- AWS
- Pank
- muutuma
- Algus
- Kasu
- BEST
- parimaid tavasid
- Big andmed
- Blokeerima
- Raamatud
- piir
- Ehitus
- äri
- California
- helistama
- Kaardid
- juhtudel
- väljakutseid
- juht
- tegevjuht
- Vali
- Linn
- Cloud
- kood
- Veerg
- kombinatsioon
- ühine
- keeruline
- usaldus
- konsool
- Konteinerid
- sisaldab
- tuum
- võiks
- Covid-19
- COVID-19 pandeemia
- Praegune
- Praegu
- tava
- klient
- Kliendid
- andmed
- Andmete analüüs
- kirjeldatud
- arenev
- seadmed
- erinev
- digitaalne
- digitaalselt
- otse
- arutama
- dokumendid
- Ei tee
- kergesti
- Tõhus
- tõhus
- elemendid
- Inseneriteadus
- eriti
- näide
- täidesaatev
- kogemus
- eksponentsiaalselt
- Väljavõtted
- tunnusjoon
- Ilukirjandus
- Valdkonnad
- Joonis
- esimene
- Paindlikkus
- Keskenduma
- keskendunud
- Järel
- vorm
- formaat
- vormid
- avastatud
- FRAME
- täis
- funktsionaalsus
- Üldine
- GitHub
- suur
- suurem
- juhataja
- aidates
- aitab
- Suur
- Kuidas
- Kuidas
- HTTPS
- identifitseerima
- pilt
- rakendada
- kaudselt
- parandama
- sisaldama
- hõlmab
- Kaasa arvatud
- Suurendama
- kasvanud
- tööstus
- info
- uuenduslik
- sisend
- kindlustus
- huvi
- IT
- liitunud
- Võti
- võtmed
- keel
- suur
- suurim
- viima
- õppimine
- Tase
- valgus
- joon
- nimekiri
- koormus
- kohalik
- liising
- masin
- masinõpe
- peamine
- juhtimine
- juht
- käsitsi
- Tootja
- kaardistus
- Märts
- sobitamine
- materjal
- tähtaeg
- meditsiini-
- liige
- ML
- mobiilne
- mobiilseadmete
- mudel
- mudelid
- rohkem
- kõige
- mitmekordne
- nimed
- Natural
- märkmik
- märkused
- number
- saadud
- pakkuma
- Pakkumised
- Ohvitser
- töö
- Operations
- et
- organisatsioonid
- Muu
- pandeemia
- Maksma
- makse
- maksed
- PC
- Platvormid
- võimalik
- võimas
- Peamine
- protsess
- töötlemine
- Toode
- tootlikkus
- Toodet
- kinnisvara
- kvaliteet
- küsimus
- kiiresti
- Lugemine
- saama
- soovitama
- Suhted
- asjakohane
- nõudma
- vastus
- Tulemused
- Tulu
- läbi
- ROBERT
- ohutus
- skaalautuvia
- Skaala
- SDK
- turvalisus
- Serverita
- teenus
- Teenused
- kehtestamine
- märkimisväärne
- Silver
- lihtne
- site
- nutitelefonid
- lahendus
- Lahendused
- mõned
- spetsialist
- sport
- standard
- alustatud
- algab
- riik
- avaldused
- olek
- ladustamine
- Lood
- struktureeritud
- süsteem
- süsteemid
- meeskond
- Tehniline
- Tehnoloogiad
- maailm
- Läbi
- aeg
- töövahendid
- ülemine
- Teemasid
- koolitus
- Reisimine
- tv
- us
- kasutama
- Kasutajad
- ära kasutama
- kasutades
- vaktsiin
- sort
- nägemus
- M
- Mis on
- WHO
- võitma
- jooksul
- ilma
- sõnad
- töötab
- maailm
- X
- aasta
- aastat