Amazonovo besedilo je storitev strojnega učenja (ML), ki samodejno izvleče besedilo, rokopis in podatke iz katerega koli dokumenta ali slike. Amazon Texttract zdaj ponuja prilagodljivost za določanje podatkov, ki jih morate izvleči iz dokumentov, z uporabo nove funkcije poizvedb v API-ju Analyze Document. Ni vam treba poznati strukture podatkov v dokumentu (tabela, obrazec, implicitno polje, ugnezdeni podatki) ali skrbeti za razlike med različicami in oblikami dokumenta.
V tej objavi razpravljamo o naslednjih temah:
- Zgodbe o uspehu strank AWS in prednosti nove funkcije Queries
- Kako API Analyze Document Queries pomaga pridobiti informacije iz dokumentov
- Predstavitev konzole Amazon Texttract
- Primeri kode za uporabo API-ja Analyze Document Queries
- Kako obdelati odgovor s knjižnico razčlenjevalnika Amazon Texttract
Prednosti nove funkcije poizvedb
Tradicionalne rešitve OCR težko natančno izvlečejo podatke iz večine polstrukturiranih in nestrukturiranih dokumentov zaradi znatnih razlik v tem, kako so podatki razporejeni v več različicah in oblikah teh dokumentov. Implementirati morate kodo za naknadno obdelavo po meri ali ročno pregledati ekstrahirane informacije iz teh dokumentov. S funkcijo Poizvedbe lahko podate informacije, ki jih potrebujete, v obliki vprašanj v naravnem jeziku (na primer »Kakšno je ime stranke«) in prejmete natančne informacije (»John Doe«) kot del odgovora API-ja. Funkcija uporablja kombinacijo vizualnih, prostorskih in jezikovnih modelov za ekstrahiranje informacij, ki jih iščete z visoko natančnostjo. Funkcija poizvedb je vnaprej usposobljena za veliko različnih polstrukturiranih in nestrukturiranih dokumentov. Nekateri primeri vključujejo plačilne liste, bančne izpiske, W-2, obrazce za vlogo za posojilo, hipotekarne zapise ter kartice cepiva in zavarovanja.
"Amazon Texttract nam omogoča avtomatizacijo potreb naših strank po obdelavi dokumentov. S funkcijo Poizvedbe bomo lahko še bolj fleksibilno in natančno pridobivali podatke iz različnih dokumentov," je dejal Robert Jansen, glavni izvršni direktor pri TekStream Solutions. "To vidimo kot veliko povečanje produktivnosti za naše poslovne stranke, ki bodo lahko uporabile zmogljivost poizvedb kot del naše rešitve IDP za hitro pridobivanje ključnih informacij iz svojih dokumentov."
"Amazon Texttract nam omogoča ekstrahiranje besedila in strukturiranih elementov, kot so obrazci in tabele, iz slik z visoko natančnostjo. Amazon Texttract Queries nam je pomagal drastično izboljšati kakovost pridobivanja informacij iz več poslovno kritičnih dokumentov, kot so varnostni listi ali specifikacije materialov." je dejal Thorsten Warnecke, ravnatelj | Vodja PC Analytics, Camelot Management Consultants. "Sistem poizvedb v naravnem jeziku ponuja veliko prilagodljivost in natančnost, kar je zmanjšalo našo naknadno obdelavo in nam omogočilo hitrejše dodajanje novih dokumentov v naša orodja za ekstrakcijo podatkov."
Kako API Analyze Document Queries pomaga pridobiti informacije iz dokumentov
Podjetja so povečala svoje sprejemanje digitalnih platform, zlasti v luči pandemije COVID-19. Večina organizacij zdaj ponuja digitalni način za pridobitev svojih storitev in izdelkov z uporabo pametnih telefonov in drugih mobilnih naprav, kar ponuja prilagodljivost uporabnikom, hkrati pa povečuje obseg, v katerem je treba digitalne dokumente pregledati, obdelati in analizirati. Pri nekaterih delovnih obremenitvah, kjer je treba na primer hipotekarne dokumente, kartice cepljenja, plačilne liste, zavarovalne kartice in druge dokumente digitalno analizirati, se lahko zapletenost pridobivanja podatkov eksponentno poveča, ker ti dokumenti nimajo standardne oblike ali imajo znatne razlike v obliki podatkov. v različnih različicah dokumenta.
Celo zmogljive rešitve za OCR težko izvlečejo podatke iz teh dokumentov in morda boste morali za te dokumente uvesti naknadno obdelavo po meri. To vključuje preslikavo možnih različic ključev obrazca v imena polj, ki izvirajo iz strank, ali vključitev strojnega učenja po meri za prepoznavanje določenih informacij v nestrukturiranem dokumentu.
Novi API za analizo poizvedb po dokumentih v storitvi Amazon Texttract lahko sprejema vprašanja v naravnem jeziku, kot je »Kakšna je obrestna mera?« in izvedite zmogljivo analizo AI in ML na dokumentu, da ugotovite želene informacije in jih izvlečete iz dokumenta brez naknadne obdelave. Funkcija poizvedb ne zahteva usposabljanja za model po meri ali nastavitve predlog ali konfiguracij. Hitro lahko začnete tako, da naložite svoje dokumente in navedete vprašanja o teh dokumentih prek konzole Amazon Texttract, Vmesnik ukazne vrstice AWS (AWS CLI) ali AWS SDK.
V naslednjih razdelkih te objave bomo pregledali podrobne primere, kako uporabiti to novo funkcionalnost v običajnih primerih uporabe delovne obremenitve in kako uporabiti API za analizo poizvedb dokumentov, da dodate agilnost procesu digitalizacije vaše delovne obremenitve.
Uporabite funkcijo Queries na konzoli Amazon Texttract
Preden začnemo z API-jem in vzorci kode, si oglejmo konzolo Amazon Texttract. Naslednja slika prikazuje primer kartice cepljenja na Poizvedbe za API Analyze Document na konzoli Amazon Texttract. Ko naložite dokument v konzolo Amazon Texttract, izberite Poizvedbe v Konfigurirajte dokument razdelek. Nato lahko dodate poizvedbe v obliki vprašanj v naravnem jeziku. Ko dodate vse svoje poizvedbe, izberite Uporabi konfiguracijo. Odgovori na vprašanja se nahajajo na Poizvedbe tab.
Primeri kode
V tem razdelku pojasnjujemo, kako priklicati API za analizo dokumenta s parametrom Queries, da dobite odgovore na vprašanja v naravnem jeziku o dokumentu. Vhodni dokument je v formatu niza bajtov ali pa se nahaja v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro. Bajte slike posredujete operaciji Amazon Texttract API z uporabo lastnosti Bytes. Na primer, lahko uporabite Bytes
lastnost za posredovanje dokumenta, naloženega iz lokalnega datotečnega sistema. Bajti slike, posredovani z uporabo Bytes
Lastnost mora biti kodirana base64. Vaši kodi morda ne bo treba kodirati bajtov datoteke dokumenta, če uporabljate AWS SDK za klicanje operacij Amazon Texttract API. Lahko pa posredujete slike, shranjene v vedru S3, operaciji Amazon Texttract API z uporabo S3Object
premoženje. Za dokumente, shranjene v vedru S3, ni treba, da so kodirani base64.
Funkcijo poizvedb lahko uporabite za pridobivanje odgovorov iz različnih vrst dokumentov, kot so plačilne liste, kartice o cepljenju, hipotekarni dokumenti, bančni izpiski, obrazci W-2, obrazci 1099 in drugi. V naslednjih razdelkih bomo pregledali nekatere od teh dokumentov in pokazali, kako deluje funkcija Poizvedbe.
Paystub
V tem primeru se sprehodimo skozi korake za analizo plačilne liste s funkcijo Poizvedbe, kot je prikazano na naslednji sliki primera.
Uporabljamo naslednjo vzorčno kodo Python:
Naslednja koda je vzorčni ukaz AWS CLI:
Analizirajmo odgovor, ki smo ga dobili za dve poizvedbi, ki smo ju v prejšnjem primeru posredovali API-ju Analyze Document. Naslednji odgovor je bil obrezan tako, da prikazuje samo ustrezne dele:
Odgovor ima a BlockType
of QUERY
ki prikazuje vprašanje, ki je bilo postavljeno, in a Relationships
razdelek, ki ima ID za blok, ki ima odgovor. Odgovor je v BlockType
of QUERY_RESULT
. Vzdevek, ki je bil posredovan kot vnos API-ju Analyze Document, je vrnjen kot del odgovora in ga je mogoče uporabiti za označevanje odgovora.
Mi uporabljamo Razčlenjevalnik odzivov Amazon Textract da izvlečete samo vprašanja, vzdevek in ustrezne odgovore na ta vprašanja:
Prejšnja koda vrne naslednje rezultate:
Več vprašanj in celotno kodo najdete v zvezku na GitHub repo.
Hipotekarni zapis
Analyze Document Queries API dobro deluje tudi s hipotekarnimi zapisi, kot so naslednji.
Postopek za klicanje API-ja in obdelavo rezultatov je enak prejšnjemu primeru. Celoten primer kode najdete na GitHub repo.
Naslednja koda prikazuje primere odgovorov, pridobljenih z uporabo API-ja:
Izkaznica o cepljenju
Funkcija Amazon Texttract Queries zelo dobro deluje tudi pri pridobivanju informacij iz kartic cepljenja ali kartic, ki so jim podobne, kot v naslednjem primeru.
Postopek za klicanje API-ja in razčlenjevanje rezultatov je enak kot pri plačilu. Ko obdelamo odgovor, dobimo naslednje podatke:
Celotno kodo najdete v zvezku na GitHub repo.
Zavarovalna kartica
Funkcija Poizvedbe dobro deluje tudi z zavarovalnimi karticami, kot so naslednje.
Postopek za klicanje API-ja in obdelavo rezultatov je enak, kot je prikazano prej. Celoten primer kode je na voljo v zvezku na GitHub repo.
Spodaj so primeri odgovorov, pridobljenih z uporabo API-ja:
Najboljše prakse za ustvarjanje poizvedb
Pri oblikovanju poizvedb upoštevajte naslednje najboljše prakse:
- Na splošno postavite vprašanje v naravnem jeziku, ki se začne z »Kaj je«, »Kje je« ali »Kdo je«. Izjema je, ko poskušate izvleči standardne pare ključ-vrednost; v tem primeru lahko ime ključa posredujete kot poizvedbo.
- Izogibajte se napačno oblikovanim ali slovnično nepravilnim vprašanjem, ker lahko povzročijo nepričakovane odgovore. Na primer, napačno oblikovana poizvedba je "Kdaj?" medtem ko je dobro oblikovana poizvedba "Kdaj je bil dan prvi odmerek cepiva?"
- Če je mogoče, za sestavo poizvedbe uporabite besede iz dokumenta. Čeprav funkcija poizvedb poskuša ujemati akronime in sinonime za nekatere pogoste industrijske izraze, kot so »SSN«, »davčna številka« in »številka socialnega zavarovanja«, uporaba jezika neposredno iz dokumenta izboljša rezultate. Na primer, če je v dokumentu napisano "napredek dela", se izogibajte uporabi različic, kot so "napredek projekta", "napredek programa" ali "status dela".
- Sestavite poizvedbo, ki vsebuje besede iz glave vrstice in glave stolpca. Na primer, v prejšnjem primeru kartice cepljenja, če želite izvedeti datum drugega cepljenja, lahko poizvedbo oblikujete kot "Katerega datuma je bil dan drugi odmerek?"
- Dolgi odgovori povečajo zakasnitev odziva in lahko povzročijo časovne omejitve. Poskusite postavljati vprašanja, ki odgovarjajo z manj kot 100 besedami.
- Posredovanje le imena ključa kot vprašanje deluje, ko poskušate iz obrazca izvleči standardne pare ključ-vrednost. Priporočamo oblikovanje popolnih vprašanj za vse druge primere uporabe ekstrakcije.
- Bodite čim bolj natančni. Na primer:
- Ko dokument vsebuje več razdelkov (na primer »posojilojemalec« in »soposojilojemalec«) in imata oba razdelka polje z imenom »SSN«, vprašajte »Kaj je SSN za posojilojemalca?« in »Kaj je SSN za soposojilojemalca?«
- Če ima dokument več polj, povezanih z datumom, bodite natančni v jeziku poizvedbe in vprašajte »Kateri je datum podpisa dokumenta?« ali "Kakšen je datum rojstva aplikacije?" Izogibajte se dvoumnim vprašanjem, kot je "Kakšen je datum?"
- Če že vnaprej poznate postavitev dokumenta, dajte namige o lokaciji, da izboljšate natančnost rezultatov. Vprašajte na primer "Kateri je datum na vrhu?" ali "Kateri je datum na levi?" ali "Kateri je datum na dnu?"
Za več informacij o funkciji Poizvedbe glejte Izvleček besedila Dokumentacija.
zaključek
V tej objavi smo zagotovili pregled nove funkcije poizvedb storitve Amazon Texttract za hitro in preprosto pridobivanje informacij iz dokumentov, kot so plačilne liste, hipotekarni zapisi, zavarovalne kartice in kartice cepljenja, ki temeljijo na vprašanjih v naravnem jeziku. Opisali smo tudi, kako lahko razčlenite odgovor JSON.
Za več informacij si oglejte Analiziranje dokumentov , ali si oglejte konzolo Amazon Texttract in preizkusite to funkcijo.
O avtorjih
Uday Narayanan je starejši arhitekt rešitev pri AWS. Strankam rad pomaga pri iskanju inovativnih rešitev za kompleksne poslovne izzive. Njegova glavna področja so podatkovna analitika, sistemi velikih podatkov in strojno učenje. V prostem času se rad ukvarja s športom, gleda televizijske oddaje in potuje.
Rafael Caixeta je starejši arhitekt rešitev pri AWS s sedežem v Kaliforniji. Ima več kot 10 let izkušenj z razvojem arhitektur za oblak. Njegova glavna področja so brezstrežniška dela, vsebniki in strojno učenje. V prostem času rad bere leposlovne knjige in potuje po svetu.
Navneeth Nair je višji produktni vodja, tehnični pri ekipi Amazon Texttract. Osredotočen je na gradnjo storitev, ki temeljijo na strojnem učenju, za stranke AWS.
Martin Schade je Senior ML Product SA pri ekipi Amazon Texttract. Ima več kot 20 let izkušenj z internetnimi tehnologijami, inženiringom in arhitekturnimi rešitvami. AWS se je pridružil leta 2014, ko je najprej usmerjal nekatere največje stranke AWS k najučinkovitejši in razširljivi uporabi storitev AWS, kasneje pa se je osredotočil na AI/ML s poudarkom na računalniškem vidu. Trenutno je obseden z pridobivanjem informacij iz dokumentov.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/specify-and-extract-information-from-documents-using-the-new-queries-feature-in-amazon-texttract/
- "
- 000
- 10
- 100
- 20 let
- 2022
- O meni
- pridobiti
- čez
- zdravilo
- Sprejetje
- AI
- vsi
- Čeprav
- Amazon
- znesek
- Analiza
- analitika
- API
- uporaba
- april
- avtomatizirati
- Na voljo
- AWS
- Banka
- postanejo
- Začetek
- Prednosti
- BEST
- najboljše prakse
- Big Podatki
- Block
- knjige
- meja
- Building
- poslovni
- california
- klic
- Kartice
- primeri
- izzivi
- šef
- izvršni direktor
- Izberite
- mesto
- Cloud
- Koda
- Stolpec
- kombinacija
- Skupno
- kompleksna
- zaupanje
- Konzole
- Zabojniki
- Vsebuje
- Core
- bi
- Covid-19
- Pandemija COVID-19
- Trenutna
- Trenutno
- po meri
- stranka
- Stranke, ki so
- datum
- Podatkovna analiza
- opisano
- razvoju
- naprave
- drugačen
- digitalni
- digitalno
- neposredno
- razpravlja
- Dokumenti
- Ne
- enostavno
- Učinkovito
- učinkovite
- elementi
- Inženiring
- zlasti
- Primer
- izvršni
- izkušnje
- eksponentno
- Izvlečki
- Feature
- Fiction
- Področja
- Slika
- prva
- prilagodljivost
- Osredotočite
- osredotočena
- po
- obrazec
- format
- Obrazci
- je pokazala,
- FRAME
- polno
- funkcionalnost
- splošno
- GitHub
- veliko
- več
- Glava
- pomoč
- Pomaga
- visoka
- Kako
- Kako
- HTTPS
- identificirati
- slika
- izvajati
- implicirano
- izboljšanje
- vključujejo
- vključuje
- Vključno
- Povečajte
- povečal
- Industrija
- Podatki
- inovativne
- vhod
- zavarovanje
- obresti
- IT
- pridružil
- Ključne
- tipke
- jezik
- velika
- Največji
- vodi
- učenje
- Stopnja
- light
- vrstica
- Seznam
- obremenitev
- lokalna
- kraj aktivnosti
- stroj
- strojno učenje
- velika
- upravljanje
- upravitelj
- ročno
- Proizvajalec
- kartiranje
- marec
- ujemanje
- Material
- zapadlosti
- medicinski
- član
- ML
- Mobilni
- mobilne naprave
- Model
- modeli
- več
- Najbolj
- več
- Imena
- naravna
- prenosnik
- Opombe
- Številka
- pridobljeni
- ponudba
- Ponudbe
- Častnik
- Delovanje
- operacije
- Da
- organizacije
- Ostalo
- Pandemija
- Plačajte
- Plačilo
- Plačila
- PC
- Platforme
- mogoče
- močan
- , ravnateljica
- Postopek
- obravnavati
- Izdelek
- produktivnost
- Izdelki
- nepremičnine
- kakovost
- vprašanje
- hitro
- reading
- prejeti
- Priporočamo
- Razmerja
- pomembno
- zahteva
- Odgovor
- Rezultati
- vrne
- pregleda
- ROBERT
- Varnost
- razširljive
- Lestvica
- SDK
- varnost
- Brez strežnika
- Storitev
- Storitve
- nastavitev
- pomemben
- Silver
- Enostavno
- spletna stran
- pametne telefone
- Rešitev
- rešitve
- nekaj
- specialist
- Šport
- standardna
- začel
- začne
- Država
- Izjave
- Status
- shranjevanje
- zgodbe
- strukturirano
- sistem
- sistemi
- skupina
- tehnični
- Tehnologije
- svet
- skozi
- čas
- orodja
- vrh
- Teme
- usposabljanje
- Potovanje
- tv
- us
- uporaba
- Uporabniki
- uporabiti
- Uporaben
- Cepivo
- raznolikost
- Vizija
- Kaj
- Kaj je
- WHO
- zmago
- v
- brez
- besede
- deluje
- svet
- X
- leto
- let