Amazonovo besedilo je storitev strojnega učenja (ML), ki samodejno izvleče besedilo, rokopis in podatke iz skeniranih dokumentov. Poizvedbe je funkcija, ki vam omogoča, da z uporabo naravnega jezika izvlečete določene informacije iz različnih, kompleksnih dokumentov. Poizvedbe po meri omogoča samopostrežno prilagoditev funkcije poizvedb za nestandardne dokumente, specifične za vaše podjetje, kot so pogodbe o samodejnem posojanju, čeki in plačilni izpiski. S prilagoditvijo funkcije za prepoznavanje edinstvenih izrazov, struktur in ključnih informacij, značilnih za te vrste dokumentov, lahko zadovoljite svoje potrebe po nadaljnji obdelavi z večjo natančnostjo in minimalnim človeškim posredovanjem. Poizvedbe po meri je enostavno integrirati v vaš obstoječi cevovod Texttract in še naprej imate koristi od popolnoma upravljanih funkcij inteligentne obdelave dokumentov Amazon Texttract, ne da bi morali vlagati v strokovnost ML ali upravljanje infrastrukture.
V tej objavi prikazujemo, kako lahko poizvedbe po meri natančno izvlečejo podatke iz pregledov, ki so zapleteni, nestandardni dokumenti. Poleg tega razpravljamo o prednostih poizvedb po meri in delimo najboljše prakse za učinkovito uporabo te funkcije.
Pregled rešitev
Ko začnete z novim primerom uporabe, lahko ocenite, kako se poizvedbe po besedilu obnesejo na vaših dokumentih, tako da se pomaknete na Konzola za izvleček besedila in uporabo predstavitve Analyze Document ali Bulk Document Uploader. Nanašati se na Najboljše prakse za poizvedbe za osnutke poizvedb, ki veljajo za vaš primer uporabe. Če ugotovite napake v odgovorih na poizvedbo zaradi narave vaših poslovnih dokumentov, lahko uporabite poizvedbe po meri za izboljšanje natančnosti. V nekaj urah lahko svoje vzorčne dokumente označite z uporabo Konzola za upravljanje AWS in trenirati adapter. Adapterji so komponente, ki se priklopijo na vnaprej pripravljen model globokega učenja Amazon Texttract in prilagodijo njegov izhod na podlagi vaših označenih dokumentov. Adapter lahko uporabite za sklepanje tako, da posredujete identifikator adapterja kot dodaten parameter v Analizirajte poizvedbe dokumentov API zahteva.
Poglejmo, kako Poizvedbe po meri lahko izboljša natančnost ekstrakcije v zahtevnem scenariju v realnem svetu, kot je ekstrakcija podatkov iz čekov. Glavni izziv pri obdelavi čekov izhaja iz njihove visoke stopnje variacije glede na vrsto (npr. osebni ali blagajniški čeki), finančno institucijo in državo (npr. format vrstice MICR). . Te različice lahko vključujejo navedbo imena prejemnika plačila, zneska v številkah in besedah, datuma in podpisa. Prepoznavanje in prilagajanje tem variacijam je lahko zapletena naloga med ekstrakcijo podatkov. Za izboljšanje ekstrakcije podatkov organizacije pogosto uporabljajo postopke ročnega preverjanja in validacije, kar poveča stroške in čas postopka ekstrakcije.
Poizvedbe po meri obravnavajo te izzive tako, da vam omogočajo, da prilagodite vnaprej usposobljene funkcije poizvedb za različne različice preverjanj. Prilagoditev vnaprej usposobljene funkcije vam pomaga doseči visoko natančnost ekstrakcije podatkov za določeno vrsto postavitev, ki jih obdelujete.
V našem primeru uporabe želi finančna institucija iz čeka izvleči naslednja polja: ime prejemnika plačila, ime plačnika, številko računa, številko usmerjanja, znesek plačila (v številkah), znesek plačila (z besedami), številko čeka, datum in beležka.
Raziščimo postopek generiranja adapterja (komponente, ki prilagodi izhod) za obdelavo čekov. Adapterje lahko ustvarite prek konzole ali programsko prek API-ja. Ta objava podrobno opisuje izkušnjo s konzolo; če pa želite programsko ustvariti adapter, si oglejte vzorce kode v custom-queries-checks-blog.ipynb Beležnica Jupyter (2. možnost).
Postopek generiranja adapterja vključuje pet korakov na visoki ravni: ustvarite adapter, naložite vzorčne dokumente, označite dokumente, usposobite adapter in ocenite meritve zmogljivosti.
Ustvarite adapter
Na konzoli Amazon Texttract ustvarite nov adapter tako, da podate ime, opis in neobvezne oznake, ki vam lahko pomagajo prepoznati adapter. Imate možnost omogočiti samodejne posodobitve, ki Amazonu Texttract omogočajo, da posodobi vaš adapter, ko se osnovna funkcija poizvedb posodobi z novimi zmogljivostmi.
Ko je adapter ustvarjen, boste videli stran s podrobnostmi adapterja s seznamom korakov v Kako deluje razdelek. Ta razdelek bo aktiviral vaše naslednje korake, ko jih boste dokončali zaporedoma.
Naložite vzorčne dokumente
Začetna faza pri ustvarjanju adapterja vključuje skrbno izbiro ustreznega niza vzorčnih dokumentov za opombe, usposabljanje in testiranje. Imamo možnost samodejne razdelitve dokumentov v nabore podatkov za testiranje in usposabljanje; vendar za ta postopek nabor podatkov ročno razdelimo.
Pomembno je omeniti, da lahko sestavite adapter s samo petimi testnimi in petimi učnimi vzorci, vendar je nujno zagotoviti, da je ta vzorčni niz raznolik in reprezentativen za delovno obremenitev, ki se pojavlja v proizvodnem okolju.
Za to vadnico smo pripravili vzorčne nabore podatkov o preverjanju, ki jih lahko prenesi. Naš nabor podatkov vključuje različice, kot so osebni čeki, blagajniški čeki, stimulativni čeki in čeki, vdelani v plačilne položnice. Vključili smo tudi rokopisne in tiskane čeke; skupaj z različicami v poljih, kot je vrstica beležke.
Označite vzorčne dokumente
Kot naslednji korak vzorčne dokumente označite tako, da prek konzole povežete poizvedbe z njihovimi ustreznimi odgovori. Opombo lahko začnete s samodejnim ali ročnim označevanjem. Samodejno označevanje uporablja Amazon Texttract Queries za predhodno označevanje nabora podatkov. Priporočamo uporabo samodejnega označevanja, da pospešite postopek opombe.
Za ta primer uporabe obdelave preverjanj uporabljamo naslednje poizvedbe. Če vaš primer uporabe vključuje druge vrste dokumentov, glejte Najboljše prakse za poizvedbe za osnutke poizvedb, ki veljajo za vaš primer uporabe.
- Kdo je prejemnik plačila?
- Kaj je ček #?
- Kakšen je naslov prejemnika plačila?
- Kateri datum je?
- Kaj je račun #?
- Kakšen je znesek čeka v besedah?
- Kakšno je ime računa/plačnika/ime predala?
- Kolikšen je znesek v dolarjih?
- Kakšno je ime banke/ime trasata?
- Kakšna je usmerjevalna številka banke?
- Kaj je linija MICR?
- Kaj je beležka?
Ko je postopek samodejnega označevanja končan, imate možnost pregledati in urediti odgovore, podane za vsak dokument. Izberite Začnite pregledovati da pregledate opombe k vsaki sliki.
Če odgovor na poizvedbo manjka ali je napačen, lahko odgovor dodate ali uredite tako, da narišete omejevalni okvir ali odgovor vnesete ročno.
Da bi pospešili vaš prehod, smo vnaprej označili vzorce čekov, ki jih lahko kopirate v svoj račun AWS. Zaženite custom-queries-checks-blog.ipynb Jupyter zvezek znotraj Vzorci kode Amazon Texttract knjižnico za samodejno posodabljanje vaših opomb.
Usposobite adapter
Ko pregledate vse vzorčne dokumente, da zagotovite točnost opomb, lahko začnete postopek usposabljanja adapterja. Med tem korakom morate določiti mesto shranjevanja, kamor naj se adapter shrani. Trajanje procesa usposabljanja se bo razlikovalo glede na velikost nabora podatkov, uporabljenega za usposabljanje. API za usposabljanje je mogoče priklicati tudi programsko, če se odločite za uporabo orodja za opombe po lastni izbiri in API-ju posredujete ustrezne vhodne datoteke. Nanašati se na Poizvedbe po meri Za več podrobnosti.
Ocenite meritve uspešnosti
Ko adapter konča usposabljanje, lahko ocenite njegovo delovanje s preučevanjem meritev ocenjevanja, kot je npr Ocena F1, natančnost in odpoklic. Te meritve lahko analizirate skupaj ali na podlagi posameznega dokumenta. Z uporabo našega nabora podatkov o vzorčnih preverjanjih boste videli, da se je metrika natančnosti (ocena F1) izboljšala s 68 % na 92 % z usposobljenim adapterjem.
Poleg tega lahko preizkusite izpis adapterja na novih dokumentih tako, da izberete Poskusi z adapterjem.
Po ocenjevanju se lahko odločite za izboljšanje zmogljivosti adapterja bodisi z vključitvijo dodatnih vzorčnih dokumentov v nabor podatkov za usposabljanje bodisi s ponovnim označevanjem dokumentov z rezultati, ki so nižji od vašega praga. Če želite dokumente znova označiti, izberite Preverite dokumente na strani s podrobnostmi adapterja izberite dokument in izberite Pregled opomb.
Programsko preizkusite adapter
Ko je usposabljanje uspešno opravljeno, lahko zdaj adapter uporabljate v svojem AnalyzeDocument API klici. Zahteva API je podobna zahtevi Amazon Texttract Queries API, z dodatkom AdaptersConfig
predmet.
Zaženete lahko naslednjo vzorčno kodo ali pa jo zaženete neposredno v custom-queries-checks-blog.ipynb Jupyterjev zvezek. Vzorčni zvezek vsebuje tudi kodo za primerjavo rezultatov med poizvedbami Amazon Texttract in poizvedbami Amazon Texttract Custom Queries.
Ustvari AdaptersConfig objekt z ID-jem adapterja in različico adapterja ter po želji vključite strani, za katere želite, da se adapter uporabi:
Ustvarite QueriesConfig
objekt s poizvedbami, s katerimi ste usposobili adapter, in pokličite API Amazon Texttract. Upoštevajte, da lahko vključite tudi dodatne poizvedbe, za katere adapter ni bil usposobljen. Amazon Texttract bo za ta vprašanja samodejno uporabil funkcijo poizvedb in ne poizvedb po meri, s čimer vam bo zagotovil prilagodljivost uporabe poizvedb po meri samo tam, kjer je to potrebno.
Na koncu rezultate tabelariziramo za boljšo berljivost:
Čiščenje
Za čiščenje virov izvedite naslednje korake:
- Na konzoli Amazon Texttract izberite Poizvedbe po meri v podoknu za krmarjenje.
- Izberite adapter, ki ga želite izbrisati.
- Izberite Brisanje.
Upravljanje adapterja
Svoje adapterje lahko redno izboljšujete tako, da ustvarite nove različice predhodno ustvarjenega adapterja. Če želite ustvariti novo različico vmesnika, dodate nove vzorčne dokumente obstoječemu vmesniku, označite dokumente in izvedete usposabljanje. Istočasno lahko vzdržujete več različic vmesnika za uporabo v svojih razvojnih cevovodih. Če želite nemoteno posodobiti svoje adapterje, ne spreminjajte ali brišite svojih Preprosta storitev shranjevanja Amazon (Amazon S3), kjer so shranjene datoteke, potrebne za ustvarjanje adapterja.
Najboljše prakse
Ko v svojih dokumentih uporabljate poizvedbe po meri, glejte Najboljše prakse za poizvedbe po meri Amazon Texttract za dodatne premisleke in najboljše prakse.
Prednosti poizvedb po meri
Poizvedbe po meri ponujajo naslednje prednosti:
- Izboljšano razumevanje dokumentov – S svojo zmožnostjo ekstrahiranja in normaliziranja podatkov z visoko natančnostjo poizvedbe po meri zmanjšajo odvisnost od ročnih pregledov in revizij ter vam omogočajo, da ustvarite bolj zanesljivo avtomatizacijo za vaše inteligentne delovne tokove obdelave dokumentov.
- Hitrejši čas za vrednotenje – Ko naletite na nove vrste dokumentov, kjer potrebujete višjo natančnost, lahko uporabite poizvedbe po meri za samopostrežno generiranje adapterja v nekaj urah. Ni vam treba čakati na vnaprej usposobljeno posodobitev modela, ko v svojem delovnem toku naletite na nove vrste dokumentov ali različice obstoječih. Imate popoln nadzor nad svojim cevovodom in ni vam treba biti odvisen od Amazon Texttract za podporo vaših novih vrst dokumentov.
- Zasebnost podatkov – Poizvedbe po meri ne hranijo ali uporabljajo podatkov, uporabljenih pri generiranju adapterjev za izboljšanje naših splošnih vnaprej usposobljenih modelov, ki so na voljo vsem strankam. Adapter je omejen na račun stranke ali druge račune, ki jih izrecno določi stranka, kar zagotavlja, da lahko samo taki računi dostopajo do izboljšav, izvedenih z uporabo podatkov stranke.
- Udobje – Poizvedbe po meri zagotavljajo popolnoma upravljano izkušnjo sklepanja, podobno poizvedbam. Usposabljanje za adapter je brezplačno in plačali boste samo za sklepanje. Poizvedbe po meri vam prihranijo režijske stroške in stroške usposabljanja in delovanja modelov po meri.
zaključek
V tej objavi smo razpravljali o prednostih poizvedb po meri, pokazali, kako lahko poizvedbe po meri natančno izvlečejo podatke iz preverjanj, in delili najboljše prakse za učinkovito uporabo te funkcije. V samo nekaj urah lahko s konzolo ustvarite adapter in ga uporabite v API-ju AnalyzeDocument za svoje potrebe po ekstrakciji podatkov. Za več informacij glejte Poizvedbe po meri.
O avtorjih
Šibin Michaelraj je višji produktni vodja pri ekipi Amazon Texttract. Osredotočen je na izdelavo izdelkov, ki temeljijo na AI/ML, za stranke AWS. Navdušen je nad tem, da strankam pomaga rešiti njihove kompleksne poslovne izzive z uporabo tehnologij AI in ML. V prostem času uživa v teku, spremljanju podcastov in izpopolnjevanju svojih amaterskih teniških veščin.
Keith Mascarenhas je starejši arhitekt rešitev pri servisni ekipi Amazon Texttract. Navdušen je nad reševanjem poslovnih problemov v velikem obsegu z uporabo strojnega učenja in trenutno pomaga našim strankam po vsem svetu avtomatizirati njihovo obdelavo dokumentov, da dosežejo hitrejši čas do trga z nižjimi operativnimi stroški.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :ima
- : je
- :ne
- :kje
- $GOR
- 1
- 10
- 100
- 17
- 36
- 7
- a
- sposobnost
- O meni
- pospeši
- dostop
- Račun
- računi
- natančnost
- natančno
- Doseči
- prilagajanje
- dodajte
- Poleg tega
- Dodatne
- Naslov
- naslovi
- proti
- AI
- vsi
- omogoča
- skupaj
- Prav tako
- amater
- Amazon
- Amazonovo besedilo
- Amazon Web Services
- znesek
- an
- analizirati
- in
- odgovori
- API
- primerno
- uporabna
- primerno
- SE
- AS
- oceniti
- At
- revizije
- avto
- avtomatizirati
- Samodejno
- samodejno
- Avtomatizacija
- Na voljo
- AWS
- Banka
- temeljijo
- Osnova
- BE
- bilo
- začetek
- koristi
- Prednosti
- BEST
- najboljše prakse
- Boljše
- med
- Pasovi
- izgradnjo
- Building
- poslovni
- vendar
- by
- klic
- poziva
- CAN
- Zmogljivosti
- previdni
- primeru
- izziv
- izzivi
- izziv
- Spremembe
- preveriti
- Pregledi
- izbira
- Izberite
- izbiri
- čiščenje
- Koda
- skupaj
- primerjate
- dokončanje
- Končana
- kompleksna
- komponenta
- deli
- premislekov
- Konzole
- gradnjo
- naprej
- pogodbe
- nadzor
- Ustrezno
- strošek
- stroški
- država
- ustvarjajo
- ustvaril
- Ustvarjanje
- kurirano
- Trenutno
- po meri
- stranka
- Stranke, ki so
- customization
- prilagodite
- datum
- nabor podatkov
- Datum
- globoko
- globoko učenje
- Stopnja
- demo
- Odvisno
- opis
- imenovani
- Podrobnosti
- Razvoj
- drugačen
- neposredno
- razpravlja
- razpravljali
- razne
- do
- dokument
- Dokumenti
- ne
- Dollar
- dont
- Osnutek
- risanje
- 2
- trajanje
- med
- e
- vsak
- lahka
- učinkovito
- bodisi
- vgrajeni
- zaposleni
- omogočajo
- omogoča
- omogočanje
- okrepi
- zagotovitev
- zagotoviti
- V
- okolje
- napake
- bistvena
- oceniti
- Ocena
- preučiti
- Preučevanje
- razburjen
- obstoječih
- Stroški
- izkušnje
- strokovno znanje
- izrecno
- raziskuje
- ekstrakt
- pridobivanje
- Izvlečki
- f1
- hitreje
- Feature
- Lastnosti
- Nekaj
- Področja
- datoteke
- finančna
- finančna institucija
- pet
- prilagodljivost
- osredotočena
- po
- za
- format
- brezplačno
- iz
- v celoti
- splošno
- ustvarjajo
- ustvarila
- ustvarjajo
- generacija
- GitHub
- več
- Imajo
- ob
- he
- pomoč
- pomoč
- Pomaga
- visoka
- na visoki ravni
- več
- njegov
- URE
- Kako
- Vendar
- HTML
- http
- HTTPS
- človeškega
- ID
- identifikator
- identificirati
- if
- slika
- uvoz
- Pomembno
- izboljšanje
- Izboljšave
- in
- vključujejo
- vključeno
- vključuje
- vključujoč
- Poveča
- Podatki
- Infrastruktura
- začetna
- sproži
- vhod
- namestitev
- ustanova
- integrirati
- Inteligentna
- Inteligentna obdelava dokumentov
- intervencije
- v
- Invest
- sklican
- IT
- ITS
- jpg
- samo
- Ključne
- label
- označevanje
- jezik
- učenje
- posojanje
- vzvod
- Knjižnica
- kot
- Limited
- vrstica
- Seznam
- kraj aktivnosti
- nižje
- stroj
- strojno učenje
- je
- vzdrževati
- Znamka
- upravlja
- upravljanje
- upravitelj
- Način
- Navodilo
- ročno
- Tržna
- Srečati
- Memo
- meritev
- Meritve
- minimalna
- manjka
- ML
- Model
- modeli
- več
- več
- Ime
- naravna
- Narava
- krmarjenje
- ostalo
- Nimate
- potrebna
- potrebe
- Novo
- Naslednja
- prenosnik
- zdaj
- Številka
- številke
- predmet
- of
- Ponudbe
- pogosto
- on
- tiste
- samo
- deluje
- operativno
- Možnost
- or
- organizacije
- Ostalo
- naši
- izhod
- več
- lastne
- Stran
- strani
- podokno
- parameter
- mimo
- Podaje
- strastno
- Plačajte
- Plačilo
- Izvedite
- performance
- opravlja
- Osebni
- faza
- kosov
- plinovod
- umestitve
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Vtič
- Poddaje
- Prispevek
- vaje
- Precision
- prej
- primarni
- Težave
- Postopek
- Procesi
- obravnavati
- Izdelek
- produktni vodja
- proizvodnja
- Izdelki
- če
- zagotavlja
- zagotavljanje
- poizvedbe
- vprašanja
- resnični svet
- priznajo
- prepoznavanje
- Priporočamo
- Zmanjšana
- zmanjšuje
- glejte
- rafiniranje
- redno
- pomembno
- zanesljiv
- odvisnost
- predstavnik
- zahteva
- viri
- Odgovor
- odgovorov
- Rezultati
- ohranijo
- pregleda
- Pregledal
- Mnenja
- usmerjanje
- Run
- tek
- shranjena
- Lestvica
- Scenarij
- rezultat
- brez težav
- Oddelek
- glej
- izbor
- Samopostrežba
- Storitev
- Storitve
- nastavite
- Delite s prijatelji, znanci, družino in partnerji :-)
- deli
- shouldnt
- Prikaži
- je pokazala,
- Podpis
- Podoben
- Enostavno
- hkrati
- Velikosti
- spretnosti
- rešitve
- SOLVE
- Reševanje
- specifična
- po delih
- Začetek
- Izjave
- Korak
- Koraki
- dražljaj
- spodbujevalni pregledi
- shranjevanje
- strukture
- Uspešno
- taka
- podpora
- Naloga
- skupina
- Tehnologije
- Pogoji
- Test
- Testiranje
- besedilo
- kot
- da
- O
- njihove
- Njih
- s tem
- te
- ta
- Prag
- skozi
- čas
- do
- orodje
- Vlak
- usposobljeni
- usposabljanje
- TRP
- tuning
- Navodila
- tip
- Vrste
- osnovni
- edinstven
- Nadgradnja
- posodobljeno
- posodobitve
- uporaba
- primeru uporabe
- uporablja
- uporabo
- uporablja
- Uporaben
- potrjevanje
- raznolikost
- različno
- Preverjanje
- različica
- različice
- preko
- Počakaj
- walkthrough
- želeli
- želi
- način..
- we
- web
- spletne storitve
- Kaj
- Kaj je
- kdaj
- ki
- WHO
- Wikipedia
- bo
- z
- v
- brez
- besede
- potek dela
- delovnih tokov
- po vsem svetu
- Napačen
- Vi
- Vaša rutina za
- zefirnet
- Zip