Text Amazon este un serviciu de învățare automată (ML) care extrage automat text, scris de mână și date din documentele scanate. Interogări este o caracteristică care vă permite să extrageți informații specifice din documente variate și complexe folosind limbajul natural. Interogări personalizate vă oferă o modalitate de a personaliza funcția Interogări pentru documentele nestandardizate specifice companiei dvs., cum ar fi contracte de împrumut automat, cecuri și extrase de plată, într-un mod de autoservire. Prin personalizarea caracteristicii pentru a recunoaște termenii unici, structurile și informațiile cheie specifice acestor tipuri de documente, vă puteți satisface nevoile de procesare din aval cu o precizie mai mare și cu intervenție umană minimă. Custom Queries este ușor de integrat în pipeline-ul dvs. Textract existent și continuați să beneficiați de funcțiile de procesare inteligentă a documentelor complet gestionate ale Amazon Textract, fără a fi nevoie să investiți în expertiză ML sau în gestionarea infrastructurii.
În această postare, arătăm cum interogările personalizate pot extrage cu acuratețe date din verificări care sunt documente complexe, nestandard. În plus, discutăm despre beneficiile interogărilor personalizate și împărtășim cele mai bune practici pentru utilizarea eficientă a acestei funcții.
Prezentare generală a soluțiilor
Când începeți cu un nou caz de utilizare, puteți evalua modul în care se comportă Interogările Text asupra documentelor dvs. navigând la Consolă de text și utilizând Demo Analiză document sau Încărcătorul de documente în bloc. A se referi la Cele mai bune practici pentru interogări pentru a redacta interogări aplicabile cazului dvs. de utilizare. Dacă identificați erori în răspunsurile la interogare din cauza naturii documentelor dvs. comerciale, puteți utiliza Interogări personalizate pentru a îmbunătăți acuratețea. În câteva ore, puteți să adnotați documentele eșantionului folosind Consola de administrare AWS și antrenează un adaptor. Adaptoarele sunt componente care se conectează la modelul de deep learning pre-antrenat Amazon Texttract, personalizându-i rezultatul pe baza documentelor adnotate. Puteți utiliza adaptorul pentru inferență, trecând identificatorul adaptorului ca parametru suplimentar la Analizați interogările documentelor Solicitare API.
Să examinăm cum Interogări personalizate poate îmbunătăți acuratețea extracției într-un scenariu provocator din lumea reală, cum ar fi extragerea datelor din controale. Principala provocare la procesarea cecurilor provine din gradul lor ridicat de variație în funcție de tip (de exemplu, cecuri personale sau de casierie), instituție financiară și țară (de exemplu, formatul liniei MICR). . Aceste variații pot include plasarea numelui beneficiarului, suma în cifre și cuvinte, data și semnătura. Recunoașterea și adaptarea la aceste variații poate fi o sarcină complexă în timpul extragerii datelor. Pentru a îmbunătăți extracția datelor, organizațiile folosesc adesea procese manuale de verificare și validare, ceea ce crește costul și timpul procesului de extracție.
Interogările personalizate abordează aceste provocări, permițându-vă să personalizați funcțiile de interogări pre-instruite pentru diferitele variante de verificări. Personalizarea caracteristicii pre-antrenate vă ajută să obțineți o precizie ridicată a extragerii datelor pentru varietatea specifică de machete pe care le procesați.
În cazul nostru de utilizare, o instituție financiară dorește să extragă următoarele câmpuri dintr-un cec: numele beneficiarului, numele plătitorului, numărul contului, numărul de rutare, suma plății (în cifre), suma plății (în cuvinte), numărul cecului, data și notificare.
Să explorăm procesul de generare a unui adaptor (componentă care personalizează ieșirea) pentru procesarea verificărilor. Adaptoarele pot fi create prin consolă sau programatic prin API. Această postare detaliază experiența consolei; cu toate acestea, dacă doriți să creați adaptorul în mod programatic, consultați exemplele de cod din fișierul custom-queries-checks-blog.ipynb Notebook Jupyter (Opțiunea 2).
Procesul de generare a adaptorului implică cinci pași de nivel înalt: creați un adaptor, încărcați documente mostre, adnotați documentele, antrenați adaptorul și evaluați valorile de performanță.
Creați un adaptor
Pe consola Amazon Texttract, creați un nou adaptor furnizând un nume, o descriere și etichete opționale care vă pot ajuta să identificați adaptorul. Aveți opțiunea de a activa actualizările automate, ceea ce permite Amazon Texttract să vă actualizeze adaptorul atunci când caracteristica interogări de bază este actualizată cu noi capabilități.
După ce adaptorul este creat, veți vedea o pagină cu detaliile adaptorului cu o listă de pași în Abordarea Noastră secțiune. Această secțiune va activa următorii pași pe măsură ce îi finalizați secvenţial.
Încărcați exemple de documente
Faza inițială în generarea adaptorului implică selecția atentă a unui set adecvat de documente eșantion pentru adnotare, instruire și testare. Avem opțiunea de a împărți automat documentele în seturi de date de testare și antrenament; cu toate acestea, pentru acest proces, împărțim manual setul de date.
Este important să rețineți că puteți construi un adaptor cu cinci eșantioane de test și cinci de antrenament, dar este esențial să vă asigurați că acest set de mostre este divers și reprezentativ pentru volumul de lucru întâlnit într-un mediu de producție.
Pentru acest tutorial, am pregătit seturi de date de verificare eșantion pe care le puteți Descarca. Setul nostru de date include variații, cum ar fi cecuri personale, cecuri de casierie, cecuri de stimulare și cecuri încorporate în taloanele de plată. Am inclus și cecuri scrise de mână și tipărite; împreună cu variații în câmpuri, cum ar fi linia de note.
Adnotă documente eșantion
Ca un pas următor, adnotați documentele eșantion prin asocierea interogărilor cu răspunsurile lor corespunzătoare prin intermediul consolei. Puteți iniția adnotarea prin etichetare automată sau etichetare manuală. Etichetarea automată utilizează Amazon Texttract Queries pentru a preeticheta setul de date. Vă recomandăm să utilizați etichetarea automată pentru a accelera procesul de adnotare.
Pentru acest caz de utilizare a procesării verificărilor, folosim următoarele interogări. Dacă cazul dvs. de utilizare implică alte tipuri de documente, consultați Cele mai bune practici pentru interogări pentru a redacta interogări aplicabile cazului dvs. de utilizare.
- Cine este beneficiarul?
- Care este numărul de cec?
- Care este adresa beneficiarului?
- Care este data?
- Care este contul #?
- Care este suma cecului în cuvinte?
- Care este numele contului/platitorului/tragerului?
- Care este suma în dolari?
- Care este numele băncii/numele trasului?
- Care este numărul de rutare a băncii?
- Ce este linia MICR?
- Care este nota?
Când procesul de etichetare automată este finalizat, aveți opțiunea de a revizui și de a modifica răspunsurile furnizate pentru fiecare document. Alege Începeți să revizuiți pentru a revizui adnotările pentru fiecare imagine.
Dacă răspunsul la o interogare lipsește sau este greșit, puteți adăuga sau edita răspunsul fie desenând o casetă de delimitare, fie introducând răspunsul manual.
Pentru a vă accelera procedura, am pre-adnotat eșantioanele de cecuri pe care să le copiați în contul dvs. AWS. Rulați custom-queries-checks-blog.ipynb Caietul Jupyter în cadrul Exemple de cod Amazon Texttract bibliotecă pentru a vă actualiza automat adnotările.
Antrenați adaptorul
După ce ați examinat toate exemplele de documente pentru a asigura acuratețea adnotărilor, puteți începe procesul de instruire a adaptorului. În timpul acestui pas, trebuie să desemnați o locație de stocare în care ar trebui să fie salvat adaptorul. Durata procesului de instruire va varia în funcție de dimensiunea setului de date utilizat pentru instruire. API-ul de antrenament poate fi, de asemenea, invocat programatic dacă alegeți să utilizați un instrument de adnotare la alegere și să transmiteți fișierele de intrare relevante către API. A se referi la Interogări personalizate pentru mai multe detalii.
Evaluați valorile de performanță
După ce adaptorul a finalizat instruirea, îi puteți evalua performanța examinând valorile de evaluare, cum ar fi Scor F1, precizie și reamintire. Puteți analiza aceste valori fie colectiv, fie pe bază de document. Folosind setul nostru de date de verificări eșantion, veți vedea că măsurarea preciziei (scorul F1) se îmbunătățește de la 68% la 92% cu adaptorul antrenat.
În plus, puteți testa ieșirea adaptorului pe documente noi alegând Încercați adaptorul.
În urma evaluării, puteți alege să îmbunătățiți performanța adaptorului fie încorporând exemple de documente suplimentare în setul de date de antrenament, fie prin re-adnotarea documentelor cu scoruri mai mici decât pragul dvs. Pentru a re-adnota documentele, alegeți Verificați documentele pe pagina de detalii adaptor, selectați documentul și alegeți Examinați adnotările.
Testați programul adaptorul
Cu antrenamentul finalizat cu succes, acum puteți utiliza adaptorul în dvs Analizați documentul Apeluri API. Solicitarea API este similară cu cererea API Amazon Text Queries, cu adăugarea AdaptersConfig
obiect.
Puteți rula următorul exemplu de cod sau îl puteți rula direct în custom-queries-checks-blog.ipynb Caietul Jupyter. Exemplul de blocnotes oferă, de asemenea, cod pentru a compara rezultatele între Interogările Amazon Texttract și Interogările personalizate Amazon Texttract.
Creați o AdaptersConfig obiect cu ID-ul adaptorului și versiunea adaptorului și includeți opțional paginile la care doriți să fie aplicat adaptorul:
Crearea unei QueriesConfig
obiect cu interogările cu care ați antrenat adaptorul și apelați API-ul Amazon Texttract. Rețineți că puteți include și interogări suplimentare pentru care adaptorul nu a fost instruit. Amazon Texttract va folosi automat caracteristica Interogări pentru aceste întrebări și nu Interogări personalizate, oferindu-vă astfel flexibilitatea de a utiliza Interogări personalizate numai acolo unde este necesar.
În cele din urmă, ne tabelăm rezultatele pentru o mai bună lizibilitate:
A curăța
Pentru a curăța resursele, parcurgeți următorii pași:
- Pe consola Amazon Texttract, alegeți Interogări personalizate în panoul de navigare.
- Selectați adaptorul pe care doriți să îl ștergeți.
- Alege Șterge.
Managementul adaptorului
Vă puteți îmbunătăți în mod regulat adaptoarele prin crearea de noi versiuni ale unui adaptor generat anterior. Pentru a crea o nouă versiune a unui adaptor, adăugați noi documente eșantion la un adaptor existent, etichetați documentele și efectuați instruire. Puteți menține simultan mai multe versiuni ale unui adaptor pentru a fi utilizate în conductele de dezvoltare. Pentru a vă actualiza adaptoarele fără probleme, nu faceți modificări sau ștergeți Serviciul Amazon de stocare simplă (Amazon S3) în care sunt salvate fișierele necesare pentru generarea adaptorului.
Cele mai bune practici
Când utilizați interogări personalizate în documentele dvs., consultați Cele mai bune practici pentru interogări personalizate Amazon Text pentru considerații suplimentare și cele mai bune practici.
Beneficiile interogărilor personalizate
Interogările personalizate oferă următoarele beneficii:
- Înțelegerea îmbunătățită a documentelor – Prin capacitatea sa de a extrage și de a normaliza datele cu o acuratețe ridicată, Interogările personalizate reduce dependența de revizuiri manuale și audituri și vă permite să construiți o automatizare mai fiabilă pentru fluxurile dvs. de lucru inteligente de procesare a documentelor.
- Timp mai rapid de valorificare – Când întâlniți noi tipuri de documente în care aveți nevoie de o precizie mai mare, puteți utiliza Interogări personalizate pentru a genera un adaptor într-un mod de autoservire în câteva ore. Nu trebuie să așteptați o actualizare a modelului pre-antrenată atunci când întâlniți noi tipuri de documente sau variații ale celor existente în fluxul dvs. de lucru. Aveți control complet asupra conductei dvs. și nu trebuie să depindeți de Amazon Texttract pentru a vă sprijini noile tipuri de documente.
- confidențialitatea datelor – Custom Queries nu reține și nu folosește datele folosite în generarea adaptoarelor pentru a îmbunătăți modelele noastre generale pregătite, disponibile pentru toți clienții. Adaptorul este limitat la contul clientului sau la alte conturi desemnate în mod explicit de către client, asigurându-se că numai astfel de conturi pot accesa îmbunătățirile aduse folosind datele clientului.
- confort –Custom Queries oferă o experiență de inferență complet gestionată similară cu Interogările. Instruirea adaptorului este gratuită și veți plăti doar pentru deducere. Interogările personalizate vă economisesc cheltuielile generale și cheltuielile de instruire și operare a modelelor personalizate.
Concluzie
În această postare, am discutat despre beneficiile interogărilor personalizate, am arătat cum interogările personalizate pot extrage cu acuratețe date din verificări și am împărtășit cele mai bune practici pentru utilizarea eficientă a acestei funcții. În doar câteva ore, puteți crea un adaptor folosind consola și îl puteți utiliza în API-ul AnalyzeDocument pentru nevoile dvs. de extragere a datelor. Pentru mai multe informații, consultați Interogări personalizate.
Despre autori
Shibin Michaelraj este manager de produs senior cu echipa Amazon Texttract. El se concentrează pe construirea de produse bazate pe AI/ML pentru clienții AWS. El este încântat să îi ajute pe clienți să-și rezolve provocările complexe de afaceri prin valorificarea tehnologiilor AI și ML. În timpul liber, îi place să alerge, să se acorde la podcasturi și să-și perfecționeze abilitățile de tenis de amatori.
Keith Mascarenhas este un arhitect senior de soluții cu echipa de service Amazon Texttract. Este pasionat de rezolvarea problemelor de afaceri la scară, folosind învățarea automată și, în prezent, ajută clienții noștri din întreaga lume să-și automatizeze procesarea documentelor pentru a obține un timp de lansare mai rapid pe piață cu costuri operaționale reduse.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :are
- :este
- :nu
- :Unde
- $UP
- 1
- 10
- 100
- 17
- 36
- 7
- a
- capacitate
- Despre Noi
- accelera
- acces
- Cont
- Conturi
- precizie
- precis
- Obține
- de adaptare
- adăuga
- plus
- Suplimentar
- adresa
- adrese
- împotriva
- AI
- TOATE
- permite
- de-a lungul
- de asemenea
- amator
- Amazon
- Text Amazon
- Amazon Web Services
- sumă
- an
- analiza
- și
- răspunsuri
- api
- aplicabil
- aplicat
- adecvat
- SUNT
- AS
- evalua
- At
- audituri
- Auto
- automatizarea
- Automat
- în mod automat
- Automatizare
- disponibil
- AWS
- Bancă
- bazat
- bază
- BE
- fost
- începe
- beneficia
- Beneficiile
- CEL MAI BUN
- Cele mai bune practici
- Mai bine
- între
- Cutie
- construi
- Clădire
- afaceri
- dar
- by
- apel
- apeluri
- CAN
- capacități
- atent
- caz
- contesta
- provocări
- provocare
- Modificări
- verifica
- Verificări
- alegere
- Alege
- alegere
- curat
- cod
- colectiv
- comparaţie
- Completă
- Terminat
- complex
- component
- componente
- Considerații
- Consoleze
- construi
- continua
- contracte
- Control
- Corespunzător
- A costat
- Cheltuieli
- ţară
- crea
- a creat
- Crearea
- curator
- În prezent
- personalizat
- client
- clienţii care
- personalizare
- personaliza
- de date
- seturi de date
- Data
- adânc
- învățare profundă
- Grad
- Demo
- În funcție
- descriere
- desemnat
- detalii
- Dezvoltare
- diferit
- direct
- discuta
- discutat
- diferit
- do
- document
- documente
- face
- Dolar
- Dont
- proiect
- desen
- două
- durată
- în timpul
- e
- fiecare
- uşor
- în mod eficient
- oricare
- încorporat
- angajat
- permite
- permite
- permițând
- spori
- asigura
- asigurare
- intrarea
- Mediu inconjurator
- Erori
- esenţial
- evalua
- evaluare
- examina
- examinator
- excitat
- existent
- cheltuieli
- experienţă
- expertiză
- explicit
- explora
- extrage
- extracţie
- extracte
- f1
- mai repede
- Caracteristică
- DESCRIERE
- puțini
- Domenii
- Fişiere
- financiar
- institutie financiara
- cinci
- Flexibilitate
- concentrat
- următor
- Pentru
- format
- Gratuit
- din
- complet
- General
- genera
- generată
- generator
- generaţie
- GitHub
- mai mare
- Avea
- având în
- he
- ajutor
- ajutor
- ajută
- Înalt
- la nivel înalt
- superior
- lui
- ORE
- Cum
- Totuși
- HTML
- http
- HTTPS
- uman
- ID
- identificator
- identifica
- if
- imagine
- import
- important
- îmbunătăţi
- îmbunătățiri
- in
- include
- inclus
- include
- care încorporează
- Creșteri
- informații
- Infrastructură
- inițială
- iniția
- intrare
- instala
- Instituţie
- integra
- Inteligent
- Procesarea inteligentă a documentelor
- intervenţie
- în
- Investi
- invocat
- IT
- ESTE
- jpg
- doar
- Cheie
- Etichetă
- etichetarea
- limbă
- învăţare
- împrumut
- efectului de pârghie
- Bibliotecă
- ca
- Limitat
- Linie
- Listă
- locaţie
- LOWER
- maşină
- masina de învățare
- făcut
- menține
- face
- gestionate
- administrare
- manager
- manieră
- manual
- manual
- Piață
- Întâlni
- Memo
- metric
- Metrici
- minim
- dispărut
- ML
- model
- Modele
- mai mult
- multiplu
- nume
- Natural
- Natură
- navigând
- Navigare
- Nevoie
- necesar
- nevoilor
- Nou
- următor
- caiet
- acum
- număr
- numere
- obiect
- of
- promoții
- de multe ori
- on
- cele
- afară
- de operare
- operațional
- Opțiune
- or
- organizații
- Altele
- al nostru
- producție
- peste
- propriu
- pagină
- pagini
- pâine
- parametru
- trece
- Care trece
- pasionat
- Plătește
- plată
- Efectua
- performanță
- efectuează
- personal
- fază
- piese
- conducte
- plasare
- Plato
- Informații despre date Platon
- PlatoData
- ștecher
- Podcast-uri
- Post
- practicile
- Precizie
- în prealabil
- primar
- probleme
- proces
- procese
- prelucrare
- Produs
- manager de produs
- producere
- Produse
- prevăzut
- furnizează
- furnizarea
- interogări
- Întrebări
- lumea reală
- recunoaște
- recunoscând
- recomanda
- Redus
- reduce
- trimite
- rafinare
- regulat
- de încredere
- încredere
- reprezentant
- solicita
- Resurse
- răspuns
- răspunsuri
- REZULTATE
- reține
- revizuiască
- revizuite
- Recenzii
- rutare
- Alerga
- funcţionare
- salvate
- Scară
- scenariu
- scor
- perfect
- Secțiune
- vedea
- selecţie
- Autoservire
- serviciu
- Servicii
- set
- Distribuie
- comun
- să
- Arăta
- a arătat
- semnătură
- asemănător
- simplu
- simultan
- Mărimea
- aptitudini
- soluţii
- REZOLVAREA
- Rezolvarea
- specific
- împărţi
- Pornire
- Declarații
- Pas
- paşi
- stimul
- verificări ale stimulului
- depozitare
- structurile
- Reușit
- astfel de
- a sustine
- Sarcină
- echipă
- Tehnologii
- termeni
- test
- Testarea
- a) Sport and Nutrition Awareness Day in Manasia Around XNUMX people from the rural commune Manasia have participated in a sports and healthy nutrition oriented activity in one of the community’s sports ready yards. This activity was meant to gather, mainly, middle-aged people from a Romanian rural community and teach them about the benefits that sports have on both their mental and physical health and on how sporting activities can be used to bring people from a community closer together. Three trainers were made available for this event, so that the participants would get the best possible experience physically and so that they could have the best access possible to correct information and good sports/nutrition practices. b) Sports Awareness Day in Poiana Țapului A group of young participants have taken part in sporting activities meant to teach them about sporting conduct, fairplay, and safe physical activities. The day culminated with a football match.
- decât
- acea
- lor
- Lor
- astfel
- Acestea
- acest
- prag
- Prin
- timp
- la
- instrument
- Tren
- dresat
- Pregătire
- TRP
- de reglaj
- tutorial
- tip
- Tipuri
- care stau la baza
- unic
- Actualizează
- actualizat
- actualizări
- utilizare
- carcasa de utilizare
- utilizări
- folosind
- utilizate
- Utilizand
- validare
- varietate
- variabil
- Verificare
- versiune
- Versiunile
- de
- aștepta
- walkthrough
- vrea
- vrea
- Cale..
- we
- web
- servicii web
- Ce
- Ce este
- cand
- care
- OMS
- Wikipedia
- voi
- cu
- în
- fără
- cuvinte
- flux de lucru
- fluxuri de lucru
- la nivel internațional.
- Greșit
- Tu
- Ta
- zephyrnet
- Zip