Amazon Comprehend Document Classifier adaugă suport pentru aspect pentru o precizie mai mare

Republicat de Platon

Urmaritori: 0

Capacitatea de a manipula și procesa eficient cantități enorme de documente a devenit esențială pentru întreprinderile din lumea modernă. Datorită afluxului continuu de informații cu care se ocupă toate întreprinderile, clasificarea manuală a documentelor nu mai este o opțiune viabilă. Modelele de clasificare a documentelor pot automatiza procedura și pot ajuta organizațiile să economisească timp și resurse. Tehnicile tradiționale de clasificare, cum ar fi procesarea manuală și căutările bazate pe cuvinte cheie, devin mai puțin eficiente și mai consumatoare de timp pe măsură ce volumul documentelor crește. Această ineficiență determină o productivitate mai scăzută și cheltuieli de exploatare mai mari. În plus, poate împiedica accesul la informații esențiale atunci când este necesar, ceea ce ar putea duce la o experiență slabă a clienților și poate avea un impact asupra luării deciziilor. La AWS re:Invent 2022, Amazon Comprehend, un serviciu de procesare a limbajului natural (NLP) care utilizează învățarea automată (ML) pentru a descoperi informații din text, a lansat suport pentru tipurile de documente native. Această nouă caracteristică v-a oferit posibilitatea de a clasifica documente în formate native (PDF, TIFF, JPG, PNG, DOCX) folosind Amazon Comprehend.

Astăzi, suntem încântați să anunțăm că Amazon Comprehend acceptă acum formarea modelelor de clasificare personalizate cu documente precum PDF, Word și formate de imagine. Acum puteți antrena modele personalizate de clasificare a documentelor pe documente native care acceptă aspectul pe lângă text, sporind acuratețea rezultatelor.

În această postare, oferim o prezentare generală a modului în care puteți începe să antrenați un model de clasificare a documentelor personalizate Amazon Comprehend.

Descriere

Capacitatea de a înțelege pozițiile relative ale obiectelor într-un spațiu definit este denumită conștientizarea aspectului. În acest caz, ajută modelul să înțeleagă modul în care anteturile, subtitlurile, tabelele și graficele se relaționează unele cu altele în interiorul unui document. Modelul poate clasifica mai eficient un document pe baza conținutului său atunci când este conștient de structura și aspectul textului.

Clasificatorul de documente Amazon Comprehend adaugă suport pentru aspect pentru PlatoBlockchain Data Intelligence cu o precizie mai mare. Căutare verticală. Ai.

În această postare, parcurgem pașii de pregătire a datelor implicați, demonstrăm procesul de formare a modelului și discutăm despre beneficiile utilizării noului model personalizat de clasificare a documentelor în Amazon Comprehend. Ca cea mai bună practică, ar trebui să luați în considerare următoarele puncte înainte de a începe instruirea modelului personalizat de clasificare a documentelor.

Evaluați nevoile dvs. de clasificare a documentelor

Identificați diferitele tipuri de documente pe care este posibil să aveți nevoie să le clasificați, împreună cu diferitele clase sau categorii pentru a vă sprijini cazul de utilizare. Determinați structura de clasificare sau taxonomia adecvată după evaluarea cantității și a tipurilor de documente care trebuie clasificate. Tipurile de documente pot varia de la PDF, Word, imagini și așa mai departe. Asigurați-vă că aveți acces autorizat la un set divers de documente etichetate, fie prin intermediul unui sistem de gestionare a documentelor, fie prin alte mecanisme de stocare.

Pregătiți-vă datele

Asigurați-vă că fișierele documente pe care intenționați să le utilizați pentru antrenamentul modelului nu sunt criptate sau blocate - de exemplu, asigurați-vă că fișierele PDF nu sunt criptate și blocate cu o parolă. Trebuie să decriptați astfel de fișiere înainte de a le putea folosi în scopuri de instruire. Etichetați un eșantion de documente cu categoriile sau etichetele corespunzătoare (clase). Determinați dacă clasificarea cu o singură etichetă (modul cu mai multe clase) Sau clasificare cu mai multe etichete este potrivit pentru cazul dvs. de utilizare. Modul cu mai multe clase asociază doar o singură clasă cu fiecare document, în timp ce modul cu mai multe etichete asociază una sau mai multe clase cu un document.

Luați în considerare evaluarea modelului

Folosiți setul de date etichetat pentru a antrena modelul, astfel încât să poată învăța să clasifice noi documente cu acuratețe și să evalueze modul în care versiunea model nou instruită funcționează prin înțelegerea valorilor modelului. Pentru a înțelege valorile furnizate de formarea post-model Amazon Comprehend, consultați Valori personalizate ale clasificatorului. După finalizarea procesului de instruire, puteți începe clasificarea documentelor asincron sau în timp real. Vom parcurge cum să antrenăm un model de clasificare personalizat în secțiunile următoare.

Pregătiți datele de antrenament

Înainte de a pregăti modelul nostru personalizat de clasificare, trebuie să pregătim datele de antrenament. Datele de instruire sunt compuse dintr-un set de documente etichetate, care pot fi documente preidentificate dintr-un depozit de documente la care aveți deja acces. Pentru exemplul nostru, am pregătit un model de clasificare personalizat cu câteva tipuri diferite de documente care se găsesc de obicei într-un proces de adjudecare a cererilor de asigurare de sănătate: rezumatul de externare a pacientului, facturi, chitanțe și așa mai departe. De asemenea, trebuie să pregătim un fișier de adnotări în format CSV. Mai jos este un exemplu de date CSV de fișier de adnotări necesare pentru antrenament:

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

Fișierul CSV cu adnotări trebuie să conțină trei coloane. Prima coloană conține clasa (eticheta) dorită pentru document, a doua coloană este numele documentului (numele fișierului), iar ultima coloană este numărul paginii documentului pe care doriți să îl includeți în setul de date de antrenament. Deoarece procesul de instruire acceptă fișiere PDF și DOCX native cu mai multe pagini, trebuie să specificați numărul paginii în cazul în care documentul este un document cu mai multe pagini. Dacă doriți să includeți toate paginile unui document cu mai multe pagini în setul de date de antrenament, trebuie să specificați fiecare pagină ca o linie separată în fișierul de adnotări CSV. De exemplu, în fișierul de adnotări anterior, invoice-1.pdf este un document de două pagini și dorim să includem ambele pagini în setul de date de clasificare. Deoarece fișierele precum PDF, PNG și TIFF sunt formate de imagine, valoarea numărului paginii (a treia coloană) trebuie să fie întotdeauna 1. Dacă setul de date conține fișiere TIF cu mai multe cadre (mai multe pagini), trebuie să le împărțiți în fișiere TIF separate în pentru a le utiliza în procesul de instruire.

Am pregătit un fișier de adnotări numit test.csv cu datele adecvate pentru a antrena un model de clasificare personalizat. Pentru fiecare exemplu de document, fișierul CSV conține clasa căreia îi aparține documentul, locația documentului în care se află Serviciul Amazon de stocare simplă (Amazon S3), cum ar fi path/to/prefix/document.pdf, și numărul paginii (dacă este cazul). Deoarece majoritatea documentelor noastre sunt fie fișiere DOCX, PDF cu o singură pagină, fie fișiere TIF, JPG sau PNG, numărul paginii atribuit este 1. Deoarece adnotările noastre CSV și documentele eșantion sunt toate sub același prefix Amazon S3, nu nu trebuie să specificați în mod explicit prefixul în a doua coloană. De asemenea, pregătim cel puțin 10 mostre de documente sau mai multe pentru fiecare clasă și am folosit un amestec de fișiere JPG, PNG, DOCX, PDF și TIF pentru antrenarea modelului. Rețineți că, de obicei, este recomandat să aveți un set divers de eșantion de documente pentru formarea modelului, pentru a evita supraadaptarea modelului, ceea ce afectează capacitatea acestuia de a recunoaște documente noi. De asemenea, se recomandă ca numărul de mostre pe clasă să fie echilibrat, deși nu este necesar să aveți exact același număr de mostre pe clasă. În continuare, încărcăm test.csv fișierul de adnotări și toate documentele în Amazon S3. Următoarea imagine arată o parte din fișierul CSV de adnotări.

Clasificatorul de documente Amazon Comprehend adaugă suport pentru aspect pentru PlatoBlockchain Data Intelligence cu o precizie mai mare. Căutare verticală. Ai.

Antrenați un model de clasificare personalizat

Acum că avem gata fișierul de adnotări și toate documentele noastre eșantion, am configurat un model de clasificare personalizat și îl antrenăm. Înainte de a începe să configurați formarea modelului de clasificare personalizat, asigurați-vă că adnotările CSV și exemplele de documente există într-o locație Amazon S3.

În consola Amazon Comprehend, alegeți Clasificare personalizată în panoul de navigare.
Alege Creați un model nou.
Pentru Numele modelului, introduceți un nume unic.
Pentru Numele versiunii, introduceți un nume unic de versiune.
Pentru Tipul modelului de antrenament, Selectați Documente native.

Acest lucru îi spune lui Amazon Comprehend că intenționați să utilizați tipuri de documente native pentru a antrena modelul în loc de text serializat.

Pentru Modul clasificator, Selectați Folosind modul cu o singură etichetă.

Acest mod îi spune clasificatorului că intenționăm să clasificăm documentele într-o singură clasă. Dacă trebuie să antrenezi un model cu modul cu mai multe etichete, adică un document poate aparține uneia sau mai multor clase, trebuie să configurați corespunzător fișierul de adnotări specificând clasele documentului separate printr-un caracter special în CSV adnotări. fişier. În acest caz, ați selecta Folosind modul cu mai multe etichete opțiune.

Pentru Locația adnotării pe S3, introduceți calea fișierului CSV cu adnotări.
Pentru Locația datelor de antrenament pe S3, introduceți locația Amazon S3 în care se află documentele dvs.
Lăsați toate celelalte opțiuni ca implicite în această secțiune.
În Date de ieșire secțiunea, specificați o locație Amazon S3 pentru ieșirea dvs.

Acest lucru este opțional, dar este o practică bună să furnizați o locație de ieșire, deoarece Amazon Comprehend va genera valorile de evaluare a instruirii post-model în această locație. Aceste date sunt utile pentru a evalua performanța modelului, pentru a repeta și pentru a îmbunătăți acuratețea modelului dvs.

În Rolul IAM secțiune, alegeți o secțiune potrivită Gestionarea identității și accesului AWS (IAM) care permite Amazon Comprehend să acceseze locația Amazon S3 și să scrie și să citească din aceasta.
Alege Crea pentru a iniția antrenamentul modelului.

Antrenamentul modelului poate dura câteva minute, în funcție de numărul de clase și de dimensiunea setului de date. Puteți revizui starea antrenamentului pe Clasificare personalizată pagină. Procesul de instruire va afișa a Înscris starea imediat după începerea procesului de formare și se va schimba în Pregătire starea când începe procesul de instruire. După ce modelul dvs. este instruit, Starea versiunii se va schimba în dresat. Dacă Amazon Comprehend găsește inconsecvențe în datele dvs. de antrenament, se va afișa starea In eroare împreună cu o alertă care arată mesajul de eroare corespunzător, astfel încât să puteți lua măsuri corective și să reporniți procesul de instruire cu datele corectate.

Clasificatorul de documente Amazon Comprehend adaugă suport pentru aspect pentru PlatoBlockchain Data Intelligence cu o precizie mai mare. Căutare verticală. Ai.

În această postare, am demonstrat pașii pentru a antrena un model de clasificator personalizat folosind consola Amazon Comprehend. De asemenea, puteți utiliza SDK AWS în orice limbă (de exemplu, Boto3 pentru Python) sau Interfața liniei de comandă AWS (AWS CLI) pentru a iniția o formare personalizată a modelului de clasificare. Cu SDK-ul sau AWS CLI, puteți utiliza CreateDocumentClassifier API pentru a iniția instruirea modelului și, ulterior, utilizați DescriereDocumentClassifier API pentru a verifica starea modelului.

După ce modelul este antrenat, puteți efectua oricare analiză în timp real or joburi de analiză asincrone (loturi). pe documente noi. Pentru a realiza clasificarea în timp real a documentelor, trebuie să implementați un punct final Amazon Comprehend în timp real cu modelul de clasificare personalizat antrenat. Punctele finale în timp real sunt cele mai potrivite pentru cazurile de utilizare care necesită rezultate de inferență în timp real cu latență scăzută, în timp ce pentru clasificarea unui set mare de documente, este mai potrivită o activitate de analiză asincronă. Pentru a afla cum puteți efectua inferențe asincrone asupra documentelor noi folosind un model de clasificare instruit, consultați Introducerea clasificării într-un singur pas și recunoașterea entităților cu Amazon Comprehend pentru procesarea inteligentă a documentelor.

Beneficiile modelului de clasificare personalizată care ține seama de aspect

Noul model de clasificator oferă o serie de îmbunătățiri. Nu numai că este mai ușor să antrenezi noul model, dar poți și să antrenezi un nou model cu doar câteva mostre pentru fiecare clasă. În plus, nu mai trebuie să extrageți text simplu serializat din documente scanate sau digitale, cum ar fi imagini sau PDF-uri pentru a pregăti setul de date de antrenament. Următoarele sunt câteva îmbunătățiri suplimentare demne de remarcat la care vă puteți aștepta de la noul model de clasificare:

Precizie îmbunătățită – Modelul ia acum în considerare aspectul și structura documentelor, ceea ce duce la o mai bună înțelegere a structurii și conținutului documentelor. Acest lucru ajută la distingerea între documentele cu text similar, dar aspecte sau structuri diferite, rezultând o precizie sporită a clasificării.
Robusteţe – Modelul gestionează acum variațiile în structura și formatarea documentului. Acest lucru îl face mai potrivit pentru clasificarea documentelor din surse diferite, cu diferite aspecte sau stiluri de formatare, ceea ce este o provocare comună în sarcinile de clasificare a documentelor din lumea reală. Este compatibil cu mai multe tipuri de documente în mod nativ, ceea ce îl face versatil și aplicabil la diferite industrii și cazuri de utilizare.
Intervenție manuală redusă – O precizie mai mare duce la o intervenție manuală mai mică în procesul de clasificare. Acest lucru poate economisi timp și resurse și poate crește eficiența operațională în volumul de lucru de procesare a documentelor.

Concluzie

Noul model de clasificare a documentelor Amazon Comprehend, care încorporează conștientizarea aspectului, este un schimbător de joc pentru companiile care se ocupă cu volume mari de documente. Prin înțelegerea structurii și aspectului documentelor, acest model oferă o precizie și eficiență îmbunătățite în clasificare. Implementarea unei soluții robuste și precise de clasificare a documentelor folosind un model care știe aspectul poate ajuta afacerea dvs. să economisească timp, să reducă costurile operaționale și să îmbunătățească procesele de luare a deciziilor.

Ca pas următor, vă încurajăm să încercați noul model de clasificare personalizată Amazon Comprehend prin intermediul Consola Amazon Comprehend. De asemenea, vă recomandăm să revedeți anunțurile de îmbunătățire a modelului de clasificare personalizat de la anul trecut și vizitați GitHub depozit pentru mostre de cod.

Despre autori

Anjan Biswas este un arhitect senior de soluții de servicii AI, cu accent pe AI/ML și Data Analytics. Anjan face parte din echipa de servicii AI la nivel mondial și lucrează cu clienții pentru a-i ajuta să înțeleagă și să dezvolte soluții la problemele de afaceri cu AI și ML. Anjan are peste 14 ani de experiență de lucru cu lanțul global de aprovizionare, producție și organizații de vânzare cu amănuntul și ajută în mod activ clienții să înceapă și să se extindă pe serviciile AWS AI.

Godwin Sahayaraj Vincent este arhitect de soluții de întreprindere la AWS, pasionat de Machine Learning și care oferă îndrumări clienților pentru a proiecta, implementa și gestiona sarcinile de lucru și arhitecturile lor AWS. În timpul liber, îi place să joace cricket cu prietenii săi și tenis cu cei trei copii ai săi.

Wrick Talukdar este arhitect senior cu echipa Amazon Comprehend Service. El lucrează cu clienții AWS pentru a-i ajuta să adopte învățarea automată la scară largă. În afara serviciului, îi place să citească și să fotografieze.