Amazon SageMaker JumpStart oferă acum notebook-uri Amazon Comprehend pentru clasificare personalizată și detectarea personalizată a entităților PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Amazon SageMaker JumpStart oferă acum notebook-uri Amazon Comprehend pentru clasificare personalizată și detectarea entităților personalizate

Amazon Comprehend este un serviciu de procesare a limbajului natural (NLP) care utilizează învățarea automată (ML) pentru a descoperi informații din text. Amazon Comprehend oferă funcții personalizate, recunoașterea personalizată a entității, clasificare personalizată, și API-uri pre-instruite precum extragerea frazelor cheie, analiza sentimentelor, recunoașterea entităților și multe altele, astfel încât să puteți integra cu ușurință NLP în aplicațiile dvs.

Am adăugat recent notebook-uri legate de Amazon Comprehend în Amazon SageMaker JumpStart notebook-uri care vă pot ajuta să începeți rapid să utilizați clasificatorul personalizat Amazon Comprehend și dispozitivul de recunoaștere personalizat de entități. Puteți utiliza clasificarea personalizată pentru a organiza documentele în categorii (clase) pe care le definiți. Recunoașterea personalizată a entităților extinde capacitatea API-ului Amazon Comprehend de detectare a entităților pre-antrenate, ajutându-vă să identificați tipurile de entități care sunt unice pentru domeniul sau afacerea dvs. care nu se află în genericul prestabilit tipuri de entități.

În această postare, vă arătăm cum să utilizați JumpStart pentru a construi modele personalizate de clasificare Amazon Comprehend și de detectare a entităților personalizate, ca parte a nevoilor dvs. de NLP ale întreprinderii.

SageMaker JumpStart

Amazon SageMaker Studio pagina de destinație oferă opțiunea de a utiliza JumpStart. JumpStart oferă o modalitate rapidă de a începe, oferind modele pre-instruite pentru o varietate de tipuri de probleme. Puteți antrena și regla aceste modele. JumpStart oferă și alte resurse, cum ar fi caiete, bloguri și videoclipuri.

Blocnotesurile JumpStart sunt în esență exemplu de cod pe care îl puteți folosi ca punct de plecare pentru a începe rapid. În prezent, vă punem la dispoziție peste 40 de notebook-uri pe care le puteți utiliza ca atare sau le puteți personaliza după cum este necesar. Puteți găsi caietele dvs. utilizând căutarea sau panoul de vizualizare cu file. După ce găsiți blocnotesul pe care doriți să îl utilizați, îl puteți importa, îl puteți personaliza în funcție de cerințele dvs. și puteți selecta infrastructura și mediul pe care să rulați blocnotesul.

Începeți cu blocnotesurile JumpStart

Pentru a începe cu JumpStart, accesați Amazon SageMaker consolă și deschideți Studio. A se referi la Începeți cu SageMaker Studio pentru instrucțiuni despre cum să începeți cu Studio. Apoi parcurgeți următorii pași:

  1. În Studio, accesați pagina de lansare a JumpStart și alegeți Accesați SageMaker JumpStart.

Vi se oferă mai multe moduri de căutare. Puteți fie să utilizați filele din partea de sus pentru a ajunge la ceea ce doriți, fie să utilizați caseta de căutare așa cum se arată în următoarea captură de ecran.

  1. Pentru a găsi caiete, mergem la notebook-uri tab.

Accesați fila Notebooks

La momentul scrierii, JumpStart oferă 47 de notebook-uri. Puteți folosi filtre pentru a găsi notebook-uri legate de Amazon Comprehend.

  1. Pe Tipul de conținut meniul derulant, alegeți Blocnotes.

După cum puteți vedea în următoarea captură de ecran, avem în prezent două notebook-uri Amazon Comprehend.

Găsiți Comprehend Notebooks

În secțiunile următoare, vom explora ambele caiete.

Clasificator personalizat Amazon Comprehend

În acest caiet, demonstrăm cum să folosiți API de clasificare personalizat pentru a crea un model de clasificare a documentelor.

Clasificatorul personalizat este o funcție Amazon Comprehend gestionată complet, care vă permite să construiți modele personalizate de clasificare a textului, care sunt unice pentru afacerea dvs., chiar dacă aveți puțină sau deloc expertiză în ML. Clasificatorul personalizat se bazează pe capacitățile existente ale Amazon Comprehend, care sunt deja instruite pe zeci de milioane de documente. Abstrage o mare parte din complexitatea necesară pentru a construi un model de clasificare NLP. Clasificatorul personalizat încarcă și inspectează automat datele de antrenament, selectează algoritmii ML potriviți, antrenează modelul dvs., găsește hiperparametrii optimi, testează modelul și oferă valori de performanță a modelului. Clasificatorul personalizat Amazon Comprehend oferă, de asemenea, o consolă ușor de utilizat pentru întregul flux de lucru ML, inclusiv etichetarea textului folosind Amazon SageMaker Ground Adevăr, antrenarea și implementarea unui model și vizualizarea rezultatelor testului. Cu un clasificator personalizat Amazon Comprehend, puteți construi următoarele modele:

  • Model de clasificare cu mai multe clase – În clasificarea multiclasă, fiecărui document i se poate atribui o singură clasă. Clasele individuale se exclud reciproc. De exemplu, un film poate fi clasificat ca documentar sau ca science fiction, dar nu ambele în același timp.
  • Model de clasificare cu mai multe etichete – În clasificarea cu mai multe etichete, clasele individuale reprezintă categorii diferite, dar aceste categorii sunt într-un fel legate și nu se exclud reciproc. Ca urmare, fiecare document are cel puțin o clasă atribuită, dar poate avea mai multe. De exemplu, un film poate fi pur și simplu un film de acțiune sau poate fi un film de acțiune, un film științifico-fantastic și o comedie, toate în același timp.

Acest blocnotes nu necesită experiență ML pentru a antrena un model cu exemplul de seturi de date sau cu propriul set de date specific companiei. Puteți utiliza operațiunile API discutate în acest notebook în propriile aplicații.

Amazon Custom Entity Recognizer

În acest caiet, demonstrăm cum să folosiți API personalizat de recunoaștere a entităților pentru a crea un model de recunoaștere a entității.

Recunoașterea personalizată a entităților extinde capacitățile Amazon Comprehend, ajutându-vă să identificați tipurile de entități specifice care nu se află în tipurile de entități generice prestabilite. Aceasta înseamnă că puteți analiza documente și puteți extrage entități precum coduri de produse sau entități specifice companiei care se potrivesc nevoilor dvs.

Construirea unui dispozitiv de recunoaștere a entităților personalizate pe cont propriu poate fi un proces complex, care necesită pregătirea unor seturi mari de documente de instruire adnotate manual și selectarea algoritmilor și parametrilor potriviți pentru antrenamentul modelului. Amazon Comprehend ajută la reducerea complexității prin furnizarea de adnotări automate și dezvoltare de model pentru a crea un model personalizat de recunoaștere a entităților.

Exemplul de blocnotes preia setul de date de antrenament în format CSV și rulează inferențe pe baza textului introdus. Amazon Comprehend acceptă, de asemenea, un caz de utilizare avansat care preia date adnotate Ground Truth pentru antrenament și vă permite să executați direct inferențe pe PDF-uri și documente Word. Pentru mai multe informații, consultați Creați un sistem de recunoaștere personalizat de entități pentru documente PDF folosind Amazon Comprehend.

Amazon Comprehend a redus limitele de adnotare și ți-a permis să obții rezultate mai stabile, în special pentru subesantioane cu puține inregistrări. Pentru mai multe informații despre această îmbunătățire, consultați Amazon Comprehend anunță limite mai mici de adnotare pentru recunoașterea personalizată a entităților.

Acest blocnotes nu necesită experiență ML pentru a antrena un model cu exemplul de seturi de date sau cu propriul set de date specific companiei. Puteți utiliza operațiunile API discutate în acest notebook în propriile aplicații.

Utilizați, personalizați și implementați notebook-urile Amazon Comprehend JumpStart

După ce selectați blocnotesul Amazon Comprehend pe care doriți să îl utilizați, alegeți Import notebook. În timp ce faci asta, poți vedea nucleul notebook-ului pornind.

Import Notebook

Importarea notebook-ului declanșează selecția instanței notebook-ului, a nucleului și a imaginii care este utilizată pentru a rula blocnotesul. După ce infrastructura implicită este furnizată, puteți modifica selecțiile conform cerințelor dvs.

Blocnotes în SageMaker Studio

Acum, treceți peste conturul notebook-ului și citiți cu atenție secțiunile pentru configurarea cerințelor preliminare, configurarea datelor, antrenamentul modelului, rularea inferenței și oprirea modelului. Simțiți-vă liber să personalizați codul generat în funcție de nevoile dvs.

În funcție de cerințele dvs., este posibil să doriți să personalizați următoarele secțiuni:

  • Permisiuni – Pentru o aplicație de producție, vă recomandăm să restricționați politicile de acces doar la cele necesare pentru a rula aplicația. Permisiunile pot fi restricționate pe baza cazului de utilizare, cum ar fi instruirea sau inferența, și nume specifice de resurse, cum ar fi un Serviciul Amazon de stocare simplă numele compartimentului (Amazon S3) sau un model de nume compartimentului S3. De asemenea, ar trebui să restricționați accesul la clasificatorul personalizat sau la operațiunile SageMaker doar la acelea de care are nevoie aplicația dvs.
  • Date și locație – Exemplul de blocnotes vă oferă date mostre și locații S3. Pe baza cerințelor dvs., puteți utiliza propriile date pentru instruire, validare și testare și puteți utiliza diferite locații S3 după cum este necesar. În mod similar, atunci când modelul este creat, puteți alege să păstrați modelul în locații diferite. Doar asigurați-vă că ați furnizat permisiunile potrivite pentru a accesa compartimentele S3.
  • Etape de preprocesare – Dacă utilizați date diferite pentru instruire și testare, poate doriți să ajustați pașii de preprocesare în funcție de cerințele dvs.
  • Date de testare – Puteți aduce propriile date de inferență pentru testare.
  • A curăța – Ștergeți resursele lansate de notebook pentru a evita taxele recurente.

Concluzie

În această postare, v-am arătat cum să utilizați JumpStart pentru a învăța și a accelera utilizarea API-urilor Amazon Comprehend, făcând comod să găsiți și să rulați notebook-uri legate de Amazon Comprehend din Studio, având în același timp opțiunea de a modifica codul după cum este necesar. Notebook-urile folosesc exemple de seturi de date cu anunțuri despre produse AWS și exemple de articole de știri. Puteți folosi acest notebook pentru a afla cum să utilizați API-urile Amazon Comprehend într-un notebook Python sau îl puteți folosi ca punct de plecare și extinde codul în continuare pentru cerințele dvs. unice și implementările de producție.

Puteți începe să utilizați JumpStart și să profitați de peste 40 de notebook-uri cu diverse subiecte în toate regiunile în care Studio este disponibil fără costuri suplimentare.


Despre Autori

Autor - Lana ZhangLana Zhang este un arhitect senior de soluții la echipa AWS WWSO AI Services cu experiență în AI și ML pentru moderarea și recunoașterea conținutului. Este pasionată de promovarea serviciilor AWS AI și de a ajuta clienții să-și transforme soluțiile de afaceri.

Autor - Meenakshisundaram ThandavarayanMeenakshisundaram Thandavarayan este un specialist senior AI/ML cu AWS. El ajută conturile strategice de înaltă tehnologie în călătoria lor AI și ML. Este foarte pasionat de IA bazată pe date

Autor - Rachna ChadhaRachna Chadha este arhitect principal de soluții AI/ML în conturi strategice la AWS. Rachna este o optimistă care crede că utilizarea etică și responsabilă a inteligenței artificiale poate îmbunătăți societatea în viitor și poate aduce prosperitate economică și socială. În timpul liber, Rachnei îi place să petreacă timpul cu familia ei, să facă drumeții și să asculte muzică.

Timestamp-ul:

Mai mult de la Învățare automată AWS