Illustrative Notebooks In Amazon SageMaker JumpStart

Republicat de Platon

Urmaritori: 0

Amazon SageMaker JumpStart este centrul de învățare automată (ML) al SageMaker, care oferă modele pre-instruite, disponibile public pentru o gamă largă de tipuri de probleme, pentru a vă ajuta să începeți cu învățarea automată.

JumpStart oferă, de asemenea, exemple de notebook-uri care utilizează Amazon SageMaker caracteristici cum ar fi antrenamentul de instanță locală și experimente pe o mare varietate de tipuri de modele și cazuri de utilizare. Aceste exemple de caiete conțin cod care arată cum să aplicați soluții ML utilizând SageMaker și JumpStart. Ele pot fi adaptate pentru a se potrivi propriilor nevoi și, astfel, pot accelera dezvoltarea aplicațiilor.

Recent, am adăugat 10 notebook-uri noi la JumpStart în Amazon SageMaker Studio. Această postare se concentrează pe aceste noi caiete. În momentul scrierii acestui articol, JumpStart oferă 56 de notebook-uri, variind de la utilizarea modelelor de ultimă generație de procesare a limbajului natural (NLP) până la remedierea părtinirii setului de date atunci când antrenează modele.

Cele 10 noi notebook-uri vă pot ajuta în următoarele moduri:

Acestea oferă exemplu de cod pe care să îl rulați așa cum este din interfața de utilizare JumpStart din Studio și să vedeți cum funcționează codul
Acestea arată utilizarea diferitelor API-uri SageMaker și JumpStart
Ele oferă o soluție tehnică pe care o puteți personaliza în continuare în funcție de propriile nevoi

Numărul de notebook-uri care sunt oferite prin JumpStart crește în mod regulat pe măsură ce sunt adăugate mai multe notebook-uri. Aceste caiete sunt disponibile și pe github.

Prezentare generală a caietelor

Cele 10 noi caiete sunt după cum urmează:

Învățare în context cu AlexaTM 20B – Demonstrează cum să utilizați AlexaTM 20B pentru învățarea în context cu învățarea zero-shot și puține-shot pentru cinci exemple de sarcini: rezumarea textului, generarea limbajului natural, traducerea automată, răspunsul la întrebări extractive și inferența și clasificarea în limbaj natural.
Curent liniar de corectitudine în SageMaker – Recent, au existat preocupări cu privire la părtinirea algoritmilor ML ca urmare a mimării prejudecăților umane existente. Acest notebook aplică concepte de corectitudine pentru a ajusta în mod corespunzător predicțiile modelului.
Gestionați experimentarea ML folosind SageMaker Search – Amazon SageMaker Search vă permite să găsiți și să evaluați rapid cele mai relevante curse de antrenament de model din potențial sute și mii de joburi de antrenament de model SageMaker.
SageMaker Neural Topic Model – SageMaker Neural Topic Model (NTM) este un algoritm de învățare nesupravegheat care încearcă să descrie un set de observații ca un amestec de categorii distincte.
Prevede încălcările vitezei de conducere – Algoritmul SageMaker DeepAR poate fi folosit pentru a antrena un model pentru mai multe străzi simultan și pentru a prezice încălcările pentru mai multe camere stradale.
Predicția cancerului de sân - Acest notebook folosește setul de date de diagnosticare a cancerului de sân al UCI pentru a construi un model predictiv pentru a stabili dacă o imagine a masei mamare indică o tumoare benignă sau malignă.
Predicții de ansamblu din mai multe modele - Prin combinarea sau o medie a predicțiilor din mai multe surse și modele, obținem de obicei o prognoză îmbunătățită. Acest caiet ilustrează acest concept.
Inferență asincronă SageMaker – Inferența asincronă este o nouă opțiune de inferență pentru nevoile de inferență în timp aproape real. Procesarea cererilor poate dura până la 15 minute și are dimensiuni de încărcare utilă de până la 1 GB.
TensorFlow aduceți-vă propriul model – Aflați cum să antrenați un model TensorFlow la nivel local și să implementați pe SageMaker folosind acest notebook.
Scikit-learn aduceți-vă propriul model – Acest notebook arată cum să utilizați un model Scikit-learn pre-antrenat cu containerul SageMaker Scikit-learn pentru a crea rapid un punct final găzduit pentru acel model.

Cerințe preliminare

Pentru a utiliza aceste notebook-uri, asigurați-vă că aveți acces la Studio cu un rol de execuție care vă permite să rulați funcționalitatea SageMaker. Videoclipul scurt de mai jos vă va ajuta să navigați la blocnotesurile JumpStart.

În secțiunile următoare, trecem prin fiecare dintre cele 10 soluții noi și discutăm câteva dintre detaliile lor interesante.

Învățare în context cu AlexaTM 20B

AlexaTM 20B este un model secvență-la-secvență (seq2seq) la scară largă, multitask, multilingv, antrenat pe un amestec de date Common Crawl (mC4) și Wikipedia în 12 limbi, folosind sarcini de deznodare și modelare a limbajului cauzal (CLM). Obține performanțe de ultimă generație în sarcinile comune de limbaj în context, cum ar fi rezumarea și traducerea automată one-shot, depășind modelele de decodor, cum ar fi GPT3 de la Open AI și PaLM de la Google, care sunt de peste opt ori mai mari.

Învățare în context, cunoscută și ca fapt care i-a determinat, se referă la o metodă în care utilizați un model NLP pentru o sarcină nouă fără a fi nevoie să-l reglați fin. Câteva exemple de sarcini sunt furnizate modelului doar ca parte a intrării de inferență, o paradigmă cunoscută sub numele de învăţare în context cu câteva lovituri. În unele cazuri, modelul poate funcționa bine fără niciun fel de date de antrenament, având doar o explicație a ceea ce ar trebui prezis. Aceasta se numește învăţare în context zero-shot.

Acest notebook demonstrează cum să implementați AlexaTM 20B prin JumpStart API și să rulați inferențe. De asemenea, demonstrează cum AlexaTM 20B poate fi utilizat pentru învățarea în context cu cinci exemple de sarcini: rezumarea textului, generarea limbajului natural, traducerea automată, răspunsul la întrebări extractive și inferența și clasificarea în limbaj natural.

Illustrative notebooks in Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Notebook-ul demonstrează următoarele:

Rezumat unic de text, generare de limbaj natural și traducere automată folosind un singur exemplu de instruire pentru fiecare dintre aceste sarcini
Răspunsuri la întrebări zero-shot și inferență în limbaj natural plus clasificare folosind modelul așa cum este, fără a fi nevoie să furnizeze exemple de instruire.

Încercați să aplicați propriul text pe acest model și vedeți cum acesta rezumă textul, extrage întrebări și răspunsuri sau traduce dintr-o limbă în alta.

Curent liniar de corectitudine în SageMaker

Recent, au existat preocupări cu privire la părtinirea algoritmilor ML ca urmare a mimării prejudecăților umane existente. În zilele noastre, mai multe metode ML au implicații sociale puternice, de exemplu sunt folosite pentru a prezice împrumuturi bancare, rate de asigurare sau publicitate. Din păcate, un algoritm care învață din datele istorice va moșteni în mod natural prejudecățile din trecut. Acest caiet prezintă cum să depășiți această problemă utilizând SageMaker și algoritmi echitabili în contextul cursanților liniari.

Începe prin a introduce unele dintre conceptele și matematica din spatele corectitudinii, apoi descarcă date, antrenează un model și, în final, aplică concepte de corectitudine pentru a ajusta în mod corespunzător predicțiile modelului.

Notebook-ul demonstrează următoarele:

Rularea unui model liniar standard pe setul de date pentru adulți al UCI.
Arătând nedreptate în predicțiile modelului
Remedierea datelor pentru a elimina părtinirea
Recalificarea modelului

Încercați să rulați propriile date folosind acest exemplu de cod și detectați dacă există părtinire. După aceea, încercați să eliminați părtinirea, dacă există, din setul de date folosind funcțiile furnizate în acest exemplu de blocnotes.

Gestionați experimentarea ML folosind SageMaker Search

SageMaker Search vă permite să găsiți și să evaluați rapid cele mai relevante curse de antrenament de model din potențial sute și mii de joburi de formare de model SageMaker. Dezvoltarea unui model ML necesită experimentare continuă, încercarea de noi algoritmi de învățare și reglarea hiperparametrilor, toate observând impactul unor astfel de modificări asupra performanței și acurateței modelului. Acest exercițiu iterativ duce adesea la o explozie de sute de experimente de antrenament de model și versiuni de model, încetinind convergența și descoperirea unui model câștigător. În plus, explozia de informații face foarte dificilă urmărirea descendenței unei versiuni de model - combinația unică de seturi de date, algoritmi și parametri care au creat modelul respectiv.

Acest blocnotes arată cum să utilizați SageMaker Search pentru a organiza, urmări și evalua rapid și ușor lucrările dvs. de formare a modelului pe SageMaker. Puteți căuta toate atributele definitorii din algoritmul de învățare utilizat, setările de hiperparametri, seturile de date de antrenament utilizate și chiar etichetele pe care le-ați adăugat la joburile de antrenament model. De asemenea, puteți compara și clasifica rapid cursele de antrenament pe baza valorilor lor de performanță, cum ar fi pierderea antrenamentului și acuratețea validării, creând astfel clasamente pentru identificarea modelelor câștigătoare care pot fi implementate în mediile de producție. SageMaker Search poate urmări rapid descendența completă a unei versiuni de model implementată într-un mediu live, până la seturile de date utilizate în instruirea și validarea modelului.

Notebook-ul demonstrează următoarele:

Antrenarea unui model liniar de trei ori
Utilizarea SageMaker Search pentru a organiza și evalua aceste experimente
Vizualizarea rezultatelor într-un clasament
Implementarea unui model la un punct final
Urmărirea descendenței modelului începând de la punctul final

În propria dezvoltare a modelelor predictive, este posibil să rulați mai multe experimente. Încercați să utilizați SageMaker Search în astfel de experimente și experimentați cum vă poate ajuta în mai multe moduri.

SageMaker Neural Topic Model

SageMaker Neural Topic Model (NTM) este un algoritm de învățare nesupravegheat care încearcă să descrie un set de observații ca un amestec de categorii distincte. NTM este cel mai frecvent utilizat pentru a descoperi un număr specificat de utilizator de subiecte partajate de documente într-un corpus de text. Aici fiecare observație este un document, caracteristicile sunt prezența (sau numărul de apariții) fiecărui cuvânt, iar categoriile sunt subiectele. Deoarece metoda nu este supravegheată, subiectele nu sunt specificate în avans și nu se garantează că se potrivesc cu modul în care un om poate clasifica documentele în mod natural. Subiectele sunt învățate ca o distribuție de probabilitate pe cuvintele care apar în fiecare document. Fiecare document, la rândul său, este descris ca un amestec de subiecte.

Acest notebook folosește algoritmul SageMaker NTM pentru a antrena un model pe setul de date 20NewsGroups. Acest set de date a fost utilizat pe scară largă ca reper de modelare a subiectelor.

Notebook-ul demonstrează următoarele:

Crearea unui job de instruire SageMaker pe un set de date pentru a produce un model NTM
Utilizarea modelului pentru a efectua inferențe cu un punct final SageMaker
Explorarea modelului antrenat și vizualizarea subiectelor învățate

Puteți modifica cu ușurință acest caiet pentru a rula pe documentele dvs. text și le puteți împărți în diferite subiecte.

Preziceți încălcările vitezei de conducere

Acest notebook demonstrează prognoza serii cronologice folosind algoritmul SageMaker DeepAR prin analiza setului de date privind încălcarea camerei de viteză din orașul Chicago. Setul de date este găzduit de Data.gov și este gestionat de Administrația Serviciilor Generale din SUA, Serviciul de Transformare Tehnologică.

Aceste încălcări sunt surprinse de sistemele de camere și sunt disponibile pentru a îmbunătăți viața publicului prin portalul de date al orașului Chicago. Setul de date privind încălcarea camerei de viteză poate fi folosit pentru a discerne tiparele în date și pentru a obține informații semnificative.

Setul de date conține mai multe locații ale camerelor și numără zilnic de încălcări. Fiecare număr zilnic de încălcări pentru o cameră poate fi considerată o serie temporală separată. Puteți utiliza algoritmul SageMaker DeepAR pentru a antrena un model pentru mai multe străzi simultan și pentru a prezice încălcările pentru mai multe camere stradale.

Notebook-ul demonstrează următoarele:

Antrenarea algoritmului SageMaker DeepAR pe setul de date din seria temporală folosind instanțe spot
Efectuarea de inferențe asupra modelului antrenat pentru a face previziuni privind încălcările rutiere

Cu acest notebook, puteți afla cum pot fi rezolvate problemele seriilor temporale folosind algoritmul DeepAR din SageMaker și puteți încerca să îl aplicați pe propriile seturi de date ale seriilor temporale.

Predicția cancerului de sân

Acest caiet ia un exemplu de predicție a cancerului de sân folosind setul de date de diagnosticare a cancerului de sân al UCI. Utilizează acest set de date pentru a construi un model predictiv dacă o imagine a masei mamare indică o tumoare benignă sau malignă.

Notebook-ul demonstrează următoarele:

Configurare de bază pentru utilizarea SageMaker
Conversia seturilor de date în formatul Protobuf utilizat de algoritmii SageMaker și încărcarea în Serviciul Amazon de stocare simplă (Amazon S3)
Antrenarea unui model de cursant liniar SageMaker pe setul de date
Găzduirea modelului antrenat
Punctajul folosind modelul antrenat

Puteți parcurge acest blocnotes pentru a afla cum să rezolvați o problemă de afaceri utilizând SageMaker și să înțelegeți pașii implicați pentru pregătirea și găzduirea unui model.

Predicții de ansamblu din mai multe modele

În aplicațiile practice ale ML pe sarcini predictive, un model de multe ori nu este suficient. Majoritatea competițiilor de predicții necesită de obicei combinarea prognozelor din mai multe surse pentru a obține o prognoză îmbunătățită. Prin combinarea sau o medie a predicțiilor din mai multe surse sau modele, obținem de obicei o prognoză îmbunătățită. Acest lucru se întâmplă deoarece există o incertitudine considerabilă în alegerea modelului și nu există un model adevărat în multe aplicații practice. Prin urmare, este benefic să combinați predicțiile din diferite modele. În literatura bayesiană, această idee este denumită medierea modelului bayesian și s-a dovedit că funcționează mult mai bine decât alegerea unui singur model.

Acest caiet prezintă un exemplu ilustrativ pentru a prezice dacă o persoană câștigă peste 50,000 USD pe an pe baza informațiilor despre educația sa, experiența de muncă, sexul și multe altele.

Notebook-ul demonstrează următoarele:

Pregătirea caietului SageMaker
Încărcarea unui set de date de pe Amazon S3 utilizând SageMaker
Investigarea și transformarea datelor astfel încât să poată fi transmise algoritmilor SageMaker
Estimarea unui model folosind algoritmul SageMaker XGBoost (Extreme Gradient Boosting)
Găzduirea modelului pe SageMaker pentru a face predicții continue
Estimarea unui al doilea model folosind metoda de învățare liniară SageMaker
Combinarea predicțiilor din ambele modele și evaluarea predicției combinate
Generarea de predicții finale pe setul de date de testare

Încercați să rulați acest notebook pe setul de date și să utilizați mai mulți algoritmi. Încercați să experimentați cu diferite combinații de modele oferite de SageMaker și JumpStart și vedeți care combinație de ansamblu de modele oferă cele mai bune rezultate pe propriile date.

Inferență asincronă SageMaker

Inferența asincronă SageMaker este o nouă capacitate în SageMaker care pune în așteptare cererile primite și le procesează asincron. SageMaker oferă în prezent două opțiuni de inferență pentru ca clienții să implementeze modele ML: o opțiune în timp real pentru sarcini de lucru cu latență scăzută și transformare în loturi, o opțiune offline pentru a procesa cererile de inferență pe loturi de date disponibile în avans. Inferența în timp real este potrivită pentru sarcinile de lucru cu dimensiuni mai mici de 6 MB și necesită procesarea cererilor de inferență în 60 de secunde. Transformarea lotului este potrivită pentru inferența offline asupra loturilor de date.

Inferența asincronă este o nouă opțiune de inferență pentru nevoile de inferență în timp aproape real. Procesarea cererilor poate dura până la 15 minute și are dimensiuni de încărcare utilă de până la 1 GB. Inferența asincronă este potrivită pentru sarcinile de lucru care nu au cerințe de latență subsecunde și au cerințe de latență relaxate. De exemplu, poate fi necesar să procesați o inferență asupra unei imagini mari de mai mulți MB în decurs de 5 minute. În plus, punctele finale de inferență asincrone vă permit să controlați costurile prin reducerea numărului de instanțe ale punctelor finale la zero atunci când sunt inactive, astfel încât să plătiți numai atunci când punctele finale procesează cereri.

Notebook-ul demonstrează următoarele:

Crearea unui model SageMaker
Crearea unui punct final folosind acest model și configurația de inferență asincronă
Efectuarea de predicții împotriva acestui punct final asincron

Acest blocnotes vă arată un exemplu de lucru de montare a unui punct final asincron pentru un model SageMaker.

TensorFlow aduceți-vă propriul model

Un model TensorFlow este antrenat local pentru o sarcină de clasificare în care este rulat acest notebook. Apoi este implementat pe un punct final SageMaker.

Notebook-ul demonstrează următoarele:

Antrenarea unui model TensorFlow local pe setul de date IRIS
Importul acelui model în SageMaker
Găzduindu-l pe un punct final

Dacă aveți modele TensorFlow pe care le-ați dezvoltat singur, acest exemplu de notebook vă poate ajuta să vă găzduiți modelul pe un punct final gestionat de SageMaker.

Scikit-learn aduceți-vă propriul model

SageMaker include funcționalități pentru a susține un mediu de notebook găzduit, instruire distribuită, fără server și găzduire în timp real. Funcționează cel mai bine atunci când toate aceste trei servicii sunt utilizate împreună, dar pot fi utilizate și independent. Unele cazuri de utilizare pot necesita doar găzduire. Poate că modelul a fost antrenat înainte ca SageMaker să existe, într-un serviciu diferit.

Notebook-ul demonstrează următoarele:

Utilizarea unui model Scikit-learn pre-antrenat cu containerul SageMaker Scikit-learn pentru a crea rapid un punct final găzduit pentru acel model

Dacă aveți modele Scikit-learn pe care le-ați dezvoltat singur, acest exemplu de blocnotes vă poate ajuta să vă găzduiți modelul pe un punct final gestionat de SageMaker.

Curățați resursele

După ce ați terminat de rulat un blocnotes în JumpStart, asigurați-vă că Ștergeți toate resursele astfel încât toate resursele pe care le-ați creat în acest proces să fie șterse și facturarea dvs. să fie oprită. Ultima celulă din aceste caiete șterge de obicei punctele finale care sunt create.

Rezumat

Această postare v-a ghidat prin 10 exemple de caiete noi care au fost adăugate recent la JumpStart. Deși această postare s-a concentrat pe aceste 10 notebook-uri noi, există un total de 56 de notebook-uri disponibile la momentul scrierii acestui articol. Vă încurajăm să vă conectați la Studio și să explorați singuri blocnotesurile JumpStart și să începeți să obțineți valoare imediată din ele. Pentru mai multe informații, consultați Amazon SageMaker Studio și SageMaker JumpStart.

Despre autor

Dr. Raju Penmatcha este arhitect specializat în soluții AI/ML în platforme AI la AWS. Și-a luat doctoratul la Universitatea Stanford. Lucrează îndeaproape la serviciile de suită low/no-code din SageMaker, care ajută clienții să construiască și să implementeze cu ușurință modele și soluții de învățare automată.

Timestamp-ul: December 1, 2022December 2, 2022

Timestamp-ul: Octombrie 2, 2023

Caiete ilustrative în Amazon SageMaker JumpStart

Republicat de Platon

Prezentare generală a caietelor

Cerințe preliminare

Învățare în context cu AlexaTM 20B

Curent liniar de corectitudine în SageMaker

Gestionați experimentarea ML folosind SageMaker Search

SageMaker Neural Topic Model

Preziceți încălcările vitezei de conducere

Predicția cancerului de sân

Predicții de ansamblu din mai multe modele

Inferență asincronă SageMaker

TensorFlow aduceți-vă propriul model

Scikit-learn aduceți-vă propriul model

Curățați resursele

Rezumat

Despre autor

Mai mult de la Învățare automată AWS

Implementați BLOOM-176B și OPT-30B pe Amazon SageMaker cu modele mari de inferență Deep Learning Containers și DeepSpeed

Anunțarea previzualizării Amazon SageMaker Profiler: Urmăriți și vizualizați date detaliate de performanță hardware pentru sarcinile de lucru de antrenament de model | Amazon Web Services

How Synamedia uses Amazon Rekognition Video to build advanced video search capabilities for long-form video

Viziunea computerizată folosind seturi de date sintetice cu Amazon Rekognition Custom Labels și Dassault Systèmes 3DEXCITE

Citiți pagini web și evidențiați conținut folosind Amazon Polly

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont