Unified Data Preparation And Model Training With Amazon SageMaker Data Wrangler And Amazon SageMaker Autopilot

Republicat de Platon

Urmaritori: 0

Datele alimentează învățarea automată (ML); calitatea datelor are un impact direct asupra calității modelelor ML. Prin urmare, îmbunătățirea calității datelor și utilizarea tehnicilor potrivite de inginerie a caracteristicilor sunt esențiale pentru crearea modelelor ML precise. Practicienii ML repetă adesea plictisitor pe ingineria caracteristicilor, alegerea algoritmilor și alte aspecte ale ML în căutarea modelelor optime care să generalizeze bine datele din lumea reală și să ofere rezultatele dorite. Deoarece viteza în a face afaceri contează în mod disproporționat, acest proces extrem de obositor și iterativ poate duce la întârzieri ale proiectelor și la pierderea oportunităților de afaceri.

Amazon SageMaker Data Wrangler reduce timpul de agregare și pregătire a datelor pentru ML de la săptămâni la minute și Pilot automat cu Amazon SageMaker creează, antrenează și reglează automat cele mai bune modele ML pe baza datelor dvs. Cu Autopilot, mențineți în continuare controlul și vizibilitatea deplină asupra datelor și modelului dvs. Ambele servicii sunt create special pentru a face practicienii ML mai productivi și pentru a accelera timpul de valorificare.

Data Wrangler oferă acum o experiență unificată, permițându-vă să pregătiți datele și să antrenați fără probleme un model ML în Autopilot. Cu această funcție recent lansată, vă puteți pregăti acum datele în Data Wrangler și puteți lansa cu ușurință experimente Autopilot direct din interfața de utilizator (UI) Data Wrangler. Cu doar câteva clicuri, puteți construi, antrena și ajusta automat modele ML, facilitând utilizarea tehnicilor de ultimă generație de inginerie a caracteristicilor, antrenați modele ML de înaltă calitate și obțineți mai rapid informații din datele dvs.

În această postare, discutăm cum puteți folosi această nouă experiență integrată în Data Wrangler pentru a analiza seturi de date și pentru a construi cu ușurință modele ML de înaltă calitate în Autopilot.

Prezentare generală a setului de date

Indienii Pima sunt un grup indigen care trăiește în Mexic și Arizona, SUA. Studiu arată indienii Pima ca grup de populație cu risc ridicat pentru diabet zaharat. Prevederea probabilității de risc și susceptibilitate a unei persoane la o boală cronică precum diabetul este o sarcină importantă în îmbunătățirea sănătății și bunăstării acestui grup minoritar adesea subreprezentat.

Noi folosim Setul de date publice Pima Indian Diabetes pentru a prezice susceptibilitatea unui individ la diabet. Ne concentrăm pe noua integrare dintre Data Wrangler și Autopilot pentru a pregăti datele și a crea automat un model ML fără a scrie o singură linie de cod.

Setul de date conține informații despre femeile indiene Pima cu vârsta de 21 de ani sau mai mult și include mai multe variabile predictive medicale (independente) și o variabilă țintă (dependentă), Rezultatul. Următorul grafic descrie coloanele din setul nostru de date.

Coloană Nume si Prenume	Descriere
Sarcini	Numărul de ori gravidă
Glucoză	Concentrația de glucoză în plasmă într-un test oral de toleranță la glucoză în decurs de 2 ore
Tensiune arteriala	Tensiunea arterială diastolică (mm Hg)
Grosimea pielii	Grosimea pliului cutanat al tricepsului (mm)
Insulină	2 ore de insulină serică (mu U/ml)
Indicele de masă corporală (IMC)	Indicele de masă corporală (greutate în kg/(înălțime în m)^2)
DiabetPedigree	Funcția de pedigree a diabetului
Vârstă	Vârsta în ani
Rezultat	Variabila țintă

Setul de date conține 768 de înregistrări, cu 9 caracteristici totale. Stocăm acest set de date în Buchetă de stocare simplă Amazon (Amazon S3) ca fișier CSV și apoi importați CSV direct într-un flux Data Wrangler din Amazon S3.

Prezentare generală a soluțiilor

Următoarea diagramă rezumă ceea ce realizăm în acest post.[KT1]

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Oamenii de știință de date, medicii și alți experți din domeniul medical furnizează date despre pacienți cu informații despre nivelurile de glucoză, tensiunea arterială, indicele de masă corporală și alte caracteristici utilizate pentru a prezice probabilitatea de a avea diabet. Cu setul de date din Amazon S3, importăm setul de date în Data Wrangler pentru a efectua analize exploratorii de date (EDA), profilare a datelor, inginerie de caracteristici și împărțirea setului de date în tren și testare pentru construirea și evaluarea modelului.

Apoi folosim noua integrare a funcțiilor Autopilot pentru a construi rapid un model direct din interfața Data Wrangler. Alegem cel mai bun model al Autopilot pe baza modelului cu cel mai mare scor F-beta. După ce Autopilot găsește cel mai bun model, rulăm a SageMaker Batch Transform loc de muncă pe setul de test (holdout) cu artefactele modelului celui mai bun model pentru evaluare.

Experții medicali pot furniza noi date modelului validat pentru a obține o predicție pentru a vedea dacă un pacient va avea probabil diabet. Cu aceste perspective, experții medicali pot începe tratamentul devreme pentru a îmbunătăți sănătatea și bunăstarea populațiilor vulnerabile. Experții medicali pot explica, de asemenea, predicția unui model, referindu-se la detaliile modelului în Autopilot, deoarece au vizibilitate deplină asupra explicabilității, performanței și artefactelor modelului. Această vizibilitate, pe lângă validarea modelului din setul de testare, oferă experților medicali o mai mare încredere în capacitatea de predicție a modelului.

Vă ghidăm prin următorii pași de nivel înalt.

Importați setul de date din Amazon S3.
Efectuați EDA și profilarea datelor cu Data Wrangler.
Efectuați inginerie de caracteristici pentru a gestiona valorile aberante și valorile lipsă.
Împărțiți datele în seturi de tren și de testare.
Antrenează și construiește un model cu Autopilot.
Testați modelul pe un eșantion rezistent cu un notebook SageMaker.
Analizați performanța setului de validare și de testare.

Cerințe preliminare

Parcurgeți următorii pași prealabil:

Încărcați setul de date la o găleată S3 la alegere.
Asigurați-vă că aveți permisiunile necesare. Pentru mai multe informații, consultați Începeți cu Data Wrangler.
Configurați un domeniu SageMaker configurat să utilizeze Data Wrangler. Pentru instrucțiuni, consultați Integrat la domeniul Amazon SageMaker.

Importați setul de date cu Data Wrangler

Puteți integra un flux de date Data Wrangler în fluxurile dvs. de lucru ML pentru a simplifica și eficientiza preprocesarea datelor și ingineria caracteristicilor folosind puțină sau deloc codificare. Parcurgeți următorii pași:

Creaza un nou Fluxul de date Wrangler.

Dacă este prima dată când deschideți Data Wrangler, poate fi necesar să așteptați câteva minute pentru ca acesta să fie gata.

Alegeți setul de date stocat în Amazon S3 și importați-l în Data Wrangler.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

După ce importați setul de date, ar trebui să vedeți începuturile unui flux de date în interfața de utilizare Data Wrangler. Acum aveți o diagramă de flux.

Alegeți semnul plus de lângă Tipuri de date Și alegeți Editati pentru a confirma că Data Wrangler a dedus automat tipurile de date corecte pentru coloanele dvs. de date.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Dacă tipurile de date nu sunt corecte, le puteți modifica cu ușurință prin interfața de utilizare. Dacă sunt prezente mai multe surse de date, le puteți alătura sau concatena.

Acum putem crea o analiză și adăuga transformări.

Efectuați o analiză exploratorie a datelor cu raportul de date

Analiza exploratorie a datelor este o parte critică a fluxului de lucru ML. Putem folosi noul raport de date de la Data Wrangler pentru a înțelege mai bine profilul și distribuția datelor noastre. Raportul include statistici rezumate, avertismente privind calitatea datelor, informații despre coloana țintă, un model rapid și informații despre rândurile anormale și duplicate.

Alegeți semnul plus de lângă Tipuri de date Și alegeți Obțineți informații despre date.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Pentru Ţintă coloană, alege Rezultat.
Pentru Tipul problemeiși (opțional) selectați Clasificare.
Alege Crea.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Rezultatele arată un rezumat al datelor cu statisticile setului de date.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

De asemenea, putem vizualiza distribuția rândurilor etichetate cu o histogramă, o estimare a calității estimate a modelului cu funcția de model rapid și un tabel rezumat al caracteristicilor.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Nu intrăm în detaliile analizei raportului de date; a se referi la Accelerați pregătirea datelor cu calitatea datelor și informații în Amazon SageMaker Data Wrangler pentru detalii suplimentare despre modul în care puteți utiliza raportul de date pentru a accelera pașii de pregătire a datelor.

Efectuați ingineria caracteristicilor

Acum că am profilat și analizat distribuția coloanelor noastre de intrare la un nivel înalt, primul aspect pentru îmbunătățirea calității datelor noastre ar putea fi gestionarea valorilor lipsă.

De exemplu, știm că zerourile (0) pentru Insulin coloana reprezintă valorile lipsă. Am putea urma recomandarea de a înlocui zerourile cu NaN. Dar la o examinare mai atentă, constatăm că valoarea minimă este 0 pentru alte coloane precum Glucose, BloodPressure, SkinThickness, și BMI. Avem nevoie de o modalitate de a gestiona valorile lipsă, dar trebuie să fim sensibili la coloanele cu zerouri ca date valide. Să vedem cum putem remedia asta.

În Detalii despre caracteristică secțiunea, raportul ridică a Valoare deghizată lipsă avertisment pentru caracteristică Insulin.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Deoarece zerouri în Insulin coloana sunt de fapt date lipsă, folosim Conversia regex în lipsă transformă pentru a transforma valorile zero în gol (valori lipsă).

Alegeți semnul plus de lângă Date Tipuri Și alegeți Adăuga transforma.
Alege Căutați și editați.
Pentru Transforma, alege Conversia regex în lipsă.
Pentru Intrare coloane, alegeți coloanele Insulin, Glucose, BloodPressure, SkinThickness, și BMI.
Pentru Model, introduce 0.
Alege Anunţ și Adăuga pentru a salva acest pas.

Cele 0 intrări de sub Insulin, Glucose, BloodPressure, SkinThickness, și BMI acum lipsesc valori.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Data Wrangler vă oferă alte câteva opțiuni pentru a remedia valorile lipsă.

Tratăm valorile lipsă imputând mediana aproximativă pentru Glucose coloana.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

De asemenea, dorim să ne asigurăm că funcțiile noastre sunt la aceeași scară. Nu vrem să acordăm accidental mai multă pondere unei anumite caracteristici doar pentru că acestea conțin un interval numeric mai mare. Ne normalizăm funcțiile pentru a face acest lucru.

Adăugați o nouă Proces numeric transforma si alege Valori la scară.
Pentru Scaler, alege Scaler min-max.
Pentru Coloane de intrare, alegeți coloanele Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMI, și Age.
set Min la 0 și max la 1.

Acest lucru ne asigură că caracteristicile noastre sunt între valori 0 și 1.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Acum că am creat câteva funcții, ne-am împărțit setul de date în instruire și testare înainte de a construi un model.

Împărțiți datele în instruire și testare

În faza de construire a modelului a fluxului de lucru ML, testați eficacitatea modelului dvs. rulând predicții pe lot. Puteți lăsa deoparte un set de date de testare sau de reținere pentru evaluare pentru a vedea cum funcționează modelul dvs. comparând predicțiile cu adevărul de bază. În general, dacă mai multe dintre predicțiile modelului se potrivesc cu true etichete, putem determina că modelul funcționează bine.

Folosim Data Wrangler pentru a ne împărți setul de date pentru testare. Reținem 90% din setul nostru de date pentru instruire, deoarece avem un set de date relativ mic. Restul de 10% din setul nostru de date servește drept set de date de testare. Folosim acest set de date pentru a valida modelul Autopilot mai târziu în această postare.

Ne împărțim datele alegând Împărțiți datele transforma si alege Împărțire aleatorie ca metoda. Desemnăm 0.9 ca procent de împărțire pentru antrenament și 0.1 pentru testare.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Odată cu finalizarea procesului de transformare a datelor și a pașilor de inginerie, suntem acum pregătiți să antrenăm un model.

Antrenează și validează modelul

Putem folosi noua integrare Data Wrangler cu Autopilot pentru a antrena direct un model din interfața de utilizare a fluxului de date Data Wrangler.

Alegeți semnul plus de lângă Setul de date Și alegeți Model de tren.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Pentru Locație Amazon S3, specificați locația Amazon S3 în care SageMaker vă exportă datele.

Autopilot folosește această locație pentru a antrena automat un model, economisindu-vă timp de a defini locația de ieșire a fluxului Data Wrangler, apoi de a defini locația de intrare a datelor de antrenament Autopilot. Acest lucru face o experiență mai simplă.

Alege Export și tren pentru a iniția construcția modelului cu Autopilot.

Autopilot selectează automat locațiile de intrare și ieșire a datelor de antrenament. Trebuie doar să specificați coloana țintă și să faceți clic Creați experiment pentru a vă antrena modelul.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Testați modelul pe un eșantion rezistent

Când Autopilot finalizează experimentul, putem vizualiza rezultatele antrenamentului și putem explora cel mai bun model.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Alege Vezi detaliile modelului pentru modelul dorit, apoi alegeți Performanţă pe pagina cu detaliile modelului.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Performanţă fila afișează mai multe teste de măsurare model, inclusiv o matrice de confuzie, aria de sub curba de precizie/rechemare (AUCPR) și aria de sub curba caracteristică de funcționare a receptorului (ROC). Acestea ilustrează performanța generală de validare a modelului, dar nu ne spun dacă modelul se va generaliza bine. Încă trebuie să efectuăm evaluări pe date de testare nevăzute pentru a vedea cât de exact modelul prezice dacă o persoană va avea diabet.

Pentru a ne asigura că modelul se generalizează suficient de bine, punem deoparte proba de testare pentru eșantionare independentă. Putem face acest lucru în interfața de utilizare a fluxului de date Wrangler.

Alegeți semnul plus de lângă Setul de date, alege Export cătreși alegeți Amazon S3.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Specificați o cale Amazon S3.

Ne referim la această cale atunci când rulăm inferența în lot pentru validare în secțiunea următoare.

Creați un nou blocnotes SageMaker pentru a efectua inferențe în loturi pe eșantionul reținut și pentru a evalua performanța testului. Consultați următoarele GitHub repo pentru o caiet de probă pentru a rula inferența în lot pentru validare.

Analizați performanța setului de validare și de testare

Când transformarea lotului este completă, creăm o matrice de confuzie pentru a compara rezultatele reale și cele prognozate ale setului de date holdout.

Vedem 23 de pozitive adevărate și 33 de negative adevărate din rezultatele noastre. În cazul nostru, adevăratele pozitive se referă la modelul care prezice corect un individ ca având diabet. În schimb, adevăratele negative se referă la modelul care prezice corect un individ ca nu are diabet.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În cazul nostru, precizia și amintirea sunt valori importante. Precizia măsoară în esență toți indivizii despre care se prevede că au diabet, câți au cu adevărat diabet? În schimb, reamintirea ajută la măsurarea tuturor persoanelor care au într-adevăr diabet zaharat, câte au fost prezise că au diabet? De exemplu, este posibil să doriți să utilizați un model cu mare precizie, deoarece doriți să tratați cât mai multe persoane posibil, mai ales dacă prima etapă a tratamentului nu are niciun efect asupra persoanelor fără diabet (acestea sunt fals pozitive - cele etichetate ca având când de fapt nu).

De asemenea, trasăm aria sub graficul curbei ROC (AUC) pentru a evalua rezultatele. Cu cât este mai mare ASC, cu atât modelul face mai bine distincția între clase, ceea ce în cazul nostru este cât de bine funcționează modelul la distingerea pacienților cu și fără diabet.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Concluzie

În această postare, am demonstrat cum să vă integrați procesarea datelor, incluzând inginerie și construirea de modele folosind Data Wrangler și Autopilot. Am evidențiat modul în care puteți antrena și regla cu ușurință un model cu Autopilot direct din interfața de utilizator Data Wrangler. Cu această caracteristică de integrare, putem construi rapid un model după finalizarea ingineriei caracteristicilor, fără a scrie niciun cod. Apoi am făcut referire la cel mai bun model al Autopilot pentru a rula predicții pe lot folosind clasa AutoML cu SDK-ul SageMaker Python.

Soluțiile low-code și AutoML, cum ar fi Data Wrangler și Autopilot, îndepărtează nevoia de a avea cunoștințe profunde de codificare pentru a construi modele robuste de ML. Începeți să utilizați Data Wrangler astăzi pentru a experimenta cât de ușor este să construiești modele ML folosind Pilot automat SageMaker.

Despre Autori

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Peter Chung este arhitect de soluții pentru AWS și este pasionat de a ajuta clienții să descopere informații din datele lor. El a construit soluții pentru a ajuta organizațiile să ia decizii bazate pe date, atât în sectorul public, cât și în cel privat. El deține toate certificările AWS, precum și două certificări GCP. Îi place cafeaua, să gătească, să rămână activ și să petreacă timpul cu familia.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Pradeep Reddy este Senior Product Manager în echipa SageMaker Low/No Code ML, care include SageMaker Autopilot, SageMaker Automatic Model Tuner. În afara serviciului, lui Pradeep îi place să citească, să alerge și să se plimbe cu computere de dimensiunea palmei, cum ar fi raspberry pi și alte tehnologii de automatizare a locuinței.

Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Arunprasath Shankar este un arhitect specializat în soluții de inteligență artificială și învățare automată (AI / ML) cu AWS, ajutând clienții globali să își scaleze soluțiile de AI în mod eficient și eficient în cloud. În timpul liber, lui Arun îi place să urmărească filme SF și să asculte muzică clasică.

Srujan Gopu este inginer senior frontend în SageMaker Low Code/No Code ML, care ajută clienții produselor Autopilot și Canvas. Când nu codifică, lui Srujan îi place să alerge cu câinele său Max, să asculte cărți audio și să dezvolte jocuri VR.