Interactive Data Prep Widget For Notebooks Powered By Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

Potrivit unui sondaj din 2020 al oamenilor de știință de date, realizat de Anaconda, pregătirea datelor este unul dintre pașii critici în învățarea automată (ML) și fluxurile de lucru de analiză a datelor și, adesea, necesită foarte mult timp pentru oamenii de știință. Oamenii de știință de date își petrec aproximativ 66% din timp pe sarcini de pregătire și analiză a datelor, inclusiv încărcarea (19%), curățarea (26%) și vizualizarea datelor (21%).

Amazon SageMaker Studio este primul mediu de dezvoltare complet integrat (IDE) pentru ML. Cu un singur clic, oamenii de știință de date și dezvoltatorii se pot învârti rapid Caiete de studio pentru a explora seturi de date și a construi modele. Dacă preferați o interfață interactivă și bazată pe GUI, puteți utiliza Amazon SageMaker Data Wrangler, cu peste 300 de vizualizări, analize și transformări integrate pentru a procesa eficient datele susținute de Spark, fără a scrie o singură linie de cod.

Data Wrangler oferă acum o capacitate încorporată de pregătire a datelor în Notebook-uri Amazon SageMaker Studio care le permite practicienilor ML să revizuiască vizual caracteristicile datelor, să identifice probleme și să remedieze problemele de calitate a datelor — în doar câteva clicuri direct în blocnotes.

În această postare, vă arătăm cum Data Wrangler Widgetul de pregătire a datelor generează automat vizualizări cheie deasupra unui cadru de date Pandas pentru a înțelege distribuția datelor, a detecta problemele legate de calitatea datelor și informațiile de suprafață, cum ar fi valorile aberante pentru fiecare caracteristică. Ajută să interacționeze cu datele și să descopere perspective care pot trece neobservate în cazul interogărilor ad-hoc. De asemenea, recomandă transformări de remediat, vă permite să aplicați transformări de date pe interfața de utilizare și să generați automat codul în celulele blocnotesului. Această funcție este disponibilă în toate regiunile în care este disponibil SageMaker Studio.

Prezentare generală a soluțiilor

Să înțelegem mai departe cum acest nou widget face explorarea datelor semnificativ mai ușoară și oferă o experiență perfectă pentru a îmbunătăți experiența generală de pregătire a datelor pentru inginerii și practicienii de date. Pentru cazul nostru de utilizare, folosim o versiune modificată a Setul de date Titanic, un set de date popular în comunitatea ML, care a fost acum adăugat ca a set de date eșantion astfel încât să puteți începe rapid cu SageMaker Data Wrangler. Setul de date original a fost obținut de la OpenMLși modificat pentru a adăuga probleme sintetice de calitate a datelor de către Amazon pentru această demonstrație. Puteți descărca versiunea modificată a setului de date din calea S3 publică s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

Cerințe preliminare

Pentru a obține experiență practică cu toate funcțiile descrise în această postare, completați următoarele cerințe preliminare:

Asigurați-vă că aveți un cont AWS, acces securizat pentru a vă conecta la cont prin intermediul Consola de administrare AWS, și Gestionarea identității și accesului AWS (IAM) permisiuni de utilizare Amazon SageMaker și Serviciul Amazon de stocare simplă resurse (Amazon S3).
Utilizați setul de date eșantion din calea S3 publică s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv sau alternativ încărcați-l într-o găleată S3 în contul dvs.
Accesați un domeniu SageMaker și accesați Studio pentru a utiliza notebook-uri. Pentru instrucțiuni, consultați Integrat la domeniul Amazon SageMaker. Dacă utilizați Studio existent, faceți upgrade la cea mai recentă versiune de Studio.

Activați widgetul de explorare a datelor

Când utilizați cadre de date Pandas, utilizatorii de notebook-uri Studio pot activa manual widgetul de explorare a datelor, astfel încât vizualizările noi să fie afișate implicit în partea de sus a fiecărei coloane. Widgetul arată o histogramă pentru datele numerice și o diagramă cu bare pentru alte tipuri de date. Aceste reprezentări vă permit să înțelegeți rapid distribuția datelor și să descoperiți valorile lipsă și valorile aberante fără a fi nevoie să scrieți metode standard pentru fiecare coloană. Puteți trece cu mouse-ul peste bara din fiecare imagine pentru a obține o înțelegere rapidă a distribuției.

Deschideți Studio și creați un nou blocnotes Python 3. Asigurați-vă că alegeți Știința datelor 3.0 imagine din imaginile SageMaker făcând clic Schimbați mediul butonul.

Widgetul de explorare a datelor este disponibil în următoarele imagini. Pentru lista imaginilor implicite SageMaker, consultați Imagini disponibile Amazon SageMaker.

Python 3 (Data Science) cu Python 3.7
Python 3 (Data Science 2.0) cu Python 3.8
Python 3 (Data Science 3.0) cu Python 3.10
Spark Analytics 1.0 și 2.0

Pentru a utiliza acest widget, importați SageMaker_DataWrangler bibliotecă. Încărcați versiunea modificată a setului de date Titanic de la S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv și citiți CSV-ul cu biblioteca Pandas:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

Vizualizați datele

După ce datele sunt încărcate în cadrul de date Pandas, puteți vizualiza datele doar folosind df or display(df). Pe lângă listarea rândului, widgetul de pregătire a datelor produce informații, vizualizări și sfaturi privind calitatea datelor. Nu trebuie să scrieți niciun cod suplimentar pentru a genera informații despre caracteristici și ținți, informații despre distribuție sau verificări de calitate a datelor. Puteți alege antetul tabelului din cadrul de date pentru a vizualiza rezumatul statistic care arată avertismentele privind calitatea datelor, dacă există.

vizualiza datele

Fiecare coloană arată o diagramă cu bare sau o histogramă bazată pe tipul de date. În mod implicit, widget-ul prelevează până la 10,000 de observații pentru a genera perspective semnificative. De asemenea, oferă opțiunea de a rula analiza statistică pe întregul set de date.

După cum se arată în următoarea captură de ecran, acest widget identifică dacă o coloană are date categorice sau cantitative.

date categorice sau cantitative

Pentru datele categorice, widgetul generează diagrama cu bare cu toate categoriile. În următoarea captură de ecran, de exemplu, coloana Sex identifică categoriile de pe date. Puteți trece cu mouse-ul peste bar (masculin în acest caz) pentru a vedea detaliile acestor categorii, cum ar fi numărul total de rânduri cu valoarea male și distribuția acesteia în setul de date total vizualizat (64.07% în acest exemplu). De asemenea, evidențiază procentul total de valori lipsă într-o culoare diferită pentru datele categorice. Pentru date cantitative precum ticket coloană, arată distribuția împreună cu procentul de valori nevalide.

Dacă doriți să vedeți o vizualizare standard Pandas în notebook, puteți alege Vizualizați tabelul Pandas și comutați între widget și reprezentarea Pandas, așa cum se arată în următoarea captură de ecran.

Vizualizați tabelul Pandas

vizualizați tabelul de date wrangler

Pentru a obține informații mai detaliate despre datele din coloană, alegeți antetul coloanei pentru a deschide un panou lateral dedicat coloanei. Aici puteți observa două file: Insights și Calitatea datelor.

Perspective și calitatea datelor

În secțiunile următoare, vom explora aceste două opțiuni mai detaliat.

Insights

Insights fila oferă detalii cu descrieri pentru fiecare coloană. Această secțiune listează statistici agregate, cum ar fi modul, numărul de unice, rapoartele și contorizarea valorilor lipsă/invalide etc., precum și vizualizarea distribuției datelor cu ajutorul unei histograme sau a unei diagrame cu bare. În următoarele capturi de ecran, puteți verifica informațiile despre date și informațiile despre distribuție afișate cu vizualizări ușor de înțeles generate pentru coloana selectată survived.

Calitatea datelor

Widgetul de pregătire a datelor de studio evidențiază problemele identificate de calitate a datelor cu semnul de avertizare din antet. Widget poate identifica întregul spectru de probleme de calitate a datelor, de la elemente de bază (valori lipsă, coloană constantă etc.) la mai multe specifice ML (scurgere țintă, caracteristici de scor predictiv scăzut etc.). Widgetul evidențiază celulele care cauzează problema calității datelor și reorganizează rândurile pentru a pune celulele problematice în partea de sus. Pentru a remedia problema de calitate a datelor, widget-ul oferă mai multe transformatoare, aplicabile la un clic pe un buton.

Pentru a explora secțiunea de calitate a datelor, alegeți antetul coloanei, iar în panoul lateral, alegeți Calitatea datelor fila. Ar trebui să vedeți următoarele în mediul dvs. Studio.

fila de calitate a datelor

Să ne uităm la diferitele opțiuni disponibile pe Calitatea datelor fila. Pentru acest exemplu, alegem coloana de vârstă, care este detectată ca o coloană cantitativă pe baza datelor. După cum putem vedea în următoarea captură de ecran, acest widget sugerează diferite tipuri de transformări pe care le puteți aplica, inclusiv cele mai comune acțiuni, cum ar fi Înlocuiți cu o valoare nouă, Picătură lipsă, Înlocuiți cu mediana, Sau Înlocuiește cu medie. Puteți alege oricare dintre acestea pentru setul de date pe baza cazului de utilizare (problema ML pe care încercați să o rezolvați). De asemenea, vă oferă Aruncați coloana opțiune dacă doriți să eliminați complet caracteristica.

vârstă

Când alegi Aplicați și exportați codul, transformarea este aplicată copiei profunde a cadrului de date. După ce transformarea este aplicată cu succes, tabelul de date este reîmprospătat cu informații și vizualizări. Codul de transformare este generat după celula existentă în blocnotes. Puteți rula acest cod exportat mai târziu pentru a aplica transformarea pe seturile dvs. de date și pentru a o extinde în funcție de nevoile dvs. Puteți personaliza transformarea modificând direct codul generat. Dacă aplicăm Picătură lipsă opțiunea din coloana Vârstă, următorul cod de transformare este aplicat setului de date și codul este, de asemenea, generat într-o celulă de sub widget:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

Următorul este un alt exemplu de fragment de cod pentru Înlocuiți cu mediana:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

Acum să ne uităm la capacitatea de perspectivă țintă a widgetului de pregătire a datelor. Să presupunem că doriți să utilizați survived caracteristică pentru a prezice dacă un pasager va supraviețui. Alege survived antetul coloanei. În panoul lateral, alegeți Selectați ca coloană țintă. Distribuția ideală de date pentru survived caracteristica ar trebui să aibă doar două clase: da (1) sau nu (0), care ajută la clasificarea șanselor de supraviețuire la accidentul Titanic. Cu toate acestea, din cauza inconsecvențelor datelor din coloana țintă aleasă, caracteristica supraviețuită are 0, 1, ?, unknown, și yes.

selectați ca coloană țintă

Alegeți tipul de problemă în funcție de coloana țintă selectată, care poate fi oricare Clasificare or Regres. Pentru coloana supraviețuită, tipul de problemă este clasificarea. Alege Alerga pentru a genera informații pentru coloana țintă.

supraviețuit

Widgetul de pregătire a datelor listează informații despre coloana țintă cu recomandări și exemple de explicații pentru a rezolva problemele legate de calitatea datelor coloanei țintă. De asemenea, evidențiază automat datele anormale din coloană.

vizați statistici coloanei cu recomandări

Alegem transformarea recomandată Renunțați la valorile țintă rare, deoarece există mai puține observații pentru valorile țintă rare.

Reduceți valoarea țintă rară

Transformarea aleasă este aplicată cadrului de date Pandas și valorile țintă neobișnuite au fost eliminate din coloana supraviețuită. Vezi următorul cod:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

Rezultatele transformării aplicate sunt vizibile imediat pe cadrul de date. Pentru a urmări activitățile de pregătire a datelor aplicate folosind widget-ul de pregătire a datelor, codul transformat este generat și în celula de notebook următoare.

Concluzie

În această postare, am oferit îndrumări despre modul în care widget-ul de pregătire a datelor Studio vă poate ajuta să analizați distribuțiile de date, să explorați informații despre calitatea datelor generate de instrument și să descoperiți probleme potențiale, cum ar fi valori aberante pentru fiecare caracteristică critică. Acest lucru ajută la îmbunătățirea calității generale a datelor pentru a vă ajuta să antrenați modele de înaltă calitate și elimină sarcinile grele nediferențiate, permițându-vă să transformați datele de pe interfața cu utilizatorul și să generați automat codul pentru celulele notebook-ului. Puteți utiliza apoi acest cod în conductele dvs. MLOps pentru a construi reproductibilitatea, pentru a evita pierderea timpului cu sarcini repetitive și pentru a reduce problemele de compatibilitate prin accelerarea construcției și implementarea conductelor de dispută de date.

Dacă sunteți nou la SageMaker Data Wrangler sau Studio, consultați Începeți cu SageMaker Data Wrangler. Dacă aveți întrebări legate de această postare, vă rugăm să o adăugați în secțiunea de comentarii.

Despre Autori

Parth Patel este arhitect de soluții la AWS în zona golfului San Francisco. Parth îi îndrumă pe clienți să-și accelereze călătoria către cloud și să-i ajute să adopte și să crească cu succes pe AWS Cloud. El se concentrează pe învățarea automată, durabilitatea mediului și modernizarea aplicațiilor.

Isha Dua este un arhitect senior de soluții cu sediul în San Francisco Bay Area. Ea îi ajută pe clienții AWS Enterprise să se dezvolte prin înțelegerea obiectivelor și provocărilor lor și îndrumându-i asupra modului în care își pot arhitectura aplicațiile într-o manieră nativă în cloud, asigurându-se în același timp că sunt rezistente și scalabile. Este pasionată de tehnologiile de învățare automată și de sustenabilitatea mediului.

Hariharan Suresh este arhitect senior de soluții la AWS. Este pasionat de baze de date, de învățare automată și de proiectarea de soluții inovatoare. Înainte de a se alătura AWS, Hariharan a fost arhitect de produs, specialist principal în implementare bancară și dezvoltator și a lucrat cu organizații BFSI timp de peste 11 ani. În afara tehnologiei, îi plac parapanta și ciclismul.

Dani Mitchell este arhitect specializat în soluții AI/ML la Amazon Web Services. El se concentrează pe cazuri de utilizare Computer Vision și ajută clienții din EMEA să-și accelereze călătoria ML.

Timestamp-ul: December 1, 2022December 1, 2022

Timestamp-ul: Aprilie 13, 2023

Widget interactiv de pregătire a datelor pentru notebook-uri alimentat de Amazon SageMaker Data Wrangler

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Activați widgetul de explorare a datelor

Vizualizați datele

Insights

Calitatea datelor

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Noțiuni introductive cu conectorul Amazon Kendra Box

Configurați accesul Amazon S3 pe mai multe conturi pentru notebook-urile Amazon SageMaker în modul numai VPC utilizând punctele de acces Amazon S3 | Amazon Web Services

Utilizați un model de bază generativ AI pentru rezumat și răspunsuri la întrebări folosind propriile date | Amazon Web Services

Optimizați costul de implementare al modelelor de bază Amazon SageMaker JumpStart cu puncte finale asincrone Amazon SageMaker | Amazon Web Services

Găzduiește serverul de cod pe Amazon SageMaker

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont