Introducing Amazon SageMaker Data Wrangler’s New Embedded Visualizations

Republicat de Platon

Urmaritori: 0

Inspectarea manuală a calității datelor și curățarea datelor este un proces dureros și consumator de timp, care poate lua o mare parte din timpul unui cercetător de date pentru un proiect. Potrivit unui sondaj din 2020 al oamenilor de știință de date, realizat de Anaconda, oamenii de știință de date își petrec aproximativ 66% din timp pe sarcini de pregătire și analiză a datelor, inclusiv încărcarea (19%), curățarea (26%) și vizualizarea datelor (21%). Amazon SageMaker oferă o gamă largă de instrumente de pregătire a datelor pentru a satisface diferite nevoi și preferințe ale clienților. Pentru utilizatorii care preferă o interfață interactivă bazată pe GUI, SageMaker Data Wrangler oferă peste 300 de vizualizări, analize și transformări încorporate pentru a procesa eficient datele susținute de Spark, fără a scrie o singură linie de cod.

Vizualizarea datelor în învățarea automată (ML) este un proces iterativ și necesită vizualizarea continuă a setului de date pentru descoperire, investigare și validare. Punerea datelor în perspectivă presupune vizualizarea fiecărei coloane pentru a înțelege posibile erori de date, valori lipsă, tipuri de date greșite, date înșelătoare/incorecte, date aberante și multe altele.

În această postare, vă vom arăta cum Amazon SageMaker Data Wrangler generează automat vizualizări cheie ale distribuției datelor, detectează probleme de calitate a datelor și evidențiază informații despre date, cum ar fi valori aberante pentru fiecare caracteristică, fără a scrie o singură linie de cod. Ajută la îmbunătățirea experienței grilei de date cu avertismente automate de calitate (de exemplu, valori lipsă sau valori invalide). Vizualizările generate automat sunt, de asemenea, interactive. De exemplu, puteți afișa o tabulație a celor mai frecvente cinci articole ordonate în procente și puteți trece cu mouse-ul peste bară pentru a comuta între numărare și procent.

Cerințe preliminare

Amazon SageMaker Data Wrangler este o caracteristică SageMaker disponibilă în SageMaker Studio. Puteți urmări procesul de înscriere la Studio pentru a dezvolta mediul Studio și notebook-uri. Deși puteți alege dintre câteva metode de autentificare, cel mai simplu mod de a crea un domeniu Studio este să urmați Instrucțiuni de pornire rapidă. Pornirea rapidă utilizează aceleași setări implicite ca și configurația standard Studio. De asemenea, puteți alege să vă îmbarcați folosind Centrul de identitate AWS Identity and Access Management (IAM). (succesorul AWS Single Sign-On) pentru autentificare (consultați Accesați domeniul Amazon SageMaker folosind IAM Identity Center).

Soluție pasională

Începeți-vă SageMaker Studio Mediu și a crea un nou Fluxul de date Wrangler. Puteți fie să importați propriul set de date, fie să utilizați un exemplu de set de date (Titanic) după cum se vede în imaginea următoare. Aceste două noduri ( sursă nodul și de date tip nod) se pot face clic – când faceți dublu clic pe aceste două noduri, Data Wrangler va afișa tabelul.

În cazul nostru, să facem clic dreapta pe Tipuri de date pictograma și Adăugați o transformare:

Acum ar trebui să vedeți vizualizări în partea de sus a fiecărei coloane. Vă rugăm să lăsați ceva timp pentru ca diagramele să se încarce. Latența depinde de dimensiunea setului de date (pentru setul de date Titanic, ar trebui să dureze 1-2 secunde în instanța implicită).

Introducing Amazon SageMaker Data Wrangler’s new embedded visualizations PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Derulați la bara de sus orizontală trecând cu mouse-ul peste sfatul instrumentului. Acum că diagramele s-au încărcat, puteți vedea distribuția datelor, valorile nevalide și valorile lipsă. Valorile aberante și valorile lipsă sunt caracteristici ale datelor eronate și este esențial să le identificați, deoarece vă pot afecta rezultatele. Aceasta înseamnă că, deoarece datele dvs. provin dintr-un eșantion nereprezentativ, este posibil ca concluziile dvs. să nu fie generalizabile la situații din afara studiului dvs. Clasificarea valorilor poate fi văzută pe graficele din partea de jos unde valabil valorile sunt reprezentate în alb, invalid valorile în albastru și dispărut valorile în violet. Vă puteți uita și la valorile extreme reprezentat de punctele albastre din stânga sau dreapta unei diagrame.

Introducing Amazon SageMaker Data Wrangler’s new embedded visualizations PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Toate vizualizările vin sub formă de histograme. Pentru datele necategorice, este definit un set de găleți pentru fiecare bin. Pentru datele categorice, fiecare valoare unică este tratată ca un bin. În partea de sus a histogramei, există o diagramă cu bare care vă arată valorile nevalide și lipsă. Putem vizualiza raportul valorilor valide pentru tipurile Numeric, Categoric, Binary, Text și Datetime, precum și raportul valorilor lipsă pe baza totalului de celule nule și goale și, în final, raportul valorilor nevalide. Să ne uităm la câteva exemple pentru a înțelege cum le puteți vedea folosind acestea Eșantionul pre-încărcat al lui Data Wrangler Titanic Dataset.

Exemplu 1 – Ne putem uita la valorile lipsă de 20% pentru VÂRSTĂ caracteristică/coloană. Este esențial să se ocupe de datele lipsă în domeniul cercetării legate de date/ML, fie prin eliminarea lor, fie prin imputarea lor (manipularea valorilor lipsă cu o anumită estimare).

Introducing Amazon SageMaker Data Wrangler’s new embedded visualizations PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Puteți procesa valorile lipsă folosind Gestionați valorile lipsă grup de transformare. Folosește Imputați lipsă transforma pentru a genera valori imputate unde valorile lipsă au fost găsite în coloana de intrare. Configurația depinde de tipul dvs. de date.

În acest exemplu, VÂRSTĂ coloana are tip de date numerice. Pentru strategia de imputare, putem alege să imputam însemna sau mediană aproximativă peste valorile prezente în setul de date.

Acum că am adăugat transformarea, putem vedea că VÂRSTĂ coloana nu mai are valori lipsă.

Exemplu 2 – Ne putem uita la valorile invalide de 27% pentru BILET caracteristică/coloană care este din STRING tip. Datele nevalide pot produce estimări părtinitoare, care pot reduce acuratețea unui model și pot duce la concluzii false. Să explorăm câteva transformări pe care le putem utiliza pentru a gestiona datele nevalide din BILET coloana.

Privind captura de ecran, vedem că unele dintre intrări sunt scrise într-un format care conține alfabete înaintea cifrelor „PC 17318” iar altele sunt doar numere precum „11769".

Putem alege să aplicăm o transformare pentru a căuta și edita modele specifice în șiruri precum „PC” și înlocuiți-le. Apoi, ne putem arunca şir coloană la un tip nou, cum ar fi Lung pentru ușurință în utilizare.

Acest lucru ne lasă în continuare cu 19% valori lipsă pe BILET caracteristică. Similar cu exemplul 1, acum putem imputa valorile lipsă folosind media sau mediana aproximativă. Caracteristica BILET nu ar trebui să mai aibă valori nevalide sau lipsă, conform imaginii de mai jos.

Pentru a vă asigura că nu suportați taxe după ce urmați acest tutorial, asigurați-vă că dvs închideți aplicația Data Wrangler.

Concluzie

În această postare, am prezentat noul Amazon Sagemaker Data Wrangler widget care va ajuta la eliminarea ridicarea greutății nediferențiate pentru utilizatorii finali în timpul pregătirii datelor, cu vizualizări la suprafață automată și statistici de profilare a datelor pentru fiecare caracteristică. Acest widget facilitează vizualizarea datelor (de exemplu, histogramă categorială/necategorica), detectarea problemelor de calitate a datelor (de exemplu, valori lipsă și valori invalide) și informații despre datele de suprafață (de exemplu, valori aberante și N elementul de top).

Puteți începe să utilizați această capacitate astăzi în toate regiunile în care SageMaker Studio este disponibil. Incearcași spuneți-ne ce părere aveți. Așteptăm mereu cu nerăbdare feedbackul dvs., fie prin contactele dvs. obișnuite de asistență AWS, fie prin intermediul Forumul AWS pentru SageMaker.

Despre Autori

Isha Dua este un arhitect senior de soluții cu sediul în San Francisco Bay Area. Ea îi ajută pe clienții AWS Enterprise să se dezvolte prin înțelegerea obiectivelor și provocărilor lor și îi îndrumă asupra modului în care își pot arhitectura aplicațiile într-o manieră nativă în cloud, asigurându-se în același timp că sunt rezistente și scalabile. Este pasionată de tehnologiile de învățare automată și de sustenabilitatea mediului.

Parth Patel este arhitect de soluții la AWS în zona golfului San Francisco. Parth îi îndrumă pe clienți să-și accelereze călătoria către cloud și îi ajută să adopte cu succes AWS Cloud. El se concentrează pe ML și modernizarea aplicațiilor.

Timestamp-ul: December 13, 2022December 13, 2022

Timestamp-ul: Septembrie 29, 2022

Vă prezentăm noile vizualizări încorporate ale Amazon SageMaker Data Wrangler

Republicat de Platon

Cerințe preliminare

Soluție pasională

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Implementați modele mari pe Amazon SageMaker folosind DJLServing și inferența paralelă a modelului DeepSpeed

Controlați accesul la Amazon SageMaker Feature Store offline folosind AWS Lake Formation

Îmbunătățiți acuratețea căutării cu Verificatorul ortografic din Amazon Kendra

Analizați infestarea rozătoarelor folosind capabilitățile geospațiale Amazon SageMaker | Amazon Web Services

Dezvăluie cunoștințele în spațiile de lucru Slack cu căutare inteligentă folosind conectorul Amazon Kendra Slack

Cum Sophos antrenează un detector de malware PDF puternic și ușor la scară ultra cu Amazon SageMaker

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont