Create Random And Stratified Samples Of Data With Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

În această postare, vă prezentăm două tehnici de eșantionare în Amazon SageMaker Data Wrangler astfel încât să puteți crea rapid fluxuri de lucru de procesare pentru datele dvs. Acoperim atât tehnicile de eșantionare aleatorie, cât și de eșantionare stratificată, pentru a vă ajuta să vă eșantionați datele în funcție de cerințele dumneavoastră specifice.

Data Wrangler reduce timpul necesar pentru agregarea și pregătirea datelor pentru învățarea automată (ML) de la săptămâni la minute. Puteți simplifica procesul de pregătire a datelor și de inginerie a caracteristicilor și puteți finaliza fiecare pas al fluxului de lucru de pregătire a datelor, inclusiv selecția datelor, curățarea, explorarea și vizualizarea, dintr-o singură interfață vizuală. Cu instrumentul de selectare a datelor Data Wrangler, puteți alege datele dorite din diverse surse de date și le puteți importa cu un singur clic. Data Wrangler conține peste 300 de transformări de date încorporate, astfel încât să puteți normaliza, transforma și combina rapid funcții fără a fi nevoie să scrieți niciun cod. Cu șabloanele de vizualizare ale Data Wrangler, puteți previzualiza și inspecta rapid dacă aceste transformări sunt finalizate așa cum ați dorit, vizându-le în Amazon SageMaker Studio, primul mediu de dezvoltare complet integrat (IDE) pentru ML. După ce datele dvs. sunt pregătite, puteți crea fluxuri de lucru ML complet automatizate cu Pipelines Amazon SageMaker și păstrați-le pentru reutilizare în Magazinul de caracteristici Amazon SageMaker.

Ce este eșantionarea și cum poate ajuta

În analiza statistică, setul total de observații este cunoscut sub numele de populație. Când lucrați cu date, adesea nu este fezabil din punct de vedere computațional să măsurați fiecare observație de la populație. Eșantionarea statistică este o procedură care vă permite să înțelegeți datele dvs. selectând subseturi din populație.

Eșantionarea oferă o soluție practică care sacrifică o anumită precizie de dragul caracterului practic și al ușurinței. Pentru a vă asigura că eșantionul dvs. reprezintă o bună reprezentare a populației totale, puteți utiliza strategii de eșantionare. Data Wrangler acceptă două dintre cele mai comune strategii: eșantionare aleatorie și eșantionare stratificată.

Eșantionare aleatorie

Dacă aveți un set de date mare, experimentarea pe acel set de date poate consuma mult timp. Data Wrangler oferă eșantionare aleatorie, astfel încât să puteți procesa și vizualiza în mod eficient datele. De exemplu, poate doriți să calculați numărul mediu de achiziții pentru un client într-un interval de timp sau poate doriți să calculați rata de uzură a unui abonat. Puteți utiliza un eșantion aleatoriu pentru a vizualiza aproximări ale acestor valori.

Un eșantion aleatoriu din setul de date este ales astfel încât fiecare element să aibă o probabilitate egală de a fi selectat. Această operație este efectuată într-o manieră eficientă potrivită pentru seturi mari de date, astfel încât dimensiunea eșantionului returnat este aproximativ dimensiunea cerută și nu neapărat egală cu dimensiunea solicitată.

Puteți utiliza eșantionarea aleatorie dacă doriți să faceți calcule aproximative rapide pentru a înțelege setul de date. Pe măsură ce dimensiunea eșantionului devine mai mare, eșantionul aleatoriu poate aproxima mai bine întregul set de date, dar dacă nu includeți toate punctele de date, eșantionul dvs. aleator poate să nu includă toate valorile aberante și cazurile marginale. Dacă doriți să vă pregătiți întregul set de date în mod interactiv, puteți trece și la un tip de instanță mai mare.

Ca regulă generală, eroarea de eșantionare în calcularea mediei populației folosind un eșantion aleatoriu tinde spre 0 pe măsură ce eșantionul devine mai mare. Pe măsură ce dimensiunea eșantionului crește, eroarea scade ca și inversul rădăcinii pătrate a dimensiunii eșantionului. Cu cât eșantionul este mai mare, cu atât aproximarea este mai bună.

Eșantionarea stratificată

În unele cazuri, populația dvs. poate fi împărțită în straturi sau grupe care se exclud reciproc, cum ar fi locația geografică pentru adrese, anul de publicare pentru melodii sau intervale de impozitare pentru venituri. Eșantionarea aleatorie este cea mai populară tehnică de eșantionare, dar dacă unele straturi sunt mai puțin frecvente în populația dvs., puteți utiliza eșantionarea stratificată în Data Wrangler pentru a vă asigura că fiecare strat este reprezentat proporțional în eșantionul dvs. Acest lucru poate fi util pentru a reduce erorile de eșantionare, precum și pentru a vă asigura că capturați cazuri limită în timpul experimentării.

În lumea reală, tranzacțiile frauduloase cu cardul de credit sunt evenimente rare și reprezintă de obicei mai puțin de 1% din datele tale. Dacă ar fi să eșantionăm aleatoriu, nu este neobișnuit ca eșantionul să conțină foarte puține sau deloc tranzacții frauduloase. Ca urmare, atunci când antrenăm un model, am avea prea puține exemple frauduloase pentru a învăța un model precis. Putem folosi eșantionarea stratificată pentru a ne asigura că avem o reprezentare proporțională a tranzacțiilor frauduloase.

În eșantionarea stratificată, dimensiunea fiecărei straturi din eșantion este proporțională cu dimensiunea straturilor din populație. Acest lucru funcționează prin împărțirea datelor în straturi pe baza coloanei specificate, selectând eșantioane aleatorii din fiecare strat cu proporția corectă și combinând acele eșantioane într-un eșantion stratificat al populației.

Eșantionarea stratificată este o tehnică utilă atunci când doriți să înțelegeți cum se compară diferitele grupuri din datele dvs. și doriți să vă asigurați că aveți o reprezentare adecvată din fiecare grup.

Eșantionare aleatorie la importul din Amazon S3

În această secțiune, folosim eșantionarea aleatorie cu un set de date format din evenimente frauduloase și nefrauduloase din sistemul nostru de detectare a fraudelor. Puteți Descarca setul de date de urmat împreună cu această postare (Licență de atribuire internațională CC 4.0).

La momentul scrierii acestui articol, puteți importa seturi de date din Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, și Fulg de zăpadă. Setul nostru de date este foarte mare și conține 1 milion de rânduri. În acest caz, dorim să eșantionăm 1,0000 de rânduri la import din Amazon S3 pentru o experimentare interactivă în Data Wrangler.

Deschideți SageMaker Studio și creați un nou flux de date Wrangler.
În Date de import, alege Amazon S3.
Alegeți setul de date de importat.
În Detalii panoul, furnizați numele setului de date și tipul fișierului.
Pentru Prelevarea de probe, alege Întâmplător.
Pentru Marime de mostra, introduce 10000.
Alege Import pentru a încărca setul de date în Data Wrangler.

Puteți vizualiza doi pași distincti pe pagina fluxului de date din Data Wrangler. Primul pas indică încărcarea setului de date eșantion pe baza strategiei de eșantionare pe care ați definit-o. După ce datele sunt încărcate, Data Wrangler efectuează detectarea automată a tipurilor de date pentru fiecare dintre coloanele din setul de date. Acest pas este adăugat în mod implicit pentru toate seturile de date.

Acum puteți revizui datele eșantionate aleatoriu în Data Wrangler adăugând o analiză.

Alegeți semnul plus de lângă Tipuri de date Și alegeți Analiză.
Pentru Tipul analizei¸ alege Graficul de dispersie.
Alege feat_1 și feat_2 în ceea ce privește Axa X și Axa Y, respectiv.
Pentru Colorează după, alege este_fraudă.

Când vă simțiți confortabil cu setul de date, continuați să faceți transformări suplimentare de date conform cerințelor dvs. de afaceri pentru a vă pregăti datele pentru ML.

În următoarea captură de ecran, putem observa tranzacțiile frauduloase (albastru închis) și nefrauduloase (albastru deschis) din analiza noastră.

În secțiunea următoare, vom discuta despre utilizarea eșantionării stratificate pentru a ne asigura că cazurile frauduloase sunt alese proporțional.

Eșantionare stratificată cu o transformare

Data Wrangler vă permite să eșantionați la import, precum și să eșantionați printr-o transformare. În această secțiune, discutăm despre utilizarea eșantionării stratificate printr-o transformare după ce ați importat setul de date în Data Wrangler.

Pentru a iniția eșantionarea, pe Flux de date fila, alegeți semnul plus de lângă setul de date importat și alegeți Adăugați Transform.

La momentul scrierii acestui articol, Data Wrangler oferă mai mult decât 300 de transformări încorporate. Pe lângă transformările încorporate, puteți scrie propriile transformări personalizate în Pandas sau PySpark.

De la Adăugați transformare lista, alege Prelevarea de probe.

Acum puteți utiliza trei strategii de eșantionare distincte: limită, aleatorie și stratificată.

Pentru Metoda de prelevare, alege Stratificat.
Folosește is_fraud coloană ca coloană de stratificare.
Alege Anunţ pentru a previzualiza transformarea, apoi alegeți Adăuga pentru a adăuga această transformare ca pas la rețeta ta de transformare.

Fluxul dvs. de date reflectă acum etapa de eșantionare adăugată.

Acum putem revizui datele eșantionate aleatoriu adăugând o analiză.

Alegeți semnul plus și alegeți Analiză.
Pentru Tipul analizei¸ alege Histogramă.
Alege este_fraudă pentru ambele Axa X și Colorează după.
Alege Anunţ.

În următoarea captură de ecran, putem observa defalcarea cazurilor frauduloase (albastru închis) și nefrauduloase (albastru deschis) alese prin eșantionare stratificată în proporțiile corecte de 20% frauduloase și 80% nefrauduloase.

Concluzie

Este esențial să eșantionați corect datele atunci când lucrați cu seturi de date extrem de mari și să alegeți strategia de eșantionare potrivită pentru a răspunde cerințelor dvs. de afaceri. Eficacitatea eșantionării dvs. se bazează pe diverși factori, inclusiv rezultatul afacerii, disponibilitatea datelor și distribuția. În această postare, am explicat cum să utilizați Data Wrangler și strategiile sale de eșantionare încorporate pentru a vă pregăti datele.

Puteți începe să utilizați această capacitate astăzi în toate regiunile în care SageMaker Studio este disponibil. Pentru a începe, vizitați Pregătiți datele ML cu Amazon SageMaker Data Wrangler.

Mulţumiri

Autorii ar dori să-i mulțumească lui Jonathan Chung (Om de știință aplicat) pentru recenzia sa și feedback-ul valoros cu privire la acest articol.

Despre Autori

Ben Harris este un inginer software cu experiență în proiectarea, implementarea și întreținerea conductelor de date scalabile și soluții de învățare automată într-o varietate de domenii.

Vishaal Kapoor este un om de știință senior aplicat cu AWS AI. Este pasionat de a ajuta clienții să-și înțeleagă datele în Data Wrangler. În timpul liber, face biciclete montane, face snowboard și își petrece timpul cu familia.

Meenakshisundaram Thandavarayan este un specialist senior AI/ML cu AWS. El ajută conturile strategice Hi-Tech în călătoria lor AI și ML. Este foarte pasionat de IA bazată pe date.

Ajai Sharma este director de produs principal pentru Amazon SageMaker, unde se concentrează pe Data Wrangler, un instrument vizual de pregătire a datelor pentru oamenii de știință de date. Înainte de AWS, Ajai a fost expert în știința datelor la McKinsey and Company, unde a condus angajamente axate pe ML pentru companii de finanțe și asigurări de top din întreaga lume. Ajai este pasionat de știința datelor și îi place să exploreze cei mai noi algoritmi și tehnici de învățare automată.

Timestamp-ul: Aprilie 26, 2022

Timestamp-ul: Februarie 6, 2024

Creați mostre aleatorii și stratificate de date cu Amazon SageMaker Data Wrangler

Republicat de Platon

Ce este eșantionarea și cum poate ajuta

Eșantionare aleatorie

Eșantionarea stratificată

Eșantionare aleatorie la importul din Amazon S3

Eșantionare stratificată cu o transformare

Concluzie

Mulţumiri

Despre Autori

Mai mult de la Învățare automată AWS

Ajustați modelele Whisper pe Amazon SageMaker cu LoRA | Amazon Web Services

Căutați inteligent conținut Adobe Experience Manager folosind Amazon Kendra | Amazon Web Services

Creați date sintetice pentru conductele de viziune computerizată pe AWS

Operaționalizați notebook-urile Amazon SageMaker Studio ca lucrări de notebook programate

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont