Create Random And Stratified Samples Of Data With Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Spremljevalci: 0

V tej objavi vas vodimo skozi dve tehniki vzorčenja Amazon SageMaker Data Wrangler tako da lahko hitro ustvarite delovne tokove obdelave vaših podatkov. Pokrivamo tehnike naključnega vzorčenja in stratificiranega vzorčenja, da vam pomagamo vzorčiti podatke na podlagi vaših posebnih zahtev.

Data Wrangler skrajša čas, potreben za združevanje in pripravo podatkov za strojno učenje (ML), s tednov na minute. Iz enega samega vizualnega vmesnika lahko poenostavite postopek priprave podatkov in inženiring funkcij ter dokončate vsak korak delovnega toka priprave podatkov, vključno z izbiro podatkov, čiščenjem, raziskovanjem in vizualizacijo. Z orodjem za izbiro podatkov Data Wrangler lahko izberete želene podatke iz različnih podatkovnih virov in jih uvozite z enim klikom. Data Wrangler vsebuje več kot 300 vgrajenih transformacij podatkov, tako da lahko hitro normalizirate, transformirate in kombinirate funkcije, ne da bi morali napisati kodo. S predlogami za vizualizacijo Data Wrangler si lahko hitro ogledate predogled in preverite, ali so te transformacije dokončane, kot ste nameravali, tako da si jih ogledate v Amazon SageMaker Studio, prvo popolnoma integrirano razvojno okolje (IDE) za ML. Ko so vaši podatki pripravljeni, lahko zgradite popolnoma avtomatizirane poteke dela ML Amazonski cevovodi SageMaker in jih shranite za ponovno uporabo Trgovina s funkcijami Amazon SageMaker.

Kaj je vzorčenje in kako lahko pomaga

V statistični analizi je celoten niz opazovanj znan kot prebivalstvo. Pri delu s podatki pogosto ni računalniško izvedljivo izmeriti vsakega opazovanja populacije. Statistično vzorčenje je postopek, ki vam omogoča razumevanje vaših podatkov z izbiro podmnožic iz populacije.

Vzorčenje ponuja praktično rešitev, ki žrtvuje nekaj natančnosti zaradi praktičnosti in enostavnosti. Če želite zagotoviti, da vaš vzorec dobro predstavlja celotno populacijo, lahko uporabite strategije vzorčenja. Data Wrangler podpira dve najpogostejši strategiji: naključno vzorčenje in stratificirano vzorčenje.

Naključno vzorčenje

Če imate velik nabor podatkov, je lahko eksperimentiranje s tem naborom podatkov dolgotrajno. Data Wrangler zagotavlja naključno vzorčenje, tako da lahko učinkovito obdelate in vizualizirate svoje podatke. Na primer, morda boste želeli izračunati povprečno število nakupov za stranko v določenem časovnem okviru ali pa boste morda želeli izračunati stopnjo odpadanja naročnika. Za vizualizacijo približkov teh meritev lahko uporabite naključni vzorec.

Naključni vzorec iz vašega nabora podatkov je izbran tako, da ima vsak element enako verjetnost, da bo izbran. Ta operacija se izvaja na učinkovit način, primeren za velike nabore podatkov, tako da je vrnjena velikost vzorca približno zahtevane velikosti in ni nujno enaka zahtevani velikosti.

Uporabite lahko naključno vzorčenje, če želite narediti hitre približne izračune, da boste razumeli svoj nabor podatkov. Ko se velikost vzorca poveča, se lahko naključni vzorec bolje približa celotnemu naboru podatkov, vendar če ne vključite vseh podatkovnih točk, vaš naključni vzorec morda ne bo vključeval vseh izstopajočih vrednosti in robnih primerov. Če želite interaktivno pripraviti celoten nabor podatkov, lahko preklopite tudi na večji tip primerka.

Splošno pravilo je, da se vzorčna napaka pri izračunu povprečja populacije z uporabo naključnega vzorca nagiba k 0, ko vzorec postaja večji. Ko se velikost vzorca poveča, se napaka zmanjša kot obratna vrednost kvadratnega korena velikosti vzorca. Če povzamemo, večji kot je vzorec, boljši je približek.

Stratificirano vzorčenje

V nekaterih primerih je mogoče vašo populacijo razdeliti na sloje ali medsebojno izključujoče skupine, kot je geografska lokacija za naslove, leto objave za pesmi ali davčni razredi za dohodke. Naključno vzorčenje je najbolj priljubljena tehnika vzorčenja, vendar če so nekateri stratumi neobičajni v vaši populaciji, lahko uporabite stratificirano vzorčenje v Data Wranglerju, da zagotovite, da je vsak stratum sorazmerno zastopan v vašem vzorcu. To je lahko koristno za zmanjšanje napak pri vzorčenju in za zagotovitev, da med eksperimentiranjem zajemate robne primere.

V resničnem svetu so goljufive transakcije s kreditnimi karticami redki dogodki in običajno predstavljajo manj kot 1 % vaših podatkov. Če bi vzorčili naključno, ni neobičajno, da vzorec vsebuje zelo malo ali nič goljufivih transakcij. Posledično bi imeli pri usposabljanju modela premalo goljufivih primerov, da bi se naučili natančnega modela. Uporabimo lahko stratificirano vzorčenje, da zagotovimo sorazmerno zastopanost goljufivih transakcij.

Pri stratificiranem vzorčenju je velikost vsakega stratuma v vzorcu sorazmerna z velikostjo stratumov v populaciji. To deluje tako, da vaše podatke razdelite na stratume na podlagi določenega stolpca, izberete naključne vzorce iz vsakega stratuma s pravilnim razmerjem in te vzorce združite v stratificiran vzorec populacije.

Stratificirano vzorčenje je uporabna tehnika, ko želite razumeti, kako se različne skupine v vaših podatkih primerjajo med seboj, in želite zagotoviti, da imate ustrezno zastopanost vsake skupine.

Naključno vzorčenje pri uvozu iz Amazon S3

V tem razdelku uporabljamo naključno vzorčenje z naborom podatkov, sestavljenim iz goljufivih in ne-goljufivih dogodkov iz našega sistema za odkrivanje goljufij. Ti lahko prenesi nabor podatkov, ki bo sledil tej objavi (Mednarodna licenca za avtorstvo CC 4.0).

V času tega pisanja lahko uvozite nabore podatkov iz Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShift, in Snežinka. Naš nabor podatkov je zelo velik in vsebuje 1 milijon vrstic. V tem primeru želimo vzorčiti 1,0000 vrstic pri uvozu iz Amazon S3 za nekaj interaktivnega eksperimentiranja v Data Wranglerju.

Odprite SageMaker Studio in ustvarite nov tok Data Wrangler.
Pod Uvozi podatke, izberite Amazon S3.
Izberite nabor podatkov za uvoz.
v podrobnosti podoknu vnesite ime nabora podatkov in vrsto datoteke.
za Vzorčenje, izberite Naključen.
za Velikost vzorca, vnesite 10000.
Izberite uvoz da naložite nabor podatkov v Data Wrangler.

Na strani pretoka podatkov v programu Data Wrangler lahko vizualizirate dva različna koraka. Prvi korak označuje nalaganje vzorčnega nabora podatkov na podlagi strategije vzorčenja, ki ste jo definirali. Ko so podatki naloženi, Data Wrangler izvede samodejno zaznavanje vrst podatkov za vsak stolpec v naboru podatkov. Ta korak je privzeto dodan za vse nize podatkov.

Zdaj lahko pregledate naključno vzorčene podatke v Data Wranglerju tako, da dodate analizo.

Izberite znak plus poleg Vrste podatkov In izberite Analiza.
za Vrsta analize¸ izberite Graf raztrosa.
Izberite feat_1 in feat_2 kar se tiče X os in Os YOz.
za Barva po, izberite is_fraud.

Ko ste zadovoljni z naborom podatkov, nadaljujte z nadaljnjimi transformacijami podatkov v skladu z vašimi poslovnimi zahtevami, da pripravite svoje podatke za ML.

Na naslednjem posnetku zaslona lahko opazimo goljufive (temno modra) in negoljufive (svetlo modra) transakcije v naši analizi.

V naslednjem razdelku razpravljamo o uporabi stratificiranega vzorčenja, da zagotovimo, da so goljufivi primeri izbrani sorazmerno.

Stratificirano vzorčenje s transformacijo

Data Wrangler vam omogoča vzorčenje pri uvozu, pa tudi vzorčenje prek transformacije. V tem razdelku razpravljamo o uporabi stratificiranega vzorčenja s pretvorbo, potem ko ste svoj nabor podatkov uvozili v Data Wrangler.

Za začetek vzorčenja na Pretok podatkov izberite znak plus poleg uvoženega nabora podatkov in izberite Dodaj preoblikovanje.

V času tega pisanja Data Wrangler ponuja več kot 300 vgrajenih transformacij. Poleg vgrajenih transformacij lahko v Pandas ali PySpark napišete lastne transformacije po meri.

Iz Dodaj preoblikovanje seznam, izberite Vzorčenje.

Zdaj lahko uporabite tri različne strategije vzorčenja: omejeno, naključno in stratificirano.

za Metoda vzorčenja, izberite Stratificiran.
Uporaba is_fraud stolpec kot stratifikacijski stolpec.
Izberite predogled za predogled transformacije, nato izberite Dodaj da dodate to preoblikovanje kot korak k svojemu receptu za preoblikovanje.

Vaš tok podatkov zdaj odraža dodan korak vzorčenja.

Zdaj lahko pregledamo naključno vzorčene podatke z dodajanjem analize.

Izberite znak plus in izberite Analiza.
za Vrsta analize¸ izberite Histogram.
Izberite is_fraud za oba X os in Barva po.
Izberite predogled.

Na naslednjem posnetku zaslona lahko opazimo razčlenitev goljufivih (temno modra) in negoljufivih (svetlo modra) primerov, izbranih s stratificiranim vzorčenjem v pravilnem razmerju 20 % goljufivih in 80 % negoljufivih.

zaključek

Bistvenega pomena je pravilno vzorčenje podatkov pri delu z izjemno velikimi nabori podatkov in izbira prave strategije vzorčenja za izpolnjevanje vaših poslovnih zahtev. Učinkovitost vašega vzorčenja je odvisna od različnih dejavnikov, vključno s poslovnim rezultatom, razpoložljivostjo podatkov in distribucijo. V tej objavi smo opisali, kako uporabljati Data Wrangler in njegove vgrajene strategije vzorčenja za pripravo podatkov.

To zmožnost lahko začnete uporabljati že danes v vseh regijah, kjer je na voljo SageMaker Studio. Za začetek obiščite Pripravite podatke ML z Amazon SageMaker Data Wrangler.

Priznanja

Avtorji bi se radi zahvalili Jonathanu Chungu (uporabnemu znanstveniku) za njegovo recenzijo in dragocene povratne informacije o tem članku.

O avtorjih

Ben Harris je programski inženir z izkušnjami pri načrtovanju, uvajanju in vzdrževanju razširljivih podatkovnih cevovodov in rešitev strojnega učenja na različnih področjih.

Vishaal Kapoor je višji aplikativni znanstvenik pri AWS AI. Strastno želi pomagati strankam razumeti njihove podatke v Data Wranglerju. V prostem času kolesari z gorskimi kolesi, deska na snegu in se druži z družino.

Meenakshisundaram Thandavarayan je višji strokovnjak za AI/ML pri AWS. Pomaga visokotehnološkim strateškim računom na njihovi poti AI in ML. Zelo je navdušen nad AI, ki temelji na podatkih.

Ajai Sharma je glavni produktni vodja za Amazon SageMaker, kjer se osredotoča na Data Wrangler, vizualno orodje za pripravo podatkov za podatkovne znanstvenike. Pred AWS je bil Ajai strokovnjak za podatkovno znanost pri McKinsey and Company, kjer je vodil posle, osredotočene na strojno upravljanje, za vodilna finančna in zavarovalniška podjetja po vsem svetu. Ajai je navdušen nad podatkovno znanostjo in rad raziskuje najnovejše algoritme in tehnike strojnega učenja.

Časovni žig: April 26, 2022

Časovni žig: Februar 6, 2024

Ustvarite naključne in stratificirane vzorce podatkov z Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Kaj je vzorčenje in kako lahko pomaga

Naključno vzorčenje

Stratificirano vzorčenje

Naključno vzorčenje pri uvozu iz Amazon S3

Stratificirano vzorčenje s transformacijo

zaključek

Priznanja

O avtorjih

Več od Strojno učenje AWS

Natančno nastavite modele Whisper na Amazon SageMaker z LoRA | Spletne storitve Amazon

Inteligentno iskanje po vsebini Adobe Experience Manager z uporabo Amazon Kendra | Spletne storitve Amazon

Ustvarite sintetične podatke za cevovode računalniškega vida na AWS

Operacionalizirajte svoje prenosnike Amazon SageMaker Studio kot načrtovana opravila prenosnikov

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun