Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wranglerin avulla

Tässä viestissä käymme läpi kaksi näytteenottotekniikkaa Amazon SageMaker Data Wrangler joten voit luoda nopeasti käsittelytyönkulkuja tiedoillesi. Katamme sekä satunnaisotannan että ositetun otannan tekniikat, joiden avulla voit ottaa näytteitä tiedoistasi erityisvaatimustesi perusteella.

Data Wrangler vähentää aikaa, joka kuluu tietojen kokoamiseen ja valmisteluun koneoppimista (ML) varten viikoista minuutteihin. Voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyönkulun jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin, yhdestä visuaalisesta käyttöliittymästä. Data Wranglerin tiedonvalintatyökalun avulla voit valita haluamasi tiedot eri tietolähteistä ja tuoda ne yhdellä napsautuksella. Data Wrangler sisältää yli 300 sisäänrakennettua tietomuunnosta, joten voit nopeasti normalisoida, muuntaa ja yhdistää ominaisuuksia ilman koodin kirjoittamista. Data Wranglerin visualisointimalleilla voit nopeasti esikatsella ja tarkistaa, että nämä muunnokset ovat valmiit halutulla tavalla tarkastelemalla niitä Amazon SageMaker Studio, ensimmäinen täysin integroitu kehitysympäristö (IDE) ML:lle. Kun tietosi on valmis, voit rakentaa täysin automatisoituja ML-työnkulkuja Amazon SageMaker -putkistot ja tallenna ne uudelleenkäyttöä varten Amazon SageMaker -ominaisuuskauppa.

Mitä näytteenotto on ja miten se voi auttaa

Tilastoanalyysissä havaintojen kokonaismäärä tunnetaan nimellä väestö. Tietojen kanssa työskennellessä ei useinkaan ole laskennallisesti mahdollista mitata kaikkia havaintoja väestöstä. Tilastollinen otanta on menettely, jonka avulla voit ymmärtää tietojasi valitsemalla populaatiosta osajoukkoja.

Näytteenotto tarjoaa käytännöllisen ratkaisun, joka uhraa jonkin verran tarkkuutta käytännöllisyyden ja helppouden vuoksi. Voit käyttää otantastrategioita varmistaaksesi, että otoksesi edustaa hyvin kokonaisväestöä. Data Wrangler tukee kahta yleisintä strategiaa: satunnaisotanta ja ositettu näytteenotto.

Satunnainen näytteenotto

Jos sinulla on suuri tietojoukko, sen kokeilu voi viedä aikaa. Data Wrangler tarjoaa satunnaisotannan, jotta voit käsitellä ja visualisoida tietojasi tehokkaasti. Saatat esimerkiksi haluta laskea asiakkaan keskimääräisen ostosten määrän tietyn ajanjakson sisällä tai tilaajan poistumisprosentin. Voit käyttää satunnaisotosta visualisoidaksesi näiden mittareiden likiarvot.

Satunnainen näyte tietojoukostasi valitaan siten, että jokaisella elementillä on yhtä suuri todennäköisyys tulla valituksi. Tämä toiminto suoritetaan tehokkaalla tavalla, joka sopii suurille tietojoukoille, joten palautettu otoskoko on suunnilleen vaadittu koko, eikä välttämättä yhtä suuri kuin pyydetty koko.

Voit käyttää satunnaisotantaa, jos haluat tehdä nopeita likimääräisiä laskelmia tietojoukon ymmärtämiseksi. Otoskoon kasvaessa satunnaisotos voi paremmin arvioida koko tietojoukkoa, mutta ellet sisällytä kaikkia datapisteitä, satunnaisotoksesi ei välttämättä sisällä kaikkia poikkeavia ja reunatapauksia. Jos haluat valmistella koko tietojoukon interaktiivisesti, voit myös vaihtaa suurempaan esiintymätyyppiin.

Yleissääntönä on, että otosvirhe laskettaessa perusjoukon keskiarvoa satunnaisotosta käyttämällä pyrkii nollaan otoksen kasvaessa. Otoskoon kasvaessa virhe pienenee otoskoon neliöjuuren käänteisarvona. Mitä suurempi näyte on, sitä parempi likiarvo.

Ositettu otanta

Joissakin tapauksissa väestösi voidaan jakaa kerroksiin tai toisensa poissulkeviin ryhmiin, kuten osoitteiden maantieteellinen sijainti, kappaleiden julkaisuvuosi tai tulojen veroluokat. Satunnaisotos on suosituin otantatekniikka, mutta jos jotkin ositteet ovat epätavallisia populaatiossasi, voit käyttää ositettua otantaa Data Wranglerissa varmistaaksesi, että jokainen kerros on suhteellisesti edustettuna otoksessasi. Tämä voi olla hyödyllistä näytteenottovirheiden vähentämiseksi ja sen varmistamiseksi, että otat huomioon reunatapaukset kokeilun aikana.

Todellisessa maailmassa vilpilliset luottokorttitapahtumat ovat harvinaisia, ja ne muodostavat yleensä alle 1 % tiedoistasi. Jos otimme satunnaisen otoksen, ei ole harvinaista, että otoksessa on hyvin vähän tai ei ollenkaan vilpillisiä tapahtumia. Tämän seurauksena mallia koulutettaessa meillä olisi liian vähän vilpillisiä esimerkkejä tarkan mallin oppimiseen. Voimme käyttää ositettua otantaa varmistaaksemme, että vilpilliset tapahtumat ovat oikeasuhteisia.

Ositetussa otoksessa kunkin otoksen ositteen koko on verrannollinen perusjoukon ositteiden kokoon. Tämä toimii jakamalla tietosi ositteiksi määrittämäsi sarakkeen perusteella, valitsemalla jokaisesta ositteesta satunnaisia ​​otoksia oikealla suhteella ja yhdistämällä nämä näytteet perusjoukon ositettuun otokseen.

Ositettu otanta on hyödyllinen tekniikka, kun haluat ymmärtää, miten tietojesi eri ryhmät vertautuvat toisiinsa, ja haluat varmistaa, että sinulla on asianmukainen edustus jokaisesta ryhmästä.

Satunnainen näytteenotto Amazon S3:sta tuotaessa

Tässä osiossa käytämme satunnaisotantaa petosten havaitsemisjärjestelmämme petollisista ja ei-vilpillisistä tapahtumista koostuvan tietojoukon kanssa. Sinä pystyt download tietojoukko, jota seurataan tämän viestin mukana (CC 4.0 kansainvälinen attribuutiolisenssi).

Tätä kirjoitettaessa voit tuoda tietojoukkoja kohteesta Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirtoja Lumihiutale. Tietojoukkomme on erittäin suuri, ja se sisältää miljoona riviä. Tässä tapauksessa haluamme ottaa näytteitä 1 1,0000 rivistä Amazon S3:sta tuotuna vuorovaikutteisia kokeiluja varten Data Wranglerissa.

  1. Avaa SageMaker Studio ja luo uusi Data Wrangler -kulku.
  2. Alle Tuo päivämäärät, valitse Amazon S3.
    Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.
  3. Valitse tuotava tietojoukko.
  4. In Lisätiedot ruutuun, anna tietojoukon nimi ja tiedostotyyppi.
  5. varten Näytteenotto, valitse satunnainen.
  6. varten Otoskoko, tulla sisään 10000.
  7. Valita Tuo ladataksesi tietojoukon Data Wrangleriin.
    Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Voit visualisoida kaksi erillistä vaihetta Data Wranglerin tietokulkusivulla. Ensimmäinen vaihe osoittaa näytetietojoukon latauksen määrittämäsi näytteenottostrategian perusteella. Kun tiedot on ladattu, Data Wrangler tunnistaa automaattisesti tietojoukon kunkin sarakkeen tietotyypit. Tämä vaihe lisätään oletusarvoisesti kaikkiin tietosarjoihin.

Voit nyt tarkastella satunnaisotoksia Data Wranglerissa lisäämällä analyysin.

  1. Valitse vieressä oleva plusmerkki Tietotyypit Ja valitse analyysi.
    Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.
  2. varten Analyysityyppi¸ valitse Hajontapiirros.
  3. Valita feat_1 ja feat_2 kuten X-akseli ja Y-akseliVastaavasti.
  4. varten Väri:, valitse on_petos.

Kun olet tyytyväinen tietojoukkoon, jatka tietojen muunnosten tekemistä yrityksesi vaatimusten mukaisesti valmistaaksesi tietosi ML:ää varten.

Seuraavassa kuvakaappauksessa voimme tarkkailla vilpillisiä (tummansininen) ja ei-petollisia (vaaleansinisiä) tapahtumia analyysissämme.
Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Seuraavassa osiossa keskustelemme ositetun otannan käyttämisestä varmistaaksemme, että vilpilliset tapaukset valitaan suhteellisesti.

Ositettu otanta muunnolla

Data Wranglerin avulla voit ottaa näytteitä tuonnin yhteydessä sekä ottaa näytteitä muunnoksen kautta. Tässä osiossa käsitellään ositetun otannan käyttöä muunnoksen avulla sen jälkeen, kun olet tuonut tietojoukon Data Wrangleriin.

  1. Aloita näytteenotto osoitteessa Tietovirta -välilehti, valitse plusmerkki tuodun tietojoukon vierestä ja valitse Lisää muunnos.
    Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Tätä kirjoitettaessa Data Wrangler tarjoaa enemmän kuin 300 sisäänrakennettua muutosta. Sisäänrakennettujen muunnosten lisäksi voit kirjoittaa omia mukautettuja muunnoksiasi Pandasiin tai PySparkiin.

  1. Vuodesta Lisää muunnos luettelo, valitse Näytteenotto.
    Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Voit nyt käyttää kolmea erillistä otantastrategiaa: raja, satunnainen ja kerrostettu.
Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

  1. varten Näytteenottomenetelmä, valitse kerrostunut.
  2. Käytä is_fraud sarakkeessa kerrostussarakkeena.
  3. Valita preview esikatsella muunnos, ja valitse sitten Lisää lisätäksesi tämän muunnoksen vaiheeksi muunnosreseptiisi.
    Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Tietovirtasi kuvastaa nyt lisättyä otantavaihetta.
Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Nyt voimme tarkastella satunnaisotoksia lisäämällä analyysin.

  1. Valitse plusmerkki ja valitse analyysi.
  2. varten Analyysityyppi¸ valitse histogrammi.
  3. Valita on_petos sekä X-akseli ja Väri:.
  4. Valita preview.

Seuraavassa kuvakaappauksessa voimme havaita petollisten (tummansininen) ja ei-vilpillisten (vaaleansininen) tapausten jakautumisen, jotka on valittu ositetun otannan avulla oikeissa suhteissa: 20 % vilpillisiä ja 80 % ei-petollisia.

Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Yhteenveto

On tärkeää ottaa tiedoista oikein näyte, kun työskentelet erittäin suurten tietojoukkojen kanssa, ja valita oikea otantastrategia, joka vastaa liiketoimintasi vaatimuksia. Otosten tehokkuus riippuu useista tekijöistä, kuten liiketoiminnan tuloksesta, tietojen saatavuudesta ja jakelusta. Tässä viestissä käsittelimme Data Wrangleria ja sen sisäänrakennettuja otantastrategioita tietojen valmistelussa.

Voit aloittaa tämän ominaisuuden käytön tänään kaikilla alueilla, joilla SageMaker Studio on saatavilla. Aloita vierailemalla osoitteessa Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksella.

Kiitokset

Kirjoittajat haluavat kiittää Jonathan Chungia (soveltuva tutkija) hänen katsauksestaan ​​ja arvokkaasta palautteestaan ​​tähän artikkeliin.


Tietoja Tekijät

Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Ben Harris on ohjelmistoinsinööri, jolla on kokemusta skaalautuvien tietoputkien ja koneoppimisratkaisujen suunnittelusta, käyttöönotosta ja ylläpidosta useilla eri aloilla.

Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Vishaal Kapoor on vanhempi sovellettu tutkija, jolla on AWS AI. Hän haluaa intohimoisesti auttaa asiakkaita ymmärtämään datansa Data Wranglerissa. Vapaa-ajallaan hän pyöräilee, lumilaudoi ja viettää aikaa perheensä kanssa.

Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa Hi-Tech-strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.

Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Ajai Sharma on Amazon SageMakerin päätuotepäällikkö, jossa hän keskittyy Data Wrangleriin, visuaaliseen tietojen valmistelutyökaluun datatieteilijöille. Ennen AWS:ää Ajai oli tietotieteen asiantuntija McKinsey and Companyssa, missä hän johti ML-painotteisia toimeksiantoja johtaville rahoitus- ja vakuutusyhtiöille maailmanlaajuisesti. Ajai on intohimoinen datatieteessä ja rakastaa uusimpien algoritmien ja koneoppimistekniikoiden tutkimista.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen