Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML:ää

Amazon SageMaker Studio Lab on ilmainen avoimen lähdekoodin JupyterLabiin perustuva koneoppimisen (ML) kehitysympäristö, jonka avulla kuka tahansa voi oppia ja kokeilla ML:ää AWS ML -laskentaresurssien avulla. Se perustuu samaan arkkitehtuuriin ja käyttöliittymään kuin Amazon SageMaker Studio, mutta jossa on osa Studion ominaisuuksista.

Kun alat työskennellä ML-aloitteiden parissa, sinun on suoritettava tutkiva data-analyysi (EDA) tai tietojen valmistelu ennen mallin rakentamisen jatkamista. Amazon SageMaker Data Wrangler on kyky Amazon Sage Maker Tämä tekee datatieteilijöille ja insinööreille nopeampaa valmistella dataa ML-sovelluksiin visuaalisen käyttöliittymän kautta. Data Wrangler vähentää ML-tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin.

Data Wranglerin ominaisuuksien valmistelun keskeinen kiihdytin on Data Quality and Insights -raportti. Tämä raportti tarkistaa tietojen laadun ja auttaa havaitsemaan poikkeavuuksia tiedoissasi, jotta voit suorittaa tarvittavat tietotekniikat korjataksesi tietojoukon. Voit käyttää Data Quality and Insights -raporttia tietojen analysointiin saadaksesi tietoa tietojoukostasi, kuten puuttuvien arvojen ja poikkeavien arvojen määrästä. Jos sinulla on ongelmia tiedoissasi, kuten tavoitevuoto tai epätasapaino, oivallusraportti voi tuoda nämä ongelmat tietoosi ja auttaa sinua tunnistamaan tietojen valmisteluvaiheet, jotka sinun on suoritettava.

Studio Labin käyttäjät voivat hyötyä Data Wranglerista, koska tietojen laatu ja ominaisuuksien suunnittelu ovat kriittisiä mallisi ennakoivan suorituskyvyn kannalta. Data Wrangler auttaa tietojen laadussa ja ominaisuuksien suunnittelussa antamalla näkemyksiä tietojen laatuongelmista ja mahdollistamalla helposti nopean ominaisuuksien iteroinnin ja suunnittelun käyttämällä matalakoodista käyttöliittymää.

Tässä viestissä näytämme sinulle, kuinka voit suorittaa kokeellisen data-analyysin, valmistella ja muuntaa dataa Data Wranglerin avulla ja viedä muunnetut ja valmistetut tiedot Studio Labiin mallinrakennusta varten.

Ratkaisun yleiskatsaus

Ratkaisu sisältää seuraavat korkean tason vaiheet:

  1. Luo AWS-tili ja järjestelmänvalvojan käyttäjä. Tämä on edellytys
  2. Lataa tietojoukko churn.csv.
  3. Lataa tietojoukko kohteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3).
  4. Luo SageMaker Studio -verkkotunnus ja käynnistä Data Wrangler.
  5. Tuo tietojoukko Data Wrangler -virtaan Amazon S3:sta.
  6. Luo Data Quality and Insights -raportti ja tee johtopäätökset tarvittavasta ominaisuussuunnittelusta.
  7. Suorita tarvittavat datamuunnokset Data Wranglerissa.
  8. Lataa Data Quality and Insights -raportti ja muunnettu tietojoukko.
  9. Lataa tiedot Studio Lab -projektiin mallikoulutusta varten.

Seuraava kaavio kuvaa tätä työnkulkua.

Edellytykset

Jotta voit käyttää Data Wrangleria ja Studio Labia, tarvitset seuraavat edellytykset:

Luo tietojen valmistelutyönkulku Data Wranglerin avulla

Aloita tekemällä seuraavat vaiheet:

  1. Lataa tietojoukkosi Amazon S3:een.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  2. SageMaker-konsolin kohdassa Ohjauspaneeli valitse siirtymisruudussa studio.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  3. On Käynnistä sovellus valitse käyttäjäprofiilisi vieressä olevasta valikosta studio.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
    Kun kirjaudut sisään Studioon, sinun pitäisi nähdä seuraavan kuvakaappauksen kaltainen kehitysympäristö.
  4. Voit luoda uuden Data Wrangler -työnkulun osoitteessa filee valikosta, valitse Uusi, valitse sitten Data Wrangler Flow.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
    Ensimmäinen askel Data Wranglerissa on tuoda tietosi. Voit tuoda tietoja useista tietolähteistä, kuten Amazon S3, Amazon Athena, Amazonin punainen siirto, Lumihiutaleja Tietokannat. Tässä esimerkissä käytämme Amazon S3:a. Jos haluat vain nähdä, kuinka Data Wrangler toimii, voit aina valita Käytä mallitietojoukkoa.
  5. Valita Tuo päivämäärät.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  6. Valita Amazon S3.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  7. Valitse lataamasi tietojoukko ja valitse Tuo.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
    Data Wranglerin avulla voit joko tuoda koko tietojoukon tai ottaa näytteitä osasta siitä.
  8. Jos haluat saada nopeasti tietoa tietojoukosta, valitse Ensin K varten Näytteenotto ja syötä 50000 XNUMX Otoskoko.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Ymmärrä tietojen laatu ja hanki oivalluksia

Käytetään Data Quality and Insights -raporttia Data Wrangleriin tuomamme datan analysointiin. Raportin avulla voit selvittää, mitä toimenpiteitä sinun on tehtävä tietojen puhdistamiseksi ja käsittelemiseksi. Tämä raportti sisältää tietoja, kuten puuttuvien arvojen ja poikkeamien lukumäärän. Jos sinulla on ongelmia tiedoissasi, kuten tavoitevuoto tai epätasapaino, tietoraportti voi tuoda nämä ongelmat tietoosi.

  1. Valitse vieressä oleva plusmerkki Tietotyypit Ja valitse Hanki datatietoja.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  2. varten Analyysityyppi, valitse Data Quality and Insights -raportti.
  3. varten Kohdesarake, valitse Vaihtuu?.
  4. varten Ongelman tyyppi¸ valitse Luokittelu.
  5. Valita luoda.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Sinulle esitetään yksityiskohtainen raportti, jonka voit tarkastella ja ladata. Raportti sisältää useita osioita, kuten pikamallin, ominaisuuksien yhteenvedon, ominaisuuksien korrelaation ja datan oivalluksia. Seuraavat kuvakaappaukset tarjoavat esimerkkejä näistä osioista.

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai. Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai. Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Havainnot raportista

Raportista voimme tehdä seuraavat havainnot:

  • Päällekkäisiä rivejä ei löytynyt.
  • - State sarake näyttää olevan melko tasaisesti jakautunut, joten tiedot ovat tasapainossa osavaltion väestön suhteen.
  • - Phone sarakkeessa on liian monta ainutlaatuista arvoa, jotta niistä olisi mitään käytännön hyötyä. Liian monta yksilöllistä arvoa tekee tästä sarakkeesta hyödyttömän. Voimme pudottaa Phone sarake muutoksessamme.
  • Raportin ominaisuuksien korrelaatioosion perusteella Mins ja Charge korreloivat voimakkaasti. Voimme poistaa yhden niistä.

Muutos

Havainteidemme perusteella haluamme tehdä seuraavat muutokset:

  • Poista Phone sarakkeessa, koska sillä on monia ainutlaatuisia arvoja.
  • Näemme myös useita ominaisuuksia, joilla on olennaisesti 100 % korrelaatio keskenään. Näiden ominaisuusparien sisällyttäminen joihinkin ML-algoritmeihin voi aiheuttaa ei-toivottuja ongelmia, kun taas toisissa se aiheuttaa vain vähäistä redundanssia ja harhaa. Poistetaan yksi ominaisuus jokaisesta erittäin korreloivasta parista: Day Charge parista Day Mins, Night Charge parista Night Minsja Intl Charge parista Intl Mins.
  • Muuntaa True or False vuonna Churn sarakkeen numeerinen arvo 1 tai 0.
  1. Palaa tietovirtaan ja valitse vieressä oleva plusmerkki Tietotyypit.
  2. Valita Lisää muunnos.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  3. Valita Lisää vaihe.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  4. Voit etsiä etsimääsi muunnosa (meidän tapauksessamme hallita sarakkeita).
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  5. Valita Hallitse sarakkeita.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  6. varten Muuttaa¸ valitse Pudota sarake.
  7. varten Pudotettavat sarakkeet¸ valitse Phone, Day Charge, Eve Charge, Night Chargeja Intl Charge.
  8. Valita preview, valitse sitten Päivitykset.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
    Lisätään toinen muunnos suorittaaksesi kategorisen koodauksen Churn? sarake.
  9. Valitse muunnos Koodaa kategorinen.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  10. varten Muuttaa, valitse Järjestyskoodaus.
  11. varten Syötä sarakkeet, Valitse Churn? sarake.
  12. varten Virheellinen käsittelystrategia, valitse Korvaa NaN:lla.
  13. Valita preview, valitse sitten Päivitykset.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Nyt True ja False muunnetaan 1:ksi ja 0:ksi.

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Nyt kun olemme ymmärtäneet tiedot hyvin ja olemme laatineet ja muuntaneet tiedot mallinrakennusta varten, voimme siirtää tiedot Studio Labiin mallinrakennusta varten.

Lataa tiedot Studio Labiin

Aloita tietojen käyttäminen Studio Labissa suorittamalla seuraavat vaiheet:

  1. Valita Vie tietoja että vienti S3-ämpäriin.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  2. varten Amazon S3 sijainti, anna S3-polkusi.
  3. Määritä tiedostotyyppi.
  4. Valita Vie tietoja.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  5. Kun olet vienyt tiedot, voit ladata tiedot S3-säilöstä paikalliselle tietokoneellesi.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  6. Nyt voit siirtyä Studio Labiin ja ladata tiedoston Studio Labiin.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
    Vaihtoehtoisesti voit muodostaa yhteyden Amazon S3:een Studio Labista. Lisätietoja on kohdassa Käytä ulkoisia resursseja Amazon SageMaker Studio Labissa.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  7. Asennetaan SageMaker ja tuodaan Pandat.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  8. Tuo kaikki kirjastot tarpeen mukaan.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  9. Nyt voimme lukea CSV-tiedoston.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.
  10. Tulostetaan churn varmistaaksesi, että tietojoukko on oikea.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Nyt kun sinulla on käsitelty tietojoukko Studio Labissa, voit suorittaa mallin rakentamiseen tarvittavia lisävaiheita.

Data Wrangler -hinnoittelu

Voit suorittaa kaikki tämän viestin vaiheet EDA:lle tai tietojen valmistelulle Data Wranglerissa ja maksaa Yksinkertaisessa tapauksessa työt ja varastointihinnat, jotka perustuvat käyttöön tai kulutukseen. Ennakko- tai lisenssimaksuja ei vaadita.

Puhdistaa

Kun et käytä Data Wrangleria, on tärkeää sulkea ilmentymä, jossa se toimii, jotta vältytään lisäkuluilta. Välttääksesi työn menettämisen tallenna tietovirtasi ennen Data Wranglerin sammuttamista.

  1. Tallenna tietovirtasi Studioon valitsemalla filee, valitse sitten Tallenna tiedot Wrangler Flow.
    Data Wrangler tallentaa tietovirtasi automaattisesti 60 sekunnin välein.
  2. Sulje Data Wrangler -esiintymä Studiossa valitsemalla Käynnistävät instanssit ja ytimet.
  3. Alle KÄYNNISSÄ SOVELLUKSET, valitse sammutuskuvake vieressä sagemaker-data-wrangler-1.0 app.
  4. Valita Sammuta kaikki vahvistaa.
    Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Data Wrangler toimii ml.m5.4xlarge-esiintymässä. Tämä tapaus katoaa KÄYNNISSÄ kun suljet Data Wrangler -sovelluksen.

Kun sammutat Data Wrangler -sovelluksen, se on käynnistettävä uudelleen, kun seuraavan kerran avaat Data Wrangler -virtatiedoston. Tämä voi kestää muutaman minuutin.

Yhteenveto

Tässä viestissä näimme, kuinka voit saada tietoa tietojoukostasi, suorittaa tutkivaa data-analyysiä, valmistella ja muuntaa dataa Data Wranglerin avulla Studiossa ja viedä muunnetut ja valmistetut tiedot Studio Labiin ja suorittaa mallinrakennus- ja muita vaiheita.

SageMaker Data Wranglerin avulla voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyön jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin yhdestä visuaalisesta käyttöliittymästä.


Tietoja kirjoittajista

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.Rajakumar Sampathkumar on AWS:n pääasiallinen tekninen asiakaspäällikkö, joka opastaa asiakkaita liiketoiminta-teknologian yhteensovittamisessa ja tukee heidän pilvitoimintamalliensa ja -prosessiensa uudelleenkeksimistä. Hän on intohimoinen pilvestä ja koneoppimisesta. Raj on myös koneoppimisen asiantuntija ja työskentelee AWS-asiakkaiden kanssa suunnitellakseen, ottaakseen käyttöön ja hallitaen heidän AWS-työkuormiaan ja -arkkitehtuurejaan.

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jonka intohimo on suunnitella, luoda ja edistää ihmiskeskeisiä data- ja analytiikkakokemuksia. Hän tukee AWS Strategic -asiakkaita heidän muuttuessaan kohti datalähtöistä organisaatiota.

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen