Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja studiolaboratorioihin oppiaksesi ja kokeillaksesi ML: n kanssa

Julkaissut Platon

seuraajia: 0

Amazon SageMaker Studio Lab on ilmainen avoimen lähdekoodin JupyterLabiin perustuva koneoppimisen (ML) kehitysympäristö, jonka avulla kuka tahansa voi oppia ja kokeilla ML:ää AWS ML -laskentaresurssien avulla. Se perustuu samaan arkkitehtuuriin ja käyttöliittymään kuin Amazon SageMaker Studio, mutta jossa on osa Studion ominaisuuksista.

Kun alat työskennellä ML-aloitteiden parissa, sinun on suoritettava tutkiva data-analyysi (EDA) tai tietojen valmistelu ennen mallin rakentamisen jatkamista. Amazon SageMaker Data Wrangler on kyky Amazon Sage Maker Tämä tekee datatieteilijöille ja insinööreille nopeampaa valmistella dataa ML-sovelluksiin visuaalisen käyttöliittymän kautta. Data Wrangler vähentää ML-tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin.

Data Wranglerin ominaisuuksien valmistelun keskeinen kiihdytin on Data Quality and Insights -raportti. Tämä raportti tarkistaa tietojen laadun ja auttaa havaitsemaan poikkeavuuksia tiedoissasi, jotta voit suorittaa tarvittavat tietotekniikat korjataksesi tietojoukon. Voit käyttää Data Quality and Insights -raporttia tietojen analysointiin saadaksesi tietoa tietojoukostasi, kuten puuttuvien arvojen ja poikkeavien arvojen määrästä. Jos sinulla on ongelmia tiedoissasi, kuten tavoitevuoto tai epätasapaino, oivallusraportti voi tuoda nämä ongelmat tietoosi ja auttaa sinua tunnistamaan tietojen valmisteluvaiheet, jotka sinun on suoritettava.

Studio Labin käyttäjät voivat hyötyä Data Wranglerista, koska tietojen laatu ja ominaisuuksien suunnittelu ovat kriittisiä mallisi ennakoivan suorituskyvyn kannalta. Data Wrangler auttaa tietojen laadussa ja ominaisuuksien suunnittelussa antamalla näkemyksiä tietojen laatuongelmista ja mahdollistamalla helposti nopean ominaisuuksien iteroinnin ja suunnittelun käyttämällä matalakoodista käyttöliittymää.

Tässä viestissä näytämme sinulle, kuinka voit suorittaa kokeellisen data-analyysin, valmistella ja muuntaa dataa Data Wranglerin avulla ja viedä muunnetut ja valmistetut tiedot Studio Labiin mallinrakennusta varten.

Ratkaisun yleiskatsaus

Ratkaisu sisältää seuraavat korkean tason vaiheet:

Luo AWS-tili ja järjestelmänvalvojan käyttäjä. Tämä on edellytys
Lataa tietojoukko churn.csv.
Lataa tietojoukko kohteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3).
Luo SageMaker Studio -verkkotunnus ja käynnistä Data Wrangler.
Tuo tietojoukko Data Wrangler -virtaan Amazon S3:sta.
Luo Data Quality and Insights -raportti ja tee johtopäätökset tarvittavasta ominaisuussuunnittelusta.
Suorita tarvittavat datamuunnokset Data Wranglerissa.
Lataa Data Quality and Insights -raportti ja muunnettu tietojoukko.
Lataa tiedot Studio Lab -projektiin mallikoulutusta varten.

Seuraava kaavio kuvaa tätä työnkulkua.

Edellytykset

Jotta voit käyttää Data Wrangleria ja Studio Labia, tarvitset seuraavat edellytykset:

Luo tietojen valmistelutyönkulku Data Wranglerin avulla

Aloita tekemällä seuraavat vaiheet:

Lataa tietojoukkosi Amazon S3:een.
SageMaker-konsolin kohdassa Ohjauspaneeli valitse siirtymisruudussa studio.
On Käynnistä sovellus valitse käyttäjäprofiilisi vieressä olevasta valikosta studio.

Kun kirjaudut sisään Studioon, sinun pitäisi nähdä seuraavan kuvakaappauksen kaltainen kehitysympäristö.
Voit luoda uuden Data Wrangler -työnkulun osoitteessa filee valikosta, valitse Uusi, valitse sitten Data Wrangler Flow.

Ensimmäinen askel Data Wranglerissa on tuoda tietosi. Voit tuoda tietoja useista tietolähteistä, kuten Amazon S3, Amazon Athena, Amazonin punainen siirto, Lumihiutaleja Tietokannat. Tässä esimerkissä käytämme Amazon S3:a. Jos haluat vain nähdä, kuinka Data Wrangler toimii, voit aina valita Käytä mallitietojoukkoa.
Valita Tuo päivämäärät.
Valita Amazon S3.
Valitse lataamasi tietojoukko ja valitse Tuo.

Data Wranglerin avulla voit joko tuoda koko tietojoukon tai ottaa näytteitä osasta siitä.
Jos haluat saada nopeasti tietoa tietojoukosta, valitse Ensin K varten Näytteenotto ja syötä 50000 XNUMX Otoskoko.

Ymmärrä tietojen laatu ja hanki oivalluksia

Käytetään Data Quality and Insights -raporttia Data Wrangleriin tuomamme datan analysointiin. Raportin avulla voit selvittää, mitä toimenpiteitä sinun on tehtävä tietojen puhdistamiseksi ja käsittelemiseksi. Tämä raportti sisältää tietoja, kuten puuttuvien arvojen ja poikkeamien lukumäärän. Jos sinulla on ongelmia tiedoissasi, kuten tavoitevuoto tai epätasapaino, tietoraportti voi tuoda nämä ongelmat tietoosi.

Valitse vieressä oleva plusmerkki Tietotyypit Ja valitse Hanki datatietoja.
varten Analyysityyppi, valitse Data Quality and Insights -raportti.
varten Kohdesarake, valitse Vaihtuu?.
varten Ongelman tyyppi¸ valitse Luokittelu.
Valita luoda.

Sinulle esitetään yksityiskohtainen raportti, jonka voit tarkastella ja ladata. Raportti sisältää useita osioita, kuten pikamallin, ominaisuuksien yhteenvedon, ominaisuuksien korrelaation ja datan oivalluksia. Seuraavat kuvakaappaukset tarjoavat esimerkkejä näistä osioista.

Havainnot raportista

Raportista voimme tehdä seuraavat havainnot:

Päällekkäisiä rivejä ei löytynyt.
- State sarake näyttää olevan melko tasaisesti jakautunut, joten tiedot ovat tasapainossa osavaltion väestön suhteen.
- Phone sarakkeessa on liian monta ainutlaatuista arvoa, jotta niistä olisi mitään käytännön hyötyä. Liian monta yksilöllistä arvoa tekee tästä sarakkeesta hyödyttömän. Voimme pudottaa Phone sarake muutoksessamme.
Raportin ominaisuuksien korrelaatioosion perusteella Mins ja Charge korreloivat voimakkaasti. Voimme poistaa yhden niistä.

Muutos

Havainteidemme perusteella haluamme tehdä seuraavat muutokset:

Poista Phone sarakkeessa, koska sillä on monia ainutlaatuisia arvoja.
Näemme myös useita ominaisuuksia, joilla on olennaisesti 100 % korrelaatio keskenään. Näiden ominaisuusparien sisällyttäminen joihinkin ML-algoritmeihin voi aiheuttaa ei-toivottuja ongelmia, kun taas toisissa se aiheuttaa vain vähäistä redundanssia ja harhaa. Poistetaan yksi ominaisuus jokaisesta erittäin korreloivasta parista: Day Charge parista Day Mins, Night Charge parista Night Minsja Intl Charge parista Intl Mins.
Muuntaa True or False vuonna Churn sarakkeen numeerinen arvo 1 tai 0.

Palaa tietovirtaan ja valitse vieressä oleva plusmerkki Tietotyypit.
Valita Lisää muunnos.
Valita Lisää vaihe.
Voit etsiä etsimääsi muunnosa (meidän tapauksessamme hallita sarakkeita).
Valita Hallitse sarakkeita.
varten Muuttaa¸ valitse Pudota sarake.
varten Pudotettavat sarakkeet¸ valitse Phone, Day Charge, Eve Charge, Night Chargeja Intl Charge.
Valita preview, valitse sitten Päivitykset.

Lisätään toinen muunnos suorittaaksesi kategorisen koodauksen Churn? sarake.
Valitse muunnos Koodaa kategorinen.
varten Muuttaa, valitse Järjestyskoodaus.
varten Syötä sarakkeet, Valitse Churn? sarake.
varten Virheellinen käsittelystrategia, valitse Korvaa NaN:lla.
Valita preview, valitse sitten Päivitykset.

Nyt True ja False muunnetaan 1:ksi ja 0:ksi.

Nyt kun olemme ymmärtäneet tiedot hyvin ja olemme laatineet ja muuntaneet tiedot mallinrakennusta varten, voimme siirtää tiedot Studio Labiin mallinrakennusta varten.

Lataa tiedot Studio Labiin

Aloita tietojen käyttäminen Studio Labissa suorittamalla seuraavat vaiheet:

Valita Vie tietoja että vienti S3-ämpäriin.
varten Amazon S3 sijainti, anna S3-polkusi.
Määritä tiedostotyyppi.
Valita Vie tietoja.
Kun olet vienyt tiedot, voit ladata tiedot S3-säilöstä paikalliselle tietokoneellesi.
Nyt voit siirtyä Studio Labiin ja ladata tiedoston Studio Labiin.

Vaihtoehtoisesti voit muodostaa yhteyden Amazon S3:een Studio Labista. Lisätietoja on kohdassa Käytä ulkoisia resursseja Amazon SageMaker Studio Labissa.
Asennetaan SageMaker ja tuodaan Pandat.
Tuo kaikki kirjastot tarpeen mukaan.
Nyt voimme lukea CSV-tiedoston.
Tulostetaan churn varmistaaksesi, että tietojoukko on oikea.

Nyt kun sinulla on käsitelty tietojoukko Studio Labissa, voit suorittaa mallin rakentamiseen tarvittavia lisävaiheita.

Data Wrangler -hinnoittelu

Voit suorittaa kaikki tämän viestin vaiheet EDA:lle tai tietojen valmistelulle Data Wranglerissa ja maksaa Yksinkertaisessa tapauksessa työt ja varastointihinnat, jotka perustuvat käyttöön tai kulutukseen. Ennakko- tai lisenssimaksuja ei vaadita.

Puhdistaa

Kun et käytä Data Wrangleria, on tärkeää sulkea ilmentymä, jossa se toimii, jotta vältytään lisäkuluilta. Välttääksesi työn menettämisen tallenna tietovirtasi ennen Data Wranglerin sammuttamista.

Tallenna tietovirtasi Studioon valitsemalla filee, valitse sitten Tallenna tiedot Wrangler Flow.
Data Wrangler tallentaa tietovirtasi automaattisesti 60 sekunnin välein.
Sulje Data Wrangler -esiintymä Studiossa valitsemalla Käynnistävät instanssit ja ytimet.
Alle KÄYNNISSÄ SOVELLUKSET, valitse sammutuskuvake vieressä sagemaker-data-wrangler-1.0 app.
Valita Sammuta kaikki vahvistaa.

Data Wrangler toimii ml.m5.4xlarge-esiintymässä. Tämä tapaus katoaa KÄYNNISSÄ kun suljet Data Wrangler -sovelluksen.

Kun sammutat Data Wrangler -sovelluksen, se on käynnistettävä uudelleen, kun seuraavan kerran avaat Data Wrangler -virtatiedoston. Tämä voi kestää muutaman minuutin.

Yhteenveto

Tässä viestissä näimme, kuinka voit saada tietoa tietojoukostasi, suorittaa tutkivaa data-analyysiä, valmistella ja muuntaa dataa Data Wranglerin avulla Studiossa ja viedä muunnetut ja valmistetut tiedot Studio Labiin ja suorittaa mallinrakennus- ja muita vaiheita.

SageMaker Data Wranglerin avulla voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyön jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin yhdestä visuaalisesta käyttöliittymästä.

Tietoja kirjoittajista

Rajakumar Sampathkumar on AWS:n pääasiallinen tekninen asiakaspäällikkö, joka opastaa asiakkaita liiketoiminta-teknologian yhteensovittamisessa ja tukee heidän pilvitoimintamalliensa ja -prosessiensa uudelleenkeksimistä. Hän on intohimoinen pilvestä ja koneoppimisesta. Raj on myös koneoppimisen asiantuntija ja työskentelee AWS-asiakkaiden kanssa suunnitellakseen, ottaakseen käyttöön ja hallitaen heidän AWS-työkuormiaan ja -arkkitehtuurejaan.

Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jonka intohimo on suunnitella, luoda ja edistää ihmiskeskeisiä data- ja analytiikkakokemuksia. Hän tukee AWS Strategic -asiakkaita heidän muuttuessaan kohti datalähtöistä organisaatiota.

James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.

Aikaleima: Syyskuu 15, 2022Syyskuu 15, 2022

Aikaleima: Mar 4, 2024

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML:ää

Julkaissut Platon

Ratkaisun yleiskatsaus

Edellytykset

Luo tietojen valmistelutyönkulku Data Wranglerin avulla

Ymmärrä tietojen laatu ja hanki oivalluksia

Havainnot raportista

Muutos

Lataa tiedot Studio Labiin

Data Wrangler -hinnoittelu

Puhdistaa

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

Accenture luo sääntelydokumenttien luontiratkaisun käyttämällä AWS:n luovia tekoälypalveluita | Amazon Web Services

Amazon Comprehend Targeted Sentiment lisää synkronisen tuen

Kuinka BigBasket paransi tekoälyllä varustettua kassalla fyysisissä myymälöissään Amazon SageMakerin avulla Amazon Web Services

AWS CDK:n avulla voit ottaa käyttöön Amazon SageMaker Studion elinkaarikokoonpanot | Amazon Web Services

Ilmoitamme päivitetystä Salesforce-liittimestä (V2) Amazon Kendralle

Seuraavan sukupolven Amazon SageMaker Experiments – Järjestä, seuraa ja vertaile koneoppimiskoulutuksiasi laajasti

Saavuta DevOps-kypsyys BMC AMI zAdviser Enterprisen ja Amazon Bedrockin avulla Amazon Web Services

Innovaatioiden vapauttaminen: AWS ja Anthropic työntävät generatiivisen tekoälyn rajoja yhdessä | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili