Amazon SageMaker Studio Lab on ilmainen avoimen lähdekoodin JupyterLabiin perustuva koneoppimisen (ML) kehitysympäristö, jonka avulla kuka tahansa voi oppia ja kokeilla ML:ää AWS ML -laskentaresurssien avulla. Se perustuu samaan arkkitehtuuriin ja käyttöliittymään kuin Amazon SageMaker Studio, mutta jossa on osa Studion ominaisuuksista.
Kun alat työskennellä ML-aloitteiden parissa, sinun on suoritettava tutkiva data-analyysi (EDA) tai tietojen valmistelu ennen mallin rakentamisen jatkamista. Amazon SageMaker Data Wrangler on kyky Amazon Sage Maker Tämä tekee datatieteilijöille ja insinööreille nopeampaa valmistella dataa ML-sovelluksiin visuaalisen käyttöliittymän kautta. Data Wrangler vähentää ML-tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin.
Data Wranglerin ominaisuuksien valmistelun keskeinen kiihdytin on Data Quality and Insights -raportti. Tämä raportti tarkistaa tietojen laadun ja auttaa havaitsemaan poikkeavuuksia tiedoissasi, jotta voit suorittaa tarvittavat tietotekniikat korjataksesi tietojoukon. Voit käyttää Data Quality and Insights -raporttia tietojen analysointiin saadaksesi tietoa tietojoukostasi, kuten puuttuvien arvojen ja poikkeavien arvojen määrästä. Jos sinulla on ongelmia tiedoissasi, kuten tavoitevuoto tai epätasapaino, oivallusraportti voi tuoda nämä ongelmat tietoosi ja auttaa sinua tunnistamaan tietojen valmisteluvaiheet, jotka sinun on suoritettava.
Studio Labin käyttäjät voivat hyötyä Data Wranglerista, koska tietojen laatu ja ominaisuuksien suunnittelu ovat kriittisiä mallisi ennakoivan suorituskyvyn kannalta. Data Wrangler auttaa tietojen laadussa ja ominaisuuksien suunnittelussa antamalla näkemyksiä tietojen laatuongelmista ja mahdollistamalla helposti nopean ominaisuuksien iteroinnin ja suunnittelun käyttämällä matalakoodista käyttöliittymää.
Tässä viestissä näytämme sinulle, kuinka voit suorittaa kokeellisen data-analyysin, valmistella ja muuntaa dataa Data Wranglerin avulla ja viedä muunnetut ja valmistetut tiedot Studio Labiin mallinrakennusta varten.
Ratkaisun yleiskatsaus
Ratkaisu sisältää seuraavat korkean tason vaiheet:
- Luo AWS-tili ja järjestelmänvalvojan käyttäjä. Tämä on edellytys
- Lataa tietojoukko churn.csv.
- Lataa tietojoukko kohteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3).
- Luo SageMaker Studio -verkkotunnus ja käynnistä Data Wrangler.
- Tuo tietojoukko Data Wrangler -virtaan Amazon S3:sta.
- Luo Data Quality and Insights -raportti ja tee johtopäätökset tarvittavasta ominaisuussuunnittelusta.
- Suorita tarvittavat datamuunnokset Data Wranglerissa.
- Lataa Data Quality and Insights -raportti ja muunnettu tietojoukko.
- Lataa tiedot Studio Lab -projektiin mallikoulutusta varten.
Seuraava kaavio kuvaa tätä työnkulkua.
Edellytykset
Jotta voit käyttää Data Wrangleria ja Studio Labia, tarvitset seuraavat edellytykset:
Luo tietojen valmistelutyönkulku Data Wranglerin avulla
Aloita tekemällä seuraavat vaiheet:
- Lataa tietojoukkosi Amazon S3:een.
- SageMaker-konsolin kohdassa Ohjauspaneeli valitse siirtymisruudussa studio.
- On Käynnistä sovellus valitse käyttäjäprofiilisi vieressä olevasta valikosta studio.
Kun kirjaudut sisään Studioon, sinun pitäisi nähdä seuraavan kuvakaappauksen kaltainen kehitysympäristö. - Voit luoda uuden Data Wrangler -työnkulun osoitteessa filee valikosta, valitse Uusi, valitse sitten Data Wrangler Flow.
Ensimmäinen askel Data Wranglerissa on tuoda tietosi. Voit tuoda tietoja useista tietolähteistä, kuten Amazon S3, Amazon Athena, Amazonin punainen siirto, Lumihiutaleja Tietokannat. Tässä esimerkissä käytämme Amazon S3:a. Jos haluat vain nähdä, kuinka Data Wrangler toimii, voit aina valita Käytä mallitietojoukkoa. - Valita Tuo päivämäärät.
- Valita Amazon S3.
- Valitse lataamasi tietojoukko ja valitse Tuo.
Data Wranglerin avulla voit joko tuoda koko tietojoukon tai ottaa näytteitä osasta siitä. - Jos haluat saada nopeasti tietoa tietojoukosta, valitse Ensin K varten Näytteenotto ja syötä 50000 XNUMX Otoskoko.
Ymmärrä tietojen laatu ja hanki oivalluksia
Käytetään Data Quality and Insights -raporttia Data Wrangleriin tuomamme datan analysointiin. Raportin avulla voit selvittää, mitä toimenpiteitä sinun on tehtävä tietojen puhdistamiseksi ja käsittelemiseksi. Tämä raportti sisältää tietoja, kuten puuttuvien arvojen ja poikkeamien lukumäärän. Jos sinulla on ongelmia tiedoissasi, kuten tavoitevuoto tai epätasapaino, tietoraportti voi tuoda nämä ongelmat tietoosi.
- Valitse vieressä oleva plusmerkki Tietotyypit Ja valitse Hanki datatietoja.
- varten Analyysityyppi, valitse Data Quality and Insights -raportti.
- varten Kohdesarake, valitse Vaihtuu?.
- varten Ongelman tyyppi¸ valitse Luokittelu.
- Valita luoda.
Sinulle esitetään yksityiskohtainen raportti, jonka voit tarkastella ja ladata. Raportti sisältää useita osioita, kuten pikamallin, ominaisuuksien yhteenvedon, ominaisuuksien korrelaation ja datan oivalluksia. Seuraavat kuvakaappaukset tarjoavat esimerkkejä näistä osioista.
Havainnot raportista
Raportista voimme tehdä seuraavat havainnot:
- Päällekkäisiä rivejä ei löytynyt.
- -
State
sarake näyttää olevan melko tasaisesti jakautunut, joten tiedot ovat tasapainossa osavaltion väestön suhteen. - -
Phone
sarakkeessa on liian monta ainutlaatuista arvoa, jotta niistä olisi mitään käytännön hyötyä. Liian monta yksilöllistä arvoa tekee tästä sarakkeesta hyödyttömän. Voimme pudottaaPhone
sarake muutoksessamme. - Raportin ominaisuuksien korrelaatioosion perusteella
Mins
jaCharge
korreloivat voimakkaasti. Voimme poistaa yhden niistä.
Muutos
Havainteidemme perusteella haluamme tehdä seuraavat muutokset:
- Poista
Phone
sarakkeessa, koska sillä on monia ainutlaatuisia arvoja. - Näemme myös useita ominaisuuksia, joilla on olennaisesti 100 % korrelaatio keskenään. Näiden ominaisuusparien sisällyttäminen joihinkin ML-algoritmeihin voi aiheuttaa ei-toivottuja ongelmia, kun taas toisissa se aiheuttaa vain vähäistä redundanssia ja harhaa. Poistetaan yksi ominaisuus jokaisesta erittäin korreloivasta parista:
Day Charge
paristaDay Mins
,Night Charge
paristaNight Mins
jaIntl Charge
paristaIntl Mins
. - Muuntaa
True
orFalse
vuonnaChurn
sarakkeen numeerinen arvo 1 tai 0.
- Palaa tietovirtaan ja valitse vieressä oleva plusmerkki Tietotyypit.
- Valita Lisää muunnos.
- Valita Lisää vaihe.
- Voit etsiä etsimääsi muunnosa (meidän tapauksessamme hallita sarakkeita).
- Valita Hallitse sarakkeita.
- varten Muuttaa¸ valitse Pudota sarake.
- varten Pudotettavat sarakkeet¸ valitse
Phone
,Day Charge
,Eve Charge
,Night Charge
jaIntl Charge
. - Valita preview, valitse sitten Päivitykset.
Lisätään toinen muunnos suorittaaksesi kategorisen koodauksenChurn?
sarake. - Valitse muunnos Koodaa kategorinen.
- varten Muuttaa, valitse Järjestyskoodaus.
- varten Syötä sarakkeet, Valitse
Churn?
sarake. - varten Virheellinen käsittelystrategia, valitse Korvaa NaN:lla.
- Valita preview, valitse sitten Päivitykset.
Nyt True
ja False
muunnetaan 1:ksi ja 0:ksi.
Nyt kun olemme ymmärtäneet tiedot hyvin ja olemme laatineet ja muuntaneet tiedot mallinrakennusta varten, voimme siirtää tiedot Studio Labiin mallinrakennusta varten.
Lataa tiedot Studio Labiin
Aloita tietojen käyttäminen Studio Labissa suorittamalla seuraavat vaiheet:
- Valita Vie tietoja että vienti S3-ämpäriin.
- varten Amazon S3 sijainti, anna S3-polkusi.
- Määritä tiedostotyyppi.
- Valita Vie tietoja.
- Kun olet vienyt tiedot, voit ladata tiedot S3-säilöstä paikalliselle tietokoneellesi.
- Nyt voit siirtyä Studio Labiin ja ladata tiedoston Studio Labiin.
Vaihtoehtoisesti voit muodostaa yhteyden Amazon S3:een Studio Labista. Lisätietoja on kohdassa Käytä ulkoisia resursseja Amazon SageMaker Studio Labissa. - Asennetaan SageMaker ja tuodaan Pandat.
- Tuo kaikki kirjastot tarpeen mukaan.
- Nyt voimme lukea CSV-tiedoston.
- Tulostetaan
churn
varmistaaksesi, että tietojoukko on oikea.
Nyt kun sinulla on käsitelty tietojoukko Studio Labissa, voit suorittaa mallin rakentamiseen tarvittavia lisävaiheita.
Data Wrangler -hinnoittelu
Voit suorittaa kaikki tämän viestin vaiheet EDA:lle tai tietojen valmistelulle Data Wranglerissa ja maksaa Yksinkertaisessa tapauksessa työt ja varastointihinnat, jotka perustuvat käyttöön tai kulutukseen. Ennakko- tai lisenssimaksuja ei vaadita.
Puhdistaa
Kun et käytä Data Wrangleria, on tärkeää sulkea ilmentymä, jossa se toimii, jotta vältytään lisäkuluilta. Välttääksesi työn menettämisen tallenna tietovirtasi ennen Data Wranglerin sammuttamista.
- Tallenna tietovirtasi Studioon valitsemalla filee, valitse sitten Tallenna tiedot Wrangler Flow.
Data Wrangler tallentaa tietovirtasi automaattisesti 60 sekunnin välein. - Sulje Data Wrangler -esiintymä Studiossa valitsemalla Käynnistävät instanssit ja ytimet.
- Alle KÄYNNISSÄ SOVELLUKSET, valitse sammutuskuvake vieressä
sagemaker-data-wrangler-1.0 app
. - Valita Sammuta kaikki vahvistaa.
Data Wrangler toimii ml.m5.4xlarge-esiintymässä. Tämä tapaus katoaa KÄYNNISSÄ kun suljet Data Wrangler -sovelluksen.
Kun sammutat Data Wrangler -sovelluksen, se on käynnistettävä uudelleen, kun seuraavan kerran avaat Data Wrangler -virtatiedoston. Tämä voi kestää muutaman minuutin.
Yhteenveto
Tässä viestissä näimme, kuinka voit saada tietoa tietojoukostasi, suorittaa tutkivaa data-analyysiä, valmistella ja muuntaa dataa Data Wranglerin avulla Studiossa ja viedä muunnetut ja valmistetut tiedot Studio Labiin ja suorittaa mallinrakennus- ja muita vaiheita.
SageMaker Data Wranglerin avulla voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyön jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin yhdestä visuaalisesta käyttöliittymästä.
Tietoja kirjoittajista
Rajakumar Sampathkumar on AWS:n pääasiallinen tekninen asiakaspäällikkö, joka opastaa asiakkaita liiketoiminta-teknologian yhteensovittamisessa ja tukee heidän pilvitoimintamalliensa ja -prosessiensa uudelleenkeksimistä. Hän on intohimoinen pilvestä ja koneoppimisesta. Raj on myös koneoppimisen asiantuntija ja työskentelee AWS-asiakkaiden kanssa suunnitellakseen, ottaakseen käyttöön ja hallitaen heidän AWS-työkuormiaan ja -arkkitehtuurejaan.
Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jonka intohimo on suunnitella, luoda ja edistää ihmiskeskeisiä data- ja analytiikkakokemuksia. Hän tukee AWS Strategic -asiakkaita heidän muuttuessaan kohti datalähtöistä organisaatiota.
James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet