Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Käytä Github-näytteitä Amazon SageMaker Data Wranglerin kanssa

Amazon SageMaker Data Wrangler on käyttöliittymäpohjainen tietojen valmistelutyökalu, joka auttaa suorittamaan tietojen analysointia, esikäsittelyä ja visualisointia ominaisuuksien avulla, jotka puhdistavat, muuntavat ja valmistelevat tietoja nopeammin. Data Wranglerin valmiiksi rakennetut kulkumallit nopeuttavat tietojen valmistelua datatieteilijöille ja koneoppimisen (ML) harjoittajille auttamalla sinua nopeuttamaan ja ymmärtämään tietovirtojen parhaita käytäntöjä käyttämällä yleisiä tietojoukkoja.

Voit käyttää Data Wrangler -kulkuja seuraavien tehtävien suorittamiseen:

  • Tietojen visualisointi - Tietojoukon kunkin sarakkeen tilastollisten ominaisuuksien tutkiminen, histogrammien rakentaminen, poikkeamien tutkiminen
  • Tietojen puhdistus - Poista kaksoiskappaleet, pudota tai täytä merkinnät puuttuvilla arvoilla, poista poikkeamat
  • Tietojen rikastaminen ja ominaisuuksien suunnittelu - Sarakkeiden käsittely ilmeikkäempien ominaisuuksien luomiseksi valitsemalla osa alaryhmästä koulutusta varten

Tämä viesti auttaa sinua ymmärtämään Data Wrangleria käyttämällä seuraavia esirakennettuja kulkuja GitHub. Tietovarasto esittelee taulukkomuotoisia datamuunnoksia, aikasarjojen datamuunnoksia ja yhdistettyjä tietojoukkomuunnoksia. Jokainen vaatii erityyppisiä muunnoksia perusluonteensa vuoksi. Vakiotaulukko- tai poikkileikkaustiedot kerätään tiettynä ajankohtana. Sitä vastoin aikasarjatiedot kerätään toistuvasti ajan mittaan, ja jokainen peräkkäinen datapiste riippuu sen aiemmista arvoista.

Katsotaanpa esimerkkiä siitä, kuinka voimme käyttää näytetietovirtaa taulukkotietoihin.

Edellytykset

Data Wrangler on Amazon Sage Maker ominaisuus saatavilla sisällä Amazon SageMaker Studio, joten meidän on noudatettava Studion käyttöönottoprosessia Studio-ympäristön ja muistikirjojen kehittämiseksi. Vaikka voit valita useista todennusmenetelmistä, yksinkertaisin tapa luoda Studio-verkkotunnus on noudattaa Pikaopas ohjeet. Pika-aloitus käyttää samoja oletusasetuksia kuin Standardi Studio-asetukset. Voit myös halutessasi käyttää AWS IAM Identity Center (AWS Single Sign-On:n seuraaja) todennusta varten (katso Sisääntulo Amazon SageMaker -verkkotunnukseen IAM Identity Centerin avulla).

Tuo tietojoukko ja virtaustiedostot Data Wrangleriin Studion avulla

Seuraavissa vaiheissa kerrotaan, kuinka tietoja tuodaan SageMakeriin Data Wranglerin kuluttamaa varten:

Alusta Data Wrangler Studion käyttöliittymän kautta valitsemalla Uusi tietovirta.

Kloonaa GitHub repo ladataksesi vuotiedostot Studio-ympäristöösi.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Kun klooni on valmis, arkiston sisällön pitäisi näkyä vasemmassa ruudussa.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Valitse tiedosto Hotel-Bookings-Classification.flow tuodaksesi vuotiedoston Data Wrangleriin.

Jos käytät aikasarjaa tai yhdistettyä tietovirtaa, kulku näkyy eri nimellä. Kun kulku on tuotu, sinun pitäisi nähdä seuraava kuvakaappaus. Tämä näyttää meille virheitä, koska meidän on varmistettava, että vuotiedosto osoittaa oikeaan tietolähteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3).

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Valita Muokkaa tietoaineistoa tuodaksesi kaikki S3-kauhat esille. Valitse seuraavaksi tietojoukko hotel_bookings.csv S3-kauhasta juoksemista varten taulukkomuotoinen tietovirta.

Huomaa, että jos käytät yhdistetty tietovirta, saatat joutua tuomaan useita tietojoukkoja Data WrangleriinKäytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Varmista oikeasta ruudusta KOHTA valitaan erottimeksi ja Näytteenotto asetetaan Ensin K. Tietojoukkomme on tarpeeksi pieni suorittamaan Data Wrangler -muunnoksia koko tietojoukossa, mutta halusimme korostaa, kuinka voit tuoda tietojoukon. Jos sinulla on suuri tietojoukko, harkitse otannan käyttöä. Valita Tuo tuodaksesi tämän tietojoukon Data Wrangleriin.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Kun tietojoukko on tuotu, Data Wrangler vahvistaa tietojoukon automaattisesti ja tunnistaa tietotyypit. Voit nähdä, että virheet ovat kadonneet, koska osoitamme oikeaan tietojoukkoon. Vuoeditorissa näkyy nyt kaksi lohkoa, jotka osoittavat, että tiedot tuotiin lähteestä ja tietotyypit tunnistettiin. Voit myös muokata tietotyyppejä tarvittaessa.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Seuraava kuvakaappaus näyttää tietotyyppimme.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Katsotaanpa joitain muunnoksia, jotka on tehty osana tätä taulukkovirtaa. Jos käytät Aikasarja or liittyi tietovirtoja, tutustu joihinkin yleisiin muunnoksiin GitHub repo. Suoritimme joitain peruskartoittavia data-analyysejä käyttämällä data-insight-raportteja, jotka tutkivat kohdevuotoa ja ominaisuuksien kollineaarisuutta tietojoukossa, taulukoiden yhteenvetoanalyysejä ja nopeaa mallinnuskykyä. Tutustu vaiheisiin GitHub repo.

Nyt pudotamme sarakkeita Data Insights and Quality Reportin suositusten perusteella.

  • Pudota kohdevuotoja varten varaus_tila.
  • Ylimääräisiä sarakkeita varten pudota days_in_waiting_list, hotel, reserved_room_type, tulopäivä_kuukausi, booking_status_date, babys, ja saapumispäivä_kuukauden_päivä.
  • Pudota sarakkeet lineaarisen korrelaation tulosten perusteella saapumispäivämäärä_viikon_numero ja saapumispäivä_vuosi koska näiden ominaisuus (sarake) parien korrelaatioarvot ovat suurempia kuin suositeltu kynnysarvo 0.90.
  • Epälineaaristen korrelaatiotulosten perusteella pudota varaus_tila. Tämä sarake oli jo merkitty hylättäväksi tavoitevuotoanalyysin perusteella.
  • Prosessin numeeriset arvot (min-max skaalaus) varten läpimenoaika, yöpymiset_viikonloppuyönä, yöpymiset_viikonpäivän_öissä, toistuva_vieras, aiemmat_peruutukset, edelliset_varaukset_ei_peruutettu, varausmuutokset, adr, erityispyyntöjen_määrä, ja vaaditut_auto_parkkipaikat.
  • One-hot koodaa kategorisia muuttujia, kuten ateria, on_toistuva_vieras, markkinasegmentti, määrätty_huonetyyppi, talletustyyppi, ja asiakastyyppi.
  • Tasapainota kohdemuuttuja Satunnainen yliotos luokan epätasapainoa varten. Käytä nopeaa mallinnusta poikkeavien ja puuttuvien arvojen käsittelyyn.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Vie Amazon S3:een

Nyt olemme käyneet läpi erilaiset muunnokset ja olemme valmiita viemään tiedot Amazon S3:een. Tämä vaihtoehto luo SageMaker-käsittelytyön, joka suorittaa Data Wrangler -käsittelyvirran ja tallentaa tuloksena olevan tietojoukon määritettyyn S3-säilöyn. Määritä vienti Amazon S3:een noudattamalla seuraavia ohjeita:

Valitse muunnoselementtien joukon vierestä plusmerkki ja valitse Lisää määränpää, sitten Amazon S3.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

  • varten Tietojoukon nimi, anna esimerkiksi nimi uudelle tietojoukolle NYC_export.
  • varten Tiedostotyyppi, valitse CSV.
  • varten delimiter, valitse pilkku.
  • varten Puristus, valitse Ei eristetty.
  • varten Amazon S3 sijainti, käytä samaa ryhmän nimeä, jonka loimme aiemmin.
  • Valita Lisää määränpää.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Valita Luo työpaikka.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

varten Työn nimi, anna nimi tai säilytä automaattisesti luotu vaihtoehto ja valitse määränpää. Meillä on vain yksi kohde, S3:testingtabulardata, mutta sinulla voi olla useita kohteita työnkulun eri vaiheista. Jätä KMS-avain ARN kenttä tyhjä ja valitse seuraava.

Nyt sinun on määritettävä työn laskentakapasiteetti. Voit säilyttää kaikki tämän esimerkin oletusarvot.

  • varten Ilmentymän tyyppi, käytä ml.m5.4xlarge.
  • varten Ilmentymien määrä, käytä 2.
  • Voit tutkia Lisäkokoonpano, mutta säilytä oletusasetukset.
  • Valita ajaa.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Nyt työsi on alkanut, ja kestää jonkin aikaa käsitellä 6 Gt dataa Data Wrangler -käsittelyprosessimme mukaisesti. Tämän työn hinta on noin 2 USD, koska ml.m5.4xlarge maksaa 0.922 USD tunnissa ja käytämme niitä kahta.

Jos valitset työn nimen, sinut ohjataan uuteen ikkunaan, jossa on työn tiedot.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Työn tiedot -sivulla näet kaikki edellisten vaiheiden parametrit.

Kun työn tilaksi vaihtuu Valmis, voit myös tarkistaa Käsittelyaika (sekuntia) arvo. Tämä käsittely kestää noin 5–10 minuuttia.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Kun työ on valmis, harjoitus- ja testitulostiedostot ovat saatavilla vastaavissa S3-tulostuskansioissa. Löydät tulostussijainnin käsittelytyön kokoonpanoista.

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.

Kun Data Wrangler -käsittelytyö on valmis, voimme tarkistaa S3-ämpäriimme tallennetut tulokset. Älä unohda päivittää job_name muuttuja työsi nimellä.

Voit nyt käyttää näitä vietyjä tietoja ML-mallien suorittamiseen.

Puhdistaa

Poista S3-ämpärisi ja sinun Data Wrangler -virtaus poistaaksesi taustalla olevat resurssit ja estääksesi ei-toivotut kustannukset kokeilun päätyttyä.

Yhteenveto

Tässä viestissä näytimme, kuinka voit tuoda taulukkomuotoisen valmiiksi rakennetun tietovirran Data Wrangleriin, liittää sen tietojoukkoamme ja viedä tulokset Amazon S3:een. Jos käyttötapauksesi edellyttävät aikasarjatietojen käsittelyä tai useiden tietojoukkojen yhdistämistä, voit käydä läpi muut valmiiksi laaditut näytevirrat GitHub repo.

Kun olet tuonut valmiiksi rakennetun tietojen valmistelutyönkulun, voit integroida sen Amazon SageMaker Processingiin, Amazon SageMaker -putkistotja Amazon SageMaker -ominaisuuskauppa yksinkertaistaa ML-harjoitustietojen käsittelyä, jakamista ja tallentamista. Voit myös viedä tämän esimerkkitietovirran Python-skriptiin ja luoda mukautetun ML-tietojen valmisteluputken, mikä nopeuttaa julkaisunopeutta.

Suosittelemme tutustumaan meidän GitHub-arkisto saada käytännön harjoittelua ja löytää uusia tapoja parantaa mallin tarkkuutta! Saat lisätietoja SageMakerista vierailemalla osoitteessa Amazon SageMaker -kehitysopas.


Tietoja Tekijät

Käytä Github-näytteitä Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen kanssa. Pystysuuntainen haku. Ai.Isha Dua on vanhempi ratkaisuarkkitehti San Franciscon lahden alueella. Hän auttaa AWS Enterprise -asiakkaita kasvamaan ymmärtämällä heidän tavoitteensa ja haasteensa, ja opastaa heitä suunnittelemaan sovelluksiaan pilvipohjaisella tavalla varmistaen samalla, että ne ovat joustavia ja skaalautuvia. Hän on intohimoinen koneoppimistekniikoista ja ympäristön kestävyydestä.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen