Esittelyssä Amazon SageMaker Data Wranglerin uudet sulautetut visualisoinnit

Julkaissut Platon

seuraajia: 0

Tietojen laadun manuaalinen tarkastaminen ja tietojen puhdistaminen on tuskallinen ja aikaa vievä prosessi, joka voi viedä valtavan osan datatieteilijän ajasta projektiin. Anacondan vuonna 2020 tekemän datatieteilijöiden tutkimuksen mukaan datatieteilijät käyttävät noin 66 % ajastaan tietojen valmisteluun ja analysointiin, mukaan lukien lataaminen (19 %), siivous (26 %) ja visualisointi (21 %). Amazon Sage Maker tarjoaa valikoiman tietojen valmistelutyökaluja asiakkaiden erilaisiin tarpeisiin ja mieltymyksiin. Käyttäjille, jotka haluavat GUI-pohjaisen interaktiivisen käyttöliittymän, SageMaker Data Wrangler tarjoaa yli 300 sisäänrakennettua visualisointia, analyysiä ja muunnosa Sparkin tukeman tiedon tehokkaaseen käsittelyyn kirjoittamatta yhtään koodiriviä.

Tietojen visualisointi koneoppimisessa (ML) on iteratiivinen prosessi ja vaatii jatkuvaa tietojoukon visualisointia löytämistä, tutkimista ja validointia varten. Tietojen asettaminen perspektiiviin edellyttää jokaisen sarakkeen näkemistä mahdollisten tietovirheiden, puuttuvien arvojen, väärien tietotyyppien, harhaanjohtavien/virheellisten tietojen, poikkeavien tietojen ja muiden ymmärtämiseksi.

Tässä viestissä näytämme sinulle kuinka Amazon SageMaker Data Wrangler luo automaattisesti tärkeimmät visualisoinnit tietojen jakelusta, havaitsee tiedon laatuongelmat ja tuo esiin tietoja, kuten poikkeavia arvoja jokaiselle ominaisuudelle kirjoittamatta yhtään koodiriviä. Se auttaa parantamaan dataruudukon kokemusta automaattisilla laatuvaroituksilla (esimerkiksi puuttuvat arvot tai virheelliset arvot). Automaattisesti luodut visualisoinnit ovat myös interaktiivisia. Voit esimerkiksi näyttää taulukon viidestä yleisimmästä kohteesta, jotka on järjestetty prosenttien mukaan, ja siirtämällä hiiren osoittimen palkin päälle vaihtaaksesi määrän ja prosentin välillä.

Edellytykset

Amazon SageMaker Data Wrangler on SageMaker-ominaisuus, joka on saatavilla SageMaker Studiossa. Voit seurata Studion käyttöönottoprosessi Studio-ympäristön ja muistikirjojen pyörittämiseen. Vaikka voit valita useista todennusmenetelmistä, yksinkertaisin tapa luoda Studio-verkkotunnus on noudattaa Pika-aloitusohjeet. Pika-aloitus käyttää samoja oletusasetuksia kuin Studion vakioasetukset. Voit myös halutessasi käyttää AWS Identity and Access Management (IAM) Identity Center (AWS Single Sign-On:n seuraaja) todennusta varten (katso Sisääntulo Amazon SageMaker -verkkotunnukseen IAM Identity Centerin avulla).

Ratkaisun esittely

Aloita SageMaker Studio Ympäristö ja luoda uutta Data Wrangler -virtaus. Voit joko tuoda oman tietojoukon tai käyttää esimerkkitietojoukkoa (Titaanimainen), kuten seuraavasta kuvasta näkyy. Nämä kaksi solmua ( lähde solmu ja tiedot type node) ovat napsautettavat – kun kaksoisnapsautat näitä kahta solmua, Data Wrangler näyttää taulukon.

Meidän tapauksessamme napsauta hiiren kakkospainikkeella Tietotyypit kuvake ja Lisää muunnos:

Sinun pitäisi nyt nähdä visualisoinnit jokaisen sarakkeen päällä. Odota jonkin aikaa kaavioiden latautumiseen. Viive riippuu tietojoukon koosta (Titanic-tietojoukossa sen pitäisi kestää 1-2 sekuntia oletusasennossa).

Esittelyssä Amazon SageMaker Data Wranglerin uudet sulautetut visualisoinnit PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Vieritä vaakasuuntaiseen yläpalkkiin viemällä hiiren osoitin työkaluvihjeen päälle. Nyt kun kaaviot on ladattu, näet tietojen jakautumisen, virheelliset arvot ja puuttuvat arvot. Poikkeamat ja puuttuvat arvot ovat virheellisten tietojen ominaisuuksia, ja on tärkeää tunnistaa ne, koska ne voivat vaikuttaa tuloksiin. Tämä tarkoittaa, että koska tietosi ovat peräisin epäedustavasta otoksesta, löydösi eivät välttämättä ole yleistettävissä tutkimuksesi ulkopuolisiin tilanteisiin. Arvojen luokittelu näkyy alareunassa olevissa kaavioissa pätevä arvot on esitetty valkoisella, pätemätön arvot sinisellä ja puuttuva arvot violetilla. Voit myös katsoa harha kaavion vasemmalla tai oikealla puolella olevilla sinisillä pisteillä.

Esittelyssä Amazon SageMaker Data Wranglerin uudet sulautetut visualisoinnit PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kaikki visualisoinnit tulevat histogrammien muodossa. Ei-kategorisille tiedoille määritetään kullekin säiliölle ämpärisarja. Kategorisissa tiedoissa jokaista yksilöllistä arvoa käsitellään säiliönä. Histogrammin päällä on pylväskaavio, joka näyttää virheelliset ja puuttuvat arvot. Voimme tarkastella kelvollisten arvojen suhdetta Numeerinen, Kategorinen, Binääri, Teksti ja Päivämäärä-tyyppi, sekä puuttuvien arvojen suhde nolla- ja tyhjien solujen kokonaismäärän perusteella ja lopuksi virheellisten arvojen suhde. Katsotaanpa joitain esimerkkejä ymmärtääksesi, kuinka voit nähdä ne käyttämällä Data Wranglerin esiladattu näyte Titanic Dataset.

Esimerkki 1 – Voimme tarkastella 20 %:n puuttuvia arvoja IKÄ ominaisuus/sarake. On ratkaisevan tärkeää käsitellä puuttuvaa dataa dataan liittyvän tutkimuksen/ML:n alalla joko poistamalla tai imputoimalla (käsittelemällä puuttuvia arvoja jollain arvioinnilla).

Esittelyssä Amazon SageMaker Data Wranglerin uudet sulautetut visualisoinnit PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
Voit käsitellä puuttuvia arvoja käyttämällä Käsittele puuttuvia arvoja muuttaa ryhmää. Käytä Syyte puuttuu muunnos luomaan laskennalliset arvot, jos syöttösarakkeesta löytyi puuttuvia arvoja. Kokoonpano riippuu tietotyypistäsi.

Tässä esimerkissä IKÄ sarakkeessa on numeerinen tietotyyppi. Imputointistrategiaa varten voimme imputoida tarkoittaa tai likimääräinen mediaani yli tietojoukossasi olevien arvojen.

Nyt kun olemme lisänneet muunnoksen, voimme nähdä, että IKÄ sarakkeesta ei enää puuttuvia arvoja.

Esimerkki 2 – Voimme tarkastella 27 % virheellisiä arvoja LIPUT ominaisuus/sarake, joka on STRING tyyppi. Virheelliset tiedot voivat tuottaa vääristyneitä arvioita, mikä voi heikentää mallin tarkkuutta ja johtaa vääriin johtopäätöksiin. Tutkitaan joitain muunnoksia, joita voimme käyttää käsittelemään virheellisiä tietoja LIPUT sarake.

Katsoessamme kuvakaappausta huomaamme, että osa syötteistä on kirjoitettu muodossa, joka sisältää aakkoset ennen numeroita "PC 17318"ja muut ovat vain numeroita, kuten "11769".

Voimme valita muunnoksen hakeaksemme ja muokataksemme tiettyjä kuvioita merkkijonoista, kuten "PC" ja vaihda ne. Seuraavaksi voimme heittää omamme jono sarake uuteen tyyppiin, kuten Pitkät käytön helpottamiseksi.

Tämä jättää meille edelleen 19 % puuttuvia arvoja LIPUT ominaisuus. Kuten esimerkissä 1, voimme nyt laskea puuttuvat arvot käyttämällä keskiarvoa tai likimääräistä mediaania. Ominaisuus LIPUT ei saa enää olla virheellisiä tai puuttuvia arvoja alla olevan kuvan mukaisesti.

Varmista, että sinulle ei aiheudu kuluja tämän opetusohjelman noudattamisen jälkeen sammuta Data Wrangler -sovellus.

Yhteenveto

Tässä postauksessa esittelimme uutta Amazon Sagemaker Data Wrangler widget, joka auttaa poistamaan erottumaton raskasnosto loppukäyttäjille tietojen valmistelun aikana automaattisesti esiin tulevilla visualisoinneilla ja dataprofiloinnin oivalluksilla jokaiselle ominaisuudelle. Tämän widgetin avulla on helppo visualisoida tietoja (esimerkiksi kategorinen/ei-kategorinen histogrammi), havaita tiedon laatuongelmia (esimerkiksi puuttuvat arvot ja virheelliset arvot) ja tarkastella tietoja (esimerkiksi poikkeavia arvoja ja ylin N kohde).

Voit alkaa käyttää tätä ominaisuutta jo tänään kaikilla alueilla, joilla SageMaker Studio on saatavilla. Kokeile sitä, ja kerro meille mielipiteesi. Odotamme aina innolla palautettasi joko tavallisten AWS-tukikontaktien kautta tai osoitteessa AWS foorumi SageMakerille.

Tietoja Tekijät

Isha Dua on vanhempi ratkaisuarkkitehti San Franciscon lahden alueella. Hän auttaa AWS Enterprise -asiakkaita kasvamaan ymmärtämällä heidän tavoitteensa ja haasteensa, ja opastaa heitä suunnittelemaan sovelluksiaan pilvipohjaisella tavalla varmistaen samalla, että ne ovat joustavia ja skaalautuvia. Hän on intohimoinen koneoppimistekniikoista ja ympäristön kestävyydestä.

Parth Patel on ratkaisuarkkitehti AWS:ssä San Franciscon lahden alueella. Parth opastaa asiakkaita nopeuttamaan matkaansa pilveen ja auttaa heitä ottamaan AWS Cloud onnistuneesti käyttöön. Hän keskittyy ML:ään ja sovellusten modernisointiin.

Aikaleima: Joulukuu 13, 2022Joulukuu 13, 2022

Aikaleima: Syyskuu 29, 2022

Esittelyssä Amazon SageMaker Data Wranglerin uudet sulautetut visualisoinnit

Julkaissut Platon

Edellytykset

Ratkaisun esittely

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Ota suuria malleja käyttöön Amazon SageMakerissa käyttämällä DJLServing- ja DeepSpeed-mallin rinnakkaisjohtopäätöstä

Hallitse pääsyä Amazon SageMaker Feature Storeen offline-tilassa AWS Lake Formationin avulla

Paranna haun tarkkuutta Amazon Kendran oikeinkirjoituksen tarkistuksella

Analysoi jyrsijätartuntoja käyttämällä Amazon SageMakerin geospatiaalisia ominaisuuksia | Amazon Web Services

Pura Slackin työtilojen tieto älykkäällä haulla Amazon Kendra Slack -liittimen avulla

Kuinka Sophos kouluttaa tehokkaan, kevyen PDF-haittaohjelmien tunnistimen ultra-mittakaavassa Amazon SageMakerin avulla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili