Anacondan vuonna 2020 tekemän datatieteilijöiden kyselyn mukaan tietojen valmistelu on yksi koneoppimisen (ML) ja data-analytiikan työnkulkujen kriittisistä vaiheista ja usein erittäin aikaa vievää datatieteilijöiltä. Datatieteilijät käyttävät noin 66 % ajastaan tietojen valmisteluun ja analysointiin, mukaan lukien lataaminen (19 %), siivous (26 %) ja visualisointi (21 %).
Amazon SageMaker Studio on ensimmäinen täysin integroitu kehitysympäristö (IDE) ML:lle. Yhdellä napsautuksella datatieteilijät ja -kehittäjät voivat nopeasti kehittää toimintaansa Studio-muistikirjat tutkia tietojoukkoja ja rakentaa malleja. Jos pidät GUI-pohjaisesta ja interaktiivisesta käyttöliittymästä, voit käyttää sitä Amazon SageMaker Data Wrangler, jossa on yli 300 sisäänrakennettua visualisointia, analyysiä ja muunnosa, jotka käsittelevät tehokkaasti Sparkin tukemaa dataa kirjoittamatta riviäkään koodia.
Data Wrangler tarjoaa nyt sisäänrakennetun tietojen valmistelutoiminnon Amazon SageMaker Studio -muistikirjat jonka avulla ML-ammattilaiset voivat tarkastella visuaalisesti tietojen ominaisuuksia, tunnistaa ongelmia ja korjata tietojen laatuongelmia – vain muutamalla napsautuksella suoraan muistikirjoissa.
Tässä viestissä näytämme sinulle, kuinka Data Wrangler data prep -widget luo automaattisesti tärkeimmät visualisoinnit Pandasin tietokehyksen päälle, jotta ne ymmärtäisivät tiedon jakautumisen, havaitsevat tiedon laatuongelmat ja tuovat esiin tietoja, kuten poikkeavia kullekin ominaisuudelle. Se auttaa olemaan vuorovaikutuksessa tietojen kanssa ja löytämään oivalluksia, jotka voivat jäädä huomaamatta ad hoc -kyselyissä. Se suosittelee myös korjattavia muunnoksia, mahdollistaa datamuunnosten soveltamisen käyttöliittymään ja automaattisesti koodin luomisen muistikirjan soluihin. Tämä ominaisuus on käytettävissä kaikilla alueilla, joilla SageMaker Studio on saatavilla.
Ratkaisun yleiskatsaus
Ymmärretään tarkemmin, kuinka tämä uusi widget tekee tietojen tutkimisesta huomattavasti helpompaa ja tarjoaa saumattoman kokemuksen, joka parantaa yleistä tietojen valmistelukokemusta tietosuunnittelijoille ja -ammattilaisille. Meidän käyttötapauksessamme käytämme muokattua versiota Titanic-tietojoukko, suosittu tietojoukko ML-yhteisössä, joka on nyt lisätty nimellä a näytetiedosto joten voit aloittaa SageMaker Data Wranglerin käytön nopeasti. Alkuperäinen tietojoukko on saatu osoitteesta OpenML, ja Amazon on muokannut lisäämään synteettisiä tietojen laatuongelmia tähän esittelyyn. Voit ladata tietojoukon muokatun version julkisesta S3-polusta s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
Edellytykset
Saadaksesi käytännön kokemusta kaikista tässä viestissä kuvatuista ominaisuuksista, täytä seuraavat edellytykset:
- Varmista, että sinulla on AWS-tili, suojattu pääsy kirjautuaksesi tilille AWS-hallintakonsolija AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) käyttöoikeudet Amazon Sage Maker ja Amazonin yksinkertainen tallennuspalvelu (Amazon S3) resursseja.
- Käytä esimerkkitietojoukkoa julkisesta S3-polusta
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
tai vaihtoehtoisesti lataa se S3-ämpäriin tililläsi. - Liity SageMaker-verkkotunnukseen ja käytä Studioa käyttääksesi muistikirjoja. Katso ohjeet kohdasta Sisääntulo Amazon SageMaker -verkkotunnukseen. Jos käytät olemassa olevaa Studiota, päivitä siihen Studion uusin versio.
Ota käyttöön tietojen tutkimisen widget
Kun käytät Pandas-tietokehyksiä, Studio-muistikirjan käyttäjät voivat manuaalisesti ottaa käyttöön tietojen tutkimisen widgetin, jotta uudet visualisoinnit näkyvät oletusarvoisesti jokaisen sarakkeen päällä. Widget näyttää histogrammin numeerisille tiedoille ja pylväskaavion muuntyyppisille tiedoille. Näiden esitysten avulla voit nopeasti ymmärtää tiedon jakautumisen ja löytää puuttuvat arvot ja poikkeamat ilman, että sinun tarvitsee kirjoittaa vakiomenetelmiä jokaiselle sarakkeelle. Vie hiiri kunkin visualisoinnin palkin päälle saadaksesi nopean käsityksen jakelusta.
Avaa Studio ja luo uusi Python 3 -muistikirja. Muista valita Tietotiede 3.0 kuva SageMaker-kuvista napsauttamalla Muuta ympäristöä painiketta.
Tietojen tutkimisen widget on saatavilla seuraavissa kuvissa. Katso luettelo oletusarvoisista SageMaker-kuvista kohdasta Saatavilla Amazon SageMaker -kuvat.
- Python 3 (Data Science) Python 3.7:n kanssa
- Python 3 (Data Science 2.0) ja Python 3.8
- Python 3 (Data Science 3.0) ja Python 3.10
- Spark Analytics 1.0 ja 2.0
Käytä tätä widgetiä tuomalla SageMaker_DataWrangler
kirjasto. Lataa Titanicin tietojoukon muokattu versio osoitteesta S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
ja lue CSV Pandas-kirjastolla:
Visualisoi tiedot
Kun tiedot on ladattu Pandas-tietokehykseen, voit tarkastella tietoja vain käyttämällä df
or display(df)
. Rivin luetteloimisen lisäksi tietojen valmistelu-widget tuottaa oivalluksia, visualisointeja ja neuvoja tietojen laadusta. Sinun ei tarvitse kirjoittaa ylimääräistä koodia luodaksesi ominaisuus- ja kohdetietoja, jakelutietoja tai renderöintitietojen laaduntarkistuksia. Voit valita tietokehystaulukon otsikon nähdäksesi tilastollisen yhteenvedon, joka näyttää mahdolliset tietojen laatuvaroitukset.
Jokainen sarake näyttää pylväskaavion tai histogrammin tietotyypin mukaan. Oletusarvoisesti widget ottaa näytteitä jopa 10,000 XNUMX havainnosta merkityksellisten oivallusten luomiseksi. Se tarjoaa myös mahdollisuuden ajaa oivallusanalyysi koko tietojoukolle.
Kuten seuraavassa kuvakaappauksessa näkyy, tämä widget tunnistaa, onko sarakkeessa kategorisia vai kvantitatiivisia tietoja.
Kategorisille tiedoille widget luo pylväskaavion, jossa on kaikki luokat. Seuraavassa kuvakaappauksessa esimerkiksi sarake Sex
tunnistaa datassa olevat luokat. Voit viedä hiiren baarin päälle (uros- tässä tapauksessa) nähdäksesi näiden luokkien tiedot, kuten arvon sisältävien rivien kokonaismäärän male
ja sen jakautuminen visualisoidussa kokonaistietojoukossa (64.07 % tässä esimerkissä). Se myös korostaa puuttuvien arvojen kokonaisprosenttiosuutta eri värillä kategorisille tiedoille. Kvantitatiivisille tiedoille, kuten ticket
sarakkeessa, se näyttää jakautumisen sekä virheellisten arvojen prosenttiosuuden.
Jos haluat nähdä tavallisen Pandas-visualisoinnin muistikirjassa, voit valita Katso Pandas-taulukko ja vaihda widgetin ja Panda-esityksen välillä, kuten seuraavassa kuvakaappauksessa näkyy.
Saat tarkempia tietoja sarakkeen tiedoista valitsemalla sarakkeen otsikon avataksesi sarakkeelle omistetun sivupaneelin. Täällä voit tarkkailla kahta välilehteä: Insights ja Tietojen laatu.
Seuraavissa osioissa tutkimme näitä kahta vaihtoehtoa yksityiskohtaisemmin.
Insights
- Insights -välilehti sisältää kunkin sarakkeen tiedot ja kuvaukset. Tässä osiossa luetellaan aggregoidut tilastot, kuten tila, yksilöivien lukumäärä, suhteet ja puuttuvien/virheellisten arvojen määrät jne. sekä visualisoidaan tietojen jakautuminen histogrammin tai pylväskaavion avulla. Seuraavissa kuvakaappauksissa voit tarkastella valitulle sarakkeelle luoduilla helposti ymmärrettävillä visualisoinneilla näytettävät datanäkymät ja jakelutiedot. survived
.
Tietojen laatu
Studion tietojen valmistelu -widget korostaa tunnistetut tiedon laatuongelmat otsikossa olevalla varoitusmerkillä. Widget voi tunnistaa kaiken kirjon tiedon laatuongelmia perusasioista (puuttuvat arvot, vakio sarake jne.) ML-kohtaisempiin (kohdevuoto, alhaiset ennustavat pisteet jne.). Widget korostaa tiedon laatuongelman aiheuttavat solut ja järjestää rivit uudelleen niin, että ongelmalliset solut ovat yläreunassa. Tiedonlaatuongelman korjaamiseksi widget tarjoaa useita muuntajia, joita voidaan käyttää napin painalluksella.
Voit tutkia tietojen laatua valitsemalla sarakkeen otsikon ja valitsemalla sivupaneelista Tietojen laatu -välilehti. Sinun pitäisi nähdä seuraava Studio-ympäristössäsi.
Katsotaanpa eri vaihtoehtoja, jotka ovat käytettävissä Tietojen laatu -välilehti. Tässä esimerkissä valitsemme ikäsarakkeen, joka tunnistetaan tietojen perusteella kvantitatiiviseksi sarakkeeksi. Kuten seuraavassa kuvakaappauksessa näemme, tämä widget ehdottaa erilaisia muunnoksia, joita voit käyttää, mukaan lukien yleisimmät toiminnot, kuten Korvaa uudella arvolla, Pudotus puuttuu, Korvaa mediaanillatai Korvaa keskiarvolla. Voit valita minkä tahansa niistä tietojoukkollesi käyttötapauksen perusteella (ML-ongelma, jota yrität ratkaista). Se antaa sinulle myös Pudota sarake vaihtoehto, jos haluat poistaa ominaisuuden kokonaan.
Kun valitset Käytä ja vie koodi, muunnos käytetään tietokehyksen syväkopioon. Kun muunnos on otettu käyttöön onnistuneesti, tietotaulukko päivitetään oivalluksilla ja visualisoinneilla. Muunnoskoodi luodaan muistikirjan olemassa olevan solun jälkeen. Voit suorittaa tämän viedyn koodin myöhemmin ottaaksesi muunnoksen käyttöön tietojoukoissasi ja laajentaaksesi sitä tarpeidesi mukaan. Voit mukauttaa muunnoksen suoraan muokkaamalla luotua koodia. Jos sovellamme Pudotus puuttuu Ikä-sarakkeen vaihtoehto, seuraavaa muunnoskoodia käytetään tietojoukossa, ja koodi luodaan myös widgetin alla olevaan soluun:
Seuraavassa on toinen esimerkki koodinpätkästä kohteelle Korvaa mediaanilla:
Katsotaanpa nyt tietojen valmistelu-widgetin tavoitetietoja. Oletetaan, että haluat käyttää survived
ominaisuus, joka ennustaa, selviääkö matkustaja. Valitse survived
sarakkeen otsikko. Valitse sivupaneelista Valitse kohdesarakkeeksi. Ihanteellinen tiedonjako survived
ominaisuudella saa olla vain kaksi luokkaa: kyllä (1
) vai ei (0
), joka auttaa luokittelemaan Titanicin onnettomuuden selviytymismahdollisuuksia. Valitun kohdesarakkeen tietojen epäjohdonmukaisuuksien vuoksi ominaisuus on kuitenkin säilynyt 0
, 1
, ?
, unknown
ja yes
.
Valitse ongelman tyyppi valitun kohdesarakkeen perusteella, joka voi olla jompikumpi Luokittelu or Regressio. Säilöön jääneen sarakkeen ongelman tyyppi on luokitus. Valita ajaa luodaksesi hyödyllisiä tietoja kohdesarakkeesta.
Tietojen valmistelu -widget luetteloi kohdesarakkeen oivalluksia sekä suosituksia ja esimerkkiselityksiä kohdesarakkeen tietojen laatuun liittyvien ongelmien ratkaisemiseksi. Se myös korostaa automaattisesti sarakkeen poikkeavat tiedot.
Valitsemme suositellun muunnoksen Pudota harvinaisia tavoitearvoja, koska harvinaisille tavoitearvoille on vähemmän havaintoja.
Valittua muunnosa sovelletaan Pandas-tietokehykseen ja epätavalliset kohdearvot poistettiin säilyneestä sarakkeesta. Katso seuraava koodi:
Sovelletun muunnoksen tulokset näkyvät välittömästi tietokehyksessä. Jotta voidaan seurata tietojen valmistelu-widgetin avulla käytettyjä tietojen valmistelutoimintoja, muunnettu koodi luodaan myös seuraavaan muistikirjan soluun.
Yhteenveto
Tässä viestissä opastimme, kuinka Studion tietojen valmistelu-widget voi auttaa analysoimaan datan jakautumista, tutkimaan työkalun tuottamia tietojen laatutietoja ja paljastamaan mahdollisia ongelmia, kuten poikkeavia kunkin kriittisen ominaisuuden kohdalla. Tämä auttaa parantamaan yleistä tietojen laatua, jotta voit kouluttaa korkealaatuisia malleja, ja se poistaa erottelemattoman raskaan nostamisen mahdollistamalla tietojen muuntamisen käyttöliittymässä ja koodin luomisen kannettavan tietokoneen soluille automaattisesti. Voit sitten käyttää tätä koodia MLOps-putkissasi luodaksesi toistettavuutta, välttääksesi ajanhukkaa toistuviin tehtäviin ja vähentääksesi yhteensopivuusongelmia nopeuttamalla datariippuvaisten putkien rakentamista ja käyttöönottoa.
Jos olet uusi SageMaker Data Wranglerin tai Studion käyttäjä, katso Aloita SageMaker Data Wranglerin käyttö. Jos sinulla on kysyttävää tähän postaukseen liittyen, voit lisätä ne kommenttiosioon.
Tietoja Tekijät
Parth Patel on ratkaisuarkkitehti AWS:ssä San Franciscon lahden alueella. Parth opastaa asiakkaita nopeuttamaan matkaansa pilveen ja auttamaan heitä omaksumaan AWS Cloudin ja kasvamaan siinä onnistuneesti. Hän keskittyy koneoppimiseen, ympäristön kestävyyteen ja sovellusten modernisointiin.
Isha Dua on vanhempi ratkaisuarkkitehti San Franciscon lahden alueella. Hän auttaa AWS Enterprise -asiakkaita kasvamaan ymmärtämällä heidän tavoitteensa ja haasteensa ja opastamalla heitä suunnittelemaan sovelluksiaan pilvipohjaisella tavalla varmistaen samalla, että ne ovat joustavia ja skaalautuvia. Hän on intohimoinen koneoppimistekniikoista ja ympäristön kestävyydestä.
Hariharan Suresh on AWS:n vanhempi ratkaisuarkkitehti. Hän on intohimoinen tietokantoihin, koneoppimiseen ja innovatiivisten ratkaisujen suunnitteluun. Ennen AWS:ään liittymistään Hariharan oli tuotearkkitehti, ydinpankkitoiminnan toteutusasiantuntija ja kehittäjä, ja työskenteli BFSI-organisaatioiden kanssa yli 11 vuoden ajan. Tekniikan ulkopuolella hän harrastaa varjoliitoa ja pyöräilyä.
Dani Mitchell on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesissä. Hän keskittyy Computer Visionin käyttötapauksiin ja auttaa asiakkaita kaikkialla EMEA-alueella nopeuttamaan ML-matkaansa.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- Keskitaso (200)
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet