Vuorovaikutteinen tietojen valmistelu-widget kannettaville tietokoneille Powered by Amazon SageMaker Data Wrangler

Julkaissut Platon

seuraajia: 0

Anacondan vuonna 2020 tekemän datatieteilijöiden kyselyn mukaan tietojen valmistelu on yksi koneoppimisen (ML) ja data-analytiikan työnkulkujen kriittisistä vaiheista ja usein erittäin aikaa vievää datatieteilijöiltä. Datatieteilijät käyttävät noin 66 % ajastaan tietojen valmisteluun ja analysointiin, mukaan lukien lataaminen (19 %), siivous (26 %) ja visualisointi (21 %).

Amazon SageMaker Studio on ensimmäinen täysin integroitu kehitysympäristö (IDE) ML:lle. Yhdellä napsautuksella datatieteilijät ja -kehittäjät voivat nopeasti kehittää toimintaansa Studio-muistikirjat tutkia tietojoukkoja ja rakentaa malleja. Jos pidät GUI-pohjaisesta ja interaktiivisesta käyttöliittymästä, voit käyttää sitä Amazon SageMaker Data Wrangler, jossa on yli 300 sisäänrakennettua visualisointia, analyysiä ja muunnosa, jotka käsittelevät tehokkaasti Sparkin tukemaa dataa kirjoittamatta riviäkään koodia.

Data Wrangler tarjoaa nyt sisäänrakennetun tietojen valmistelutoiminnon Amazon SageMaker Studio -muistikirjat jonka avulla ML-ammattilaiset voivat tarkastella visuaalisesti tietojen ominaisuuksia, tunnistaa ongelmia ja korjata tietojen laatuongelmia – vain muutamalla napsautuksella suoraan muistikirjoissa.

Tässä viestissä näytämme sinulle, kuinka Data Wrangler data prep -widget luo automaattisesti tärkeimmät visualisoinnit Pandasin tietokehyksen päälle, jotta ne ymmärtäisivät tiedon jakautumisen, havaitsevat tiedon laatuongelmat ja tuovat esiin tietoja, kuten poikkeavia kullekin ominaisuudelle. Se auttaa olemaan vuorovaikutuksessa tietojen kanssa ja löytämään oivalluksia, jotka voivat jäädä huomaamatta ad hoc -kyselyissä. Se suosittelee myös korjattavia muunnoksia, mahdollistaa datamuunnosten soveltamisen käyttöliittymään ja automaattisesti koodin luomisen muistikirjan soluihin. Tämä ominaisuus on käytettävissä kaikilla alueilla, joilla SageMaker Studio on saatavilla.

Ratkaisun yleiskatsaus

Ymmärretään tarkemmin, kuinka tämä uusi widget tekee tietojen tutkimisesta huomattavasti helpompaa ja tarjoaa saumattoman kokemuksen, joka parantaa yleistä tietojen valmistelukokemusta tietosuunnittelijoille ja -ammattilaisille. Meidän käyttötapauksessamme käytämme muokattua versiota Titanic-tietojoukko, suosittu tietojoukko ML-yhteisössä, joka on nyt lisätty nimellä a näytetiedosto joten voit aloittaa SageMaker Data Wranglerin käytön nopeasti. Alkuperäinen tietojoukko on saatu osoitteesta OpenML, ja Amazon on muokannut lisäämään synteettisiä tietojen laatuongelmia tähän esittelyyn. Voit ladata tietojoukon muokatun version julkisesta S3-polusta s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

Edellytykset

Saadaksesi käytännön kokemusta kaikista tässä viestissä kuvatuista ominaisuuksista, täytä seuraavat edellytykset:

Varmista, että sinulla on AWS-tili, suojattu pääsy kirjautuaksesi tilille AWS-hallintakonsolija AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) käyttöoikeudet Amazon Sage Maker ja Amazonin yksinkertainen tallennuspalvelu (Amazon S3) resursseja.
Käytä esimerkkitietojoukkoa julkisesta S3-polusta s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv tai vaihtoehtoisesti lataa se S3-ämpäriin tililläsi.
Liity SageMaker-verkkotunnukseen ja käytä Studioa käyttääksesi muistikirjoja. Katso ohjeet kohdasta Sisääntulo Amazon SageMaker -verkkotunnukseen. Jos käytät olemassa olevaa Studiota, päivitä siihen Studion uusin versio.

Ota käyttöön tietojen tutkimisen widget

Kun käytät Pandas-tietokehyksiä, Studio-muistikirjan käyttäjät voivat manuaalisesti ottaa käyttöön tietojen tutkimisen widgetin, jotta uudet visualisoinnit näkyvät oletusarvoisesti jokaisen sarakkeen päällä. Widget näyttää histogrammin numeerisille tiedoille ja pylväskaavion muuntyyppisille tiedoille. Näiden esitysten avulla voit nopeasti ymmärtää tiedon jakautumisen ja löytää puuttuvat arvot ja poikkeamat ilman, että sinun tarvitsee kirjoittaa vakiomenetelmiä jokaiselle sarakkeelle. Vie hiiri kunkin visualisoinnin palkin päälle saadaksesi nopean käsityksen jakelusta.

Avaa Studio ja luo uusi Python 3 -muistikirja. Muista valita Tietotiede 3.0 kuva SageMaker-kuvista napsauttamalla Muuta ympäristöä painiketta.

Tietojen tutkimisen widget on saatavilla seuraavissa kuvissa. Katso luettelo oletusarvoisista SageMaker-kuvista kohdasta Saatavilla Amazon SageMaker -kuvat.

Python 3 (Data Science) Python 3.7:n kanssa
Python 3 (Data Science 2.0) ja Python 3.8
Python 3 (Data Science 3.0) ja Python 3.10
Spark Analytics 1.0 ja 2.0

Käytä tätä widgetiä tuomalla SageMaker_DataWrangler kirjasto. Lataa Titanicin tietojoukon muokattu versio osoitteesta S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv ja lue CSV Pandas-kirjastolla:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

Visualisoi tiedot

Kun tiedot on ladattu Pandas-tietokehykseen, voit tarkastella tietoja vain käyttämällä df or display(df). Rivin luetteloimisen lisäksi tietojen valmistelu-widget tuottaa oivalluksia, visualisointeja ja neuvoja tietojen laadusta. Sinun ei tarvitse kirjoittaa ylimääräistä koodia luodaksesi ominaisuus- ja kohdetietoja, jakelutietoja tai renderöintitietojen laaduntarkistuksia. Voit valita tietokehystaulukon otsikon nähdäksesi tilastollisen yhteenvedon, joka näyttää mahdolliset tietojen laatuvaroitukset.

visualisoida tiedot

Jokainen sarake näyttää pylväskaavion tai histogrammin tietotyypin mukaan. Oletusarvoisesti widget ottaa näytteitä jopa 10,000 XNUMX havainnosta merkityksellisten oivallusten luomiseksi. Se tarjoaa myös mahdollisuuden ajaa oivallusanalyysi koko tietojoukolle.

Kuten seuraavassa kuvakaappauksessa näkyy, tämä widget tunnistaa, onko sarakkeessa kategorisia vai kvantitatiivisia tietoja.

kategorisista tai määrällisistä tiedoista

Kategorisille tiedoille widget luo pylväskaavion, jossa on kaikki luokat. Seuraavassa kuvakaappauksessa esimerkiksi sarake Sex tunnistaa datassa olevat luokat. Voit viedä hiiren baarin päälle (uros- tässä tapauksessa) nähdäksesi näiden luokkien tiedot, kuten arvon sisältävien rivien kokonaismäärän male ja sen jakautuminen visualisoidussa kokonaistietojoukossa (64.07 % tässä esimerkissä). Se myös korostaa puuttuvien arvojen kokonaisprosenttiosuutta eri värillä kategorisille tiedoille. Kvantitatiivisille tiedoille, kuten ticket sarakkeessa, se näyttää jakautumisen sekä virheellisten arvojen prosenttiosuuden.

Jos haluat nähdä tavallisen Pandas-visualisoinnin muistikirjassa, voit valita Katso Pandas-taulukko ja vaihda widgetin ja Panda-esityksen välillä, kuten seuraavassa kuvakaappauksessa näkyy.

Katso Pandas-taulukko

tarkastella data wrangler -taulukkoa

Saat tarkempia tietoja sarakkeen tiedoista valitsemalla sarakkeen otsikon avataksesi sarakkeelle omistetun sivupaneelin. Täällä voit tarkkailla kahta välilehteä: Insights ja Tietojen laatu.

Näkemykset ja tietojen laatu

Seuraavissa osioissa tutkimme näitä kahta vaihtoehtoa yksityiskohtaisemmin.

Insights

- Insights -välilehti sisältää kunkin sarakkeen tiedot ja kuvaukset. Tässä osiossa luetellaan aggregoidut tilastot, kuten tila, yksilöivien lukumäärä, suhteet ja puuttuvien/virheellisten arvojen määrät jne. sekä visualisoidaan tietojen jakautuminen histogrammin tai pylväskaavion avulla. Seuraavissa kuvakaappauksissa voit tarkastella valitulle sarakkeelle luoduilla helposti ymmärrettävillä visualisoinneilla näytettävät datanäkymät ja jakelutiedot. survived.

Tietojen laatu

Studion tietojen valmistelu -widget korostaa tunnistetut tiedon laatuongelmat otsikossa olevalla varoitusmerkillä. Widget voi tunnistaa kaiken kirjon tiedon laatuongelmia perusasioista (puuttuvat arvot, vakio sarake jne.) ML-kohtaisempiin (kohdevuoto, alhaiset ennustavat pisteet jne.). Widget korostaa tiedon laatuongelman aiheuttavat solut ja järjestää rivit uudelleen niin, että ongelmalliset solut ovat yläreunassa. Tiedonlaatuongelman korjaamiseksi widget tarjoaa useita muuntajia, joita voidaan käyttää napin painalluksella.

Voit tutkia tietojen laatua valitsemalla sarakkeen otsikon ja valitsemalla sivupaneelista Tietojen laatu -välilehti. Sinun pitäisi nähdä seuraava Studio-ympäristössäsi.

tietojen laatu -välilehti

Katsotaanpa eri vaihtoehtoja, jotka ovat käytettävissä Tietojen laatu -välilehti. Tässä esimerkissä valitsemme ikäsarakkeen, joka tunnistetaan tietojen perusteella kvantitatiiviseksi sarakkeeksi. Kuten seuraavassa kuvakaappauksessa näemme, tämä widget ehdottaa erilaisia muunnoksia, joita voit käyttää, mukaan lukien yleisimmät toiminnot, kuten Korvaa uudella arvolla, Pudotus puuttuu, Korvaa mediaanillatai Korvaa keskiarvolla. Voit valita minkä tahansa niistä tietojoukkollesi käyttötapauksen perusteella (ML-ongelma, jota yrität ratkaista). Se antaa sinulle myös Pudota sarake vaihtoehto, jos haluat poistaa ominaisuuden kokonaan.

ikä

Kun valitset Käytä ja vie koodi, muunnos käytetään tietokehyksen syväkopioon. Kun muunnos on otettu käyttöön onnistuneesti, tietotaulukko päivitetään oivalluksilla ja visualisoinneilla. Muunnoskoodi luodaan muistikirjan olemassa olevan solun jälkeen. Voit suorittaa tämän viedyn koodin myöhemmin ottaaksesi muunnoksen käyttöön tietojoukoissasi ja laajentaaksesi sitä tarpeidesi mukaan. Voit mukauttaa muunnoksen suoraan muokkaamalla luotua koodia. Jos sovellamme Pudotus puuttuu Ikä-sarakkeen vaihtoehto, seuraavaa muunnoskoodia käytetään tietojoukossa, ja koodi luodaan myös widgetin alla olevaan soluun:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

Seuraavassa on toinen esimerkki koodinpätkästä kohteelle Korvaa mediaanilla:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

Katsotaanpa nyt tietojen valmistelu-widgetin tavoitetietoja. Oletetaan, että haluat käyttää survived ominaisuus, joka ennustaa, selviääkö matkustaja. Valitse survived sarakkeen otsikko. Valitse sivupaneelista Valitse kohdesarakkeeksi. Ihanteellinen tiedonjako survived ominaisuudella saa olla vain kaksi luokkaa: kyllä (1) vai ei (0), joka auttaa luokittelemaan Titanicin onnettomuuden selviytymismahdollisuuksia. Valitun kohdesarakkeen tietojen epäjohdonmukaisuuksien vuoksi ominaisuus on kuitenkin säilynyt 0, 1, ?, unknownja yes.

valitse kohdesarakkeeksi

Valitse ongelman tyyppi valitun kohdesarakkeen perusteella, joka voi olla jompikumpi Luokittelu or Regressio. Säilöön jääneen sarakkeen ongelman tyyppi on luokitus. Valita ajaa luodaksesi hyödyllisiä tietoja kohdesarakkeesta.

selviytyi

Tietojen valmistelu -widget luetteloi kohdesarakkeen oivalluksia sekä suosituksia ja esimerkkiselityksiä kohdesarakkeen tietojen laatuun liittyvien ongelmien ratkaisemiseksi. Se myös korostaa automaattisesti sarakkeen poikkeavat tiedot.

kohdesarakkeen oivalluksia ja suosituksia

Valitsemme suositellun muunnoksen Pudota harvinaisia tavoitearvoja, koska harvinaisille tavoitearvoille on vähemmän havaintoja.

Pudota harvinainen tavoitearvo

Valittua muunnosa sovelletaan Pandas-tietokehykseen ja epätavalliset kohdearvot poistettiin säilyneestä sarakkeesta. Katso seuraava koodi:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

Sovelletun muunnoksen tulokset näkyvät välittömästi tietokehyksessä. Jotta voidaan seurata tietojen valmistelu-widgetin avulla käytettyjä tietojen valmistelutoimintoja, muunnettu koodi luodaan myös seuraavaan muistikirjan soluun.

Yhteenveto

Tässä viestissä opastimme, kuinka Studion tietojen valmistelu-widget voi auttaa analysoimaan datan jakautumista, tutkimaan työkalun tuottamia tietojen laatutietoja ja paljastamaan mahdollisia ongelmia, kuten poikkeavia kunkin kriittisen ominaisuuden kohdalla. Tämä auttaa parantamaan yleistä tietojen laatua, jotta voit kouluttaa korkealaatuisia malleja, ja se poistaa erottelemattoman raskaan nostamisen mahdollistamalla tietojen muuntamisen käyttöliittymässä ja koodin luomisen kannettavan tietokoneen soluille automaattisesti. Voit sitten käyttää tätä koodia MLOps-putkissasi luodaksesi toistettavuutta, välttääksesi ajanhukkaa toistuviin tehtäviin ja vähentääksesi yhteensopivuusongelmia nopeuttamalla datariippuvaisten putkien rakentamista ja käyttöönottoa.

Jos olet uusi SageMaker Data Wranglerin tai Studion käyttäjä, katso Aloita SageMaker Data Wranglerin käyttö. Jos sinulla on kysyttävää tähän postaukseen liittyen, voit lisätä ne kommenttiosioon.

Tietoja Tekijät

Parth Patel on ratkaisuarkkitehti AWS:ssä San Franciscon lahden alueella. Parth opastaa asiakkaita nopeuttamaan matkaansa pilveen ja auttamaan heitä omaksumaan AWS Cloudin ja kasvamaan siinä onnistuneesti. Hän keskittyy koneoppimiseen, ympäristön kestävyyteen ja sovellusten modernisointiin.

Isha Dua on vanhempi ratkaisuarkkitehti San Franciscon lahden alueella. Hän auttaa AWS Enterprise -asiakkaita kasvamaan ymmärtämällä heidän tavoitteensa ja haasteensa ja opastamalla heitä suunnittelemaan sovelluksiaan pilvipohjaisella tavalla varmistaen samalla, että ne ovat joustavia ja skaalautuvia. Hän on intohimoinen koneoppimistekniikoista ja ympäristön kestävyydestä.

Hariharan Suresh on AWS:n vanhempi ratkaisuarkkitehti. Hän on intohimoinen tietokantoihin, koneoppimiseen ja innovatiivisten ratkaisujen suunnitteluun. Ennen AWS:ään liittymistään Hariharan oli tuotearkkitehti, ydinpankkitoiminnan toteutusasiantuntija ja kehittäjä, ja työskenteli BFSI-organisaatioiden kanssa yli 11 vuoden ajan. Tekniikan ulkopuolella hän harrastaa varjoliitoa ja pyöräilyä.

Dani Mitchell on AI/ML Specialist Solutions -arkkitehti Amazon Web Servicesissä. Hän keskittyy Computer Visionin käyttötapauksiin ja auttaa asiakkaita kaikkialla EMEA-alueella nopeuttamaan ML-matkaansa.