Interactive Data Prep Widget For Notebooks Powered By Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Spremljevalci: 0

Glede na raziskavo podatkovnih znanstvenikov iz leta 2020, ki jo je izvedla Anaconda, je priprava podatkov eden od kritičnih korakov v strojnem učenju (ML) in delovnih tokovih podatkovne analitike ter za podatkovne znanstvenike pogosto vzame veliko časa. Podatkovni znanstveniki porabijo približno 66 % svojega časa za naloge priprave in analize podatkov, vključno z nalaganjem (19 %), čiščenjem (26 %) in vizualizacijo podatkov (21 %).

Amazon SageMaker Studio je prvo popolnoma integrirano razvojno okolje (IDE) za ML. Z enim samim klikom se lahko podatkovni znanstveniki in razvijalci hitro zavrtijo Studijski zvezki za raziskovanje naborov podatkov in gradnjo modelov. Če imate raje interaktivni vmesnik, ki temelji na GUI, lahko uporabite Amazon SageMaker Data Wrangler, z več kot 300 vgrajenimi vizualizacijami, analizami in transformacijami za učinkovito obdelavo podatkov, ki jih podpira Spark, brez pisanja ene vrstice kode.

Data Wrangler zdaj ponuja vgrajeno možnost priprave podatkov v Prenosni računalniki Amazon SageMaker Studio ki strokovnjakom za strojno učenje omogoča vizualni pregled značilnosti podatkov, prepoznavanje težav in odpravljanje težav s kakovostjo podatkov – v le nekaj klikih neposredno v prenosnikih.

V tej objavi vam pokažemo, kako Data Wrangler gradnik za pripravo podatkov samodejno ustvari ključne vizualizacije na vrhu podatkovnega okvira Panda za razumevanje distribucije podatkov, zaznavanje težav s kakovostjo podatkov in vpogled v površinske podatke, kot so odstopanja za vsako funkcijo. Pomaga pri interakciji s podatki in odkrivanju vpogledov, ki lahko ostanejo neopaženi z ad hoc poizvedovanjem. Prav tako priporoča transformacije, ki jih je treba popraviti, omogoča uporabo transformacij podatkov v uporabniškem vmesniku in samodejno ustvarjanje kode v celicah zvezka. Ta funkcija je na voljo v vseh regijah, kjer je na voljo SageMaker Studio.

Pregled rešitev

Razumejmo še, kako ta novi pripomoček bistveno olajša raziskovanje podatkov in zagotavlja brezhibno izkušnjo za izboljšanje splošne izkušnje priprave podatkov za podatkovne inženirje in izvajalce. Za naš primer uporabe uporabljamo spremenjeno različico Nabor podatkov o Titaniku, priljubljen nabor podatkov v skupnosti ML, ki je zdaj dodan kot a vzorec nabora podatkov tako da lahko hitro začnete uporabljati SageMaker Data Wrangler. Izvirni nabor podatkov je bil pridobljen iz OpenML, in spremenjen tako, da dodaja težave s sintetično kakovostjo podatkov s strani Amazona za to predstavitev. Spremenjeno različico nabora podatkov lahko prenesete z javne poti S3 s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

Predpogoji

Če želite pridobiti praktične izkušnje z vsemi funkcijami, opisanimi v tej objavi, izpolnite naslednje predpogoje:

Zagotovite, da imate račun AWS, varen dostop za prijavo v račun prek Konzola za upravljanje AWSin AWS upravljanje identitete in dostopa (IAM) dovoljenja za uporabo Amazon SageMaker in Preprosta storitev shranjevanja Amazon (Amazon S3) virov.
Uporabite vzorčni nabor podatkov iz javne poti S3 s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv ali alternativno naložite v vedro S3 v vašem računu.
Vključite se v domeno SageMaker in dostopajte do Studia za uporabo prenosnikov. Za navodila glejte Vkrcajte se na domeno Amazon SageMaker. Če uporabljate obstoječi Studio, nadgradite na najnovejšo različico Studia.

Omogoči pripomoček za raziskovanje podatkov

Ko uporabljate podatkovne okvire Pandas, lahko uporabniki prenosnih računalnikov Studio ročno omogočijo pripomoček za raziskovanje podatkov, tako da so nove vizualizacije privzeto prikazane na vrhu vsakega stolpca. Pripomoček prikazuje histogram za numerične podatke in palični grafikon za druge vrste podatkov. Te predstavitve vam omogočajo, da hitro razumete distribucijo podatkov in odkrijete manjkajoče vrednosti in izstopajoče vrednosti, ne da bi morali pisati metode za vsak stolpec. Če želite hitro razumeti distribucijo, lahko premaknete miškin kazalec nad vrstico v vsakem vizualnem prikazu.

Odprite Studio in ustvarite nov zvezek Python 3. Prepričajte se, da izberete Podatkovna znanost 3.0 sliko iz slik SageMaker s klikom Spremeni okolje gumb.

Gradnik za raziskovanje podatkov je na voljo na naslednjih slikah. Za seznam privzetih slik SageMaker glejte Razpoložljive slike Amazon SageMaker.

Python 3 (podatkovna znanost) s Python 3.7
Python 3 (Data Science 2.0) s Python 3.8
Python 3 (Data Science 3.0) s Python 3.10
Spark Analytics 1.0 in 2.0

Če želite uporabiti ta pripomoček, uvozite SageMaker_DataWrangler knjižnica. Naložite spremenjeno različico nabora podatkov o Titaniku iz S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv in preberite CSV s knjižnico Pandas:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

Vizualizirajte podatke

Ko so podatki naloženi v podatkovni okvir Pandas, si lahko podatke ogledate tako, da preprosto uporabite df or display(df). Poleg prikazovanja vrstice gradnik za pripravo podatkov ustvari vpoglede, vizualizacije in nasvete o kakovosti podatkov. Za ustvarjanje vpogledov v funkcije in cilje, distribucijskih informacij ali upodabljanja preverjanja kakovosti podatkov vam ni treba napisati nobene dodatne kode. Če si želite ogledati statistični povzetek, ki prikazuje morebitna opozorila o kakovosti podatkov, lahko izberete glavo tabele podatkovnega okvira.

vizualizirati podatke

Vsak stolpec prikazuje palični grafikon ali histogram glede na vrsto podatkov. Gradnik privzeto vzorči do 10,000 opazovanj za ustvarjanje pomembnih vpogledov. Ponuja tudi možnost izvajanja analize vpogleda v celotnem naboru podatkov.

Kot je prikazano na naslednjem posnetku zaslona, ta gradnik identificira, ali ima stolpec kategorične ali kvantitativne podatke.

kategorične ali kvantitativne podatke

Za kategorične podatke gradnik ustvari palični grafikon z vsemi kategorijami. Na naslednjem posnetku zaslona je na primer stolpec Sex identificira kategorije podatkov. Lahko se pomaknete nad vrstico (moški v tem primeru), če si želite ogledati podrobnosti teh kategorij, na primer skupno število vrstic z vrednostjo male in njegovo porazdelitev v celotnem vizualiziranem naboru podatkov (64.07 % v tem primeru). Prav tako poudari skupni odstotek manjkajočih vrednosti z drugo barvo za kategorične podatke. Za kvantitativne podatke, kot je ticket prikazuje porazdelitev skupaj z odstotkom neveljavnih vrednosti.

Če želite videti standardno Pandas vizualizacijo v zvezku, lahko izberete Oglejte si tabelo Pandas in preklapljate med gradnikom in predstavitvijo Pandas, kot je prikazano na naslednjem posnetku zaslona.

Oglejte si tabelo Pandas

ogled tabele podatkov Wrangler

Če želite dobiti podrobnejši vpogled v podatke v stolpcu, izberite glavo stolpca, da odprete stransko ploščo, namenjeno stolpcu. Tukaj lahko opazite dva zavihka: Vpogled in Kakovost podatkov.

Vpogledi in kakovost podatkov

V naslednjih razdelkih podrobneje raziskujemo ti dve možnosti.

Vpogled

O Vpogled vsebuje podrobnosti z opisi za vsak stolpec. V tem razdelku so navedeni združeni statistični podatki, kot so način, število edinstvenih elementov, razmerja in število manjkajočih/neveljavnih vrednosti itd., ter vizualizacija porazdelitve podatkov s pomočjo histograma ali paličnega grafikona. Na naslednjih posnetkih zaslona si lahko ogledate vpoglede v podatke in informacije o distribuciji, prikazane z lahko razumljivimi vizualizacijami, ustvarjenimi za izbrani stolpec survived.

Kakovost podatkov

Pripomoček za pripravo studijskih podatkov poudari ugotovljene težave s kakovostjo podatkov z opozorilnim znakom v glavi. Pripomoček lahko identificira celoten spekter težav s kakovostjo podatkov, od osnovnih (manjkajoče vrednosti, stalen stolpec itd.) do bolj specifičnih za strojno učenje (uhajanje ciljev, funkcije nizkega napovednega rezultata itd.). Pripomoček poudari celice, ki povzročajo težave s kakovostjo podatkov, in reorganizira vrstice, tako da so problematične celice na vrhu. Za odpravo težave s kakovostjo podatkov gradnik ponuja več transformatorjev, ki jih je mogoče uporabiti s klikom gumba.

Če želite raziskati razdelek o kakovosti podatkov, izberite glavo stolpca in na stranski plošči izberite Kakovost podatkov zavihek. V okolju Studio bi morali videti naslednje.

zavihek kakovosti podatkov

Oglejmo si različne možnosti, ki so na voljo na Kakovost podatkov zavihek. Za ta primer izberemo stolpec starosti, ki je zaznan kot kvantitativni stolpec na podlagi podatkov. Kot lahko vidimo na naslednjem posnetku zaslona, ta pripomoček predlaga različne vrste transformacij, ki jih lahko uporabite, vključno z najpogostejšimi dejanji, kot je npr. Zamenjaj z novo vrednostjo, Manjka kapljica, Zamenjaj z medianoali Zamenjaj s srednjim. Izberete lahko katerega koli od teh za svoj nabor podatkov glede na primer uporabe (problem ML, ki ga poskušate rešiti). Prav tako vam daje Spustite stolpec možnost, če želite funkcijo v celoti odstraniti.

starost

Ko izberete Uporabite in izvozite kodo, se transformacija uporabi za globoko kopijo podatkovnega okvira. Ko je transformacija uspešno uporabljena, se podatkovna tabela osveži z vpogledi in vizualizacijami. Koda pretvorbe se generira po obstoječi celici v zvezku. To izvoženo kodo lahko zaženete pozneje, da uporabite transformacijo na svojih naborih podatkov in jo razširite glede na svoje potrebe. Transformacijo lahko prilagodite tako, da neposredno spremenite ustvarjeno kodo. Če uporabimo Manjka kapljica v stolpcu Starost se naslednja transformacijska koda uporabi za nabor podatkov, koda pa se ustvari tudi v celici pod gradnikom:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

Sledi še en primer izrezka kode za Zamenjaj z mediano:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

Zdaj pa si poglejmo zmožnost ciljnega vpogleda gradnika za pripravo podatkov. Recimo, da želite uporabiti survived funkcijo za napovedovanje, ali bo potnik preživel. Izberite survived glava stolpca. Na stranski plošči izberite Izberite kot ciljni stolpec. Idealna distribucija podatkov za survived funkcija mora imeti samo dva razreda: da (1) ali ne (0), ki pomaga razvrstiti možnosti za preživetje pri trčenju Titanika. Vendar pa je preživela funkcija zaradi nedoslednosti podatkov v izbranem ciljnem stolpcu 0, 1, ?, unknownin yes.

izberite kot ciljni stolpec

Izberite vrsto težave na podlagi izbranega ciljnega stolpca, ki je lahko bodisi Razvrstitev or regresija. Za preživeli stolpec je tip problema klasifikacija. Izberite Run za ustvarjanje vpogledov za ciljni stolpec.

preživel

Gradnik za pripravo podatkov navaja vpoglede v ciljni stolpec s priporočili in vzorčnimi razlagami za reševanje težav s kakovostjo podatkov ciljnega stolpca. Prav tako samodejno označi nepravilne podatke v stolpcu.

ciljni vpogled v stolpec s priporočili

Izberemo priporočeno transformacijo Spustite redke ciljne vrednosti, ker je manj opazovanj za redke ciljne vrednosti.

Spustite redko ciljno vrednost

Izbrana transformacija se uporabi za podatkovni okvir Pandas in neobičajne ciljne vrednosti so bile izločene iz preživetega stolpca. Oglejte si naslednjo kodo:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

Rezultati uporabljene transformacije so takoj vidni na podatkovnem okviru. Za sledenje dejavnostim priprave podatkov, ki se izvajajo z gradnikom za pripravo podatkov, se transformirana koda generira tudi v naslednji celici zvezka.

zaključek

V tej objavi smo zagotovili smernice o tem, kako vam lahko gradnik za pripravo podatkov Studio pomaga analizirati distribucijo podatkov, raziskati vpoglede v kakovost podatkov, ki jih ustvari orodje, in odkriti morebitne težave, kot so odstopanja za vsako kritično funkcijo. To pomaga izboljšati splošno kakovost podatkov, da vam pomaga usposobiti visokokakovostne modele, in odstrani nediferencirano težko dvigovanje, saj vam omogoča preoblikovanje podatkov na uporabniškem vmesniku in samodejno ustvarjanje kode za celice prenosnega računalnika. To kodo lahko nato uporabite v svojih cevovodih MLOps, da ustvarite ponovljivost, se izognete izgubljanju časa pri ponavljajočih se opravilih in zmanjšate težave z združljivostjo s pospešitvijo izdelave in uvajanja cevovodov za sporenje podatkov.

Če ste novi v SageMaker Data Wrangler ali Studio, glejte Začnite uporabljati SageMaker Data Wrangler. Če imate kakršna koli vprašanja v zvezi s to objavo, jih dodajte v razdelek za komentarje.

O avtorjih

Parth Patel je arhitekt rešitev pri AWS na območju zaliva San Francisco. Parth usmerja stranke, da pospešijo njihovo pot do oblaka in jim pomagajo pri sprejemanju in uspešni rasti v oblaku AWS. Osredotoča se na strojno učenje, okoljsko trajnost in posodobitev aplikacij.

Isha Dua je višji arhitekt rešitev s sedežem na območju zaliva San Francisco. Strankam AWS Enterprise pomaga pri rasti tako, da razume njihove cilje in izzive ter jih usmerja, kako lahko oblikujejo svoje aplikacije v oblaku, hkrati pa poskrbi, da so prožne in razširljive. Navdušena je nad tehnologijami strojnega učenja in okoljsko trajnostjo.

Hariharan Suresh je višji arhitekt rešitev pri AWS. Navdušen je nad bazami podatkov, strojnim učenjem in oblikovanjem inovativnih rešitev. Preden se je pridružil AWS, je bil Hariharan produktni arhitekt, specialist za osnovno bančništvo in razvijalec ter je več kot 11 let sodeloval z organizacijami BFSI. Poleg tehnike se ukvarja z jadralnim padalstvom in kolesarjenjem.

Dani Mitchell je specialist za rešitve AI/ML pri Amazon Web Services. Osredotočen je na primere uporabe računalniškega vida in pomaga strankam v EMEA, da pospešijo njihovo pot ML.

Časovni žig: December 1, 2022December 1, 2022

Časovni žig: Februar 16, 2024

Interaktivni pripomoček za pripravo podatkov za prenosnike, ki jih poganja Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Pregled rešitev

Predpogoji

Omogoči pripomoček za raziskovanje podatkov

Vizualizirajte podatke

Vpogled

Kakovost podatkov

zaključek

O avtorjih

Več od Strojno učenje AWS

Izboljšana uvedba modela ML z uporabo Amazon SageMaker Inference Recommender

Klasifikacija besedila za spletne pogovore s strojnim učenjem na AWS

Razmestite model diarizacije zvočnika Hugging Face (PyAnnote) na Amazon SageMaker kot asinhrono končno točko | Spletne storitve Amazon

Inteligentna obdelava dokumentov z AWS AI in storitvami Analytics v zavarovalništvu: 2. del

Zaznavanje napak na slikah visoke ločljivosti z uporabo dvostopenjskih modelov Amazon Rekognition Custom Labels | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun