Interactive Data Prep Widget For Notebooks Powered By Amazon SageMaker Data Wrangler

Újra kiadta Platón

Követő: 0

Az Anaconda adattudósok körében végzett 2020-as felmérése szerint az adatok előkészítése a gépi tanulás (ML) és az adatelemzési munkafolyamatok egyik kritikus lépése, és gyakran nagyon időigényes az adatkutatók számára. Az adattudósok idejük körülbelül 66%-át adat-előkészítési és -elemzési feladatokkal töltik, ideértve a betöltést (19%), a tisztítást (26%) és az adatok megjelenítését (21%).

Amazon SageMaker Studio az első teljesen integrált fejlesztői környezet (IDE) az ML számára. Az adatkutatók és fejlesztők egyetlen kattintással gyorsan felpöröghetnek Stúdiófüzetek adatkészletek feltárására és modellek felépítésére. Ha inkább GUI-alapú és interaktív felületet szeretne, használhatja Amazon SageMaker Data Wrangler, több mint 300 beépített vizualizációval, elemzéssel és transzformációval a Spark által támogatott adatok hatékony feldolgozásához egyetlen kódsor megírása nélkül.

Data Wrangler most beépített adat-előkészítési lehetőséget kínál Amazon SageMaker Studio notebookok amely lehetővé teszi az ML szakemberek számára, hogy vizuálisan áttekintsék az adatok jellemzőit, azonosítsák a problémákat és orvosolják az adatminőségi problémákat – mindössze néhány kattintással közvetlenül a notebookon belül.

Ebben a bejegyzésben megmutatjuk, hogyan a Data Wrangler Az adat-előkészítő widget automatikusan létrehozza a kulcsfontosságú vizualizációkat a Pandas adatkeret tetején, hogy megértse az adatok eloszlását, észlelje az adatminőségi problémákat, és felszínre hozhassa az adatokat, például az egyes funkciókhoz tartozó kiugró értékeket. Segíti az adatokkal való interakciót, és olyan betekintést nyerhet, amely az ad hoc lekérdezés során észrevétlen marad. Ezenkívül javasolja a javítandó átalakításokat, lehetővé teszi az adatátalakítások alkalmazását a felhasználói felületen, és automatikusan kódot generál a notebook celláiban. Ez a funkció minden olyan régióban elérhető, ahol a SageMaker Studio elérhető.

Megoldás áttekintése

Ismerjük meg jobban, hogy ez az új widget hogyan teszi lényegesen egyszerűbbé az adatok feltárását, és hogyan nyújt zökkenőmentes élményt az adatmérnökök és gyakorló szakemberek általános adat-előkészítési élményének javításához. A mi használati esetünkben a módosított változatot használjuk Titanic adatkészlet, egy népszerű adatkészlet az ML közösségben, amely most a minta adatkészlet így gyorsan elkezdheti a SageMaker Data Wrangler használatát. Az eredeti adatkészletet innen szereztük be OpenML, és módosította, hogy szintetikus adatminőségi problémákat adjon hozzá az Amazon ehhez a demóhoz. Az adatkészlet módosított verzióját letöltheti a nyilvános S3 elérési útról s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

Előfeltételek

Ha gyakorlati tapasztalatokat szeretne szerezni az ebben a bejegyzésben leírt összes funkcióval kapcsolatban, teljesítse a következő előfeltételeket:

Győződjön meg arról, hogy rendelkezik AWS-fiókkal, és biztonságos hozzáféréssel jelentkezhet be a fiókba a következőn keresztül AWS felügyeleti konzolés AWS Identity and Access Management (IAM) használati engedélyeket Amazon SageMaker és a Amazon egyszerű tárolási szolgáltatás (Amazon S3) erőforrásokat.
Használja a nyilvános S3 elérési út mintaadatkészletét s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv vagy alternatívaként töltse fel egy S3 vödörbe fiókjában.
Lépjen be egy SageMaker tartományba, és lépjen be a Studio-ba a notebookok használatához. Az utasításokat lásd Bekapcsolva az Amazon SageMaker domainbe. Ha meglévő Studio-t használ, frissítsen a a Studio legújabb verziója.

Engedélyezze az adatfeltáró widgetet

Amikor Pandas adatkereteket használ, a Studio notebook felhasználói manuálisan engedélyezhetik az adatfeltáró widgetet, így az új vizualizációk alapértelmezés szerint minden oszlop tetején megjelennek. A widget hisztogramot mutat a numerikus adatokhoz, és oszlopdiagramot más típusú adatokhoz. Ezek az ábrázolások lehetővé teszik az adateloszlás gyors megértését, valamint a hiányzó értékek és kiugró értékek felfedezését anélkül, hogy minden egyes oszlophoz sablonmetódusokat kellene írnia. A terjesztés gyors megértéséhez vigye az egérmutatót a sáv fölé az egyes vizualizációkban.

Nyissa meg a Studio-t, és hozzon létre egy új Python 3-jegyzetfüzetet. Ügyeljen arra, hogy a Adattudomány 3.0 kép a SageMaker képekből kattintva Változtasd meg a környezetet gombot.

Az adatfeltáró widget a következő képeken érhető el. Az alapértelmezett SageMaker-képek listáját lásd: Elérhető Amazon SageMaker képek.

Python 3 (Data Science) és Python 3.7
Python 3 (Data Science 2.0) és Python 3.8
Python 3 (Data Science 3.0) és Python 3.10
Spark Analytics 1.0 és 2.0

A widget használatához importálja a SageMaker_DataWrangler könyvtár. Töltse be a Titanic adatkészlet módosított verzióját innen S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv és olvassa el a CSV-t a Pandas könyvtárral:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

Vizualizálja az adatokat

Miután az adatok betöltésre kerültek a Pandas adatkeretbe, csak a használatával tekintheti meg az adatokat df or display(df). A sor listázása mellett az adat-előkészítő widget betekintést, vizualizációt és tanácsokat ad az adatminőséggel kapcsolatban. Nem kell további kódot írnia a funkció- és célinformációk, terjesztési információk generálásához vagy az adatminőség-ellenőrzések megjelenítéséhez. Az adatkeret tábla fejlécének kiválasztásával megtekintheti az adatminőségre vonatkozó figyelmeztetéseket (ha vannak ilyenek) tartalmazó statisztikai összesítést.

vizualizálni az adatokat

Minden oszlop egy oszlopdiagramot vagy hisztogramot mutat az adattípus alapján. Alapértelmezés szerint a widget akár 10,000 XNUMX megfigyelésből is mintát vesz, hogy értelmes betekintést nyerjen. Lehetőséget biztosít arra is, hogy a betekintési elemzést a teljes adatkészleten futtassa.

Amint az a következő képernyőképen látható, ez a widget azonosítja, hogy egy oszlop kategorikus vagy mennyiségi adatokat tartalmaz-e.

kategorikus vagy mennyiségi adatok

Kategorikus adatokhoz a widget az összes kategóriát tartalmazó oszlopdiagramot állítja elő. A következő képernyőképen például az oszlop Sex azonosítja az adatok kategóriáit. A sáv fölé viheti az egérmutatót (férfi ebben az esetben) megtekintheti e kategóriák részleteit, például az értéket tartalmazó sorok számát male és eloszlása a teljes megjelenített adatkészletben (ebben a példában 64.07%). Ezenkívül más színnel kiemeli a hiányzó értékek százalékos arányát a kategorikus adatokhoz. Olyan mennyiségi adatokhoz, mint a ticket oszlopban az eloszlást és az érvénytelen értékek százalékos arányát mutatja.

Ha szabványos Panda vizualizációt szeretne látni a notebookban, választhat Tekintse meg a Panda táblázatot és váltson a widget és a Panda-ábrázolás között, ahogy az a következő képernyőképen látható.

Tekintse meg a Panda táblázatot

tekintse meg a Data Wrangler táblázatot

Ha részletesebb betekintést szeretne kapni az oszlopban lévő adatokról, válassza az oszlop fejlécét az oszlophoz rendelt oldalsó panel megnyitásához. Itt két fület figyelhet meg: Insights és a Adat minőség.

Insights és adatminőség

A következő szakaszokban ezt a két lehetőséget vizsgáljuk meg részletesebben.

Insights

A Insights lap részletes leírást tartalmaz az egyes oszlopokhoz. Ez a rész az összesített statisztikákat sorolja fel, mint például a mód, az egyediek száma, a hiányzó/érvénytelen értékek aránya és száma stb., valamint hisztogram vagy oszlopdiagram segítségével megjelenítheti az adatok eloszlását. A következő képernyőképeken megtekintheti a kiválasztott oszlophoz generált, könnyen érthető vizualizációkkal megjelenített adatbetekintéseket és terjesztési információkat. survived.

Adat minőség

A stúdió adat-előkészítő modulja a fejlécben található figyelmeztető jellel kiemeli az azonosított adatminőségi problémákat. A Widget képes azonosítani az adatminőséggel kapcsolatos problémák teljes spektrumát az alapoktól (hiányzó értékek, állandó oszlop stb.) a ML-specifikusabbakig (célszivárgás, alacsony prediktív pontszám jellemzői stb.). A Widget kiemeli az adatminőségi problémát okozó cellákat, és átrendezi a sorokat, hogy a problémás cellák a tetejére kerüljenek. Az adatminőség-probléma orvoslására a widget több transzformátort biztosít, amelyek egy gombnyomással használhatók.

Az adatminőség szakasz felfedezéséhez válassza ki az oszlopfejlécet, majd az oldalsó panelen válassza a lehetőséget Adat minőség lapon. A következőt kell látnia a Studio környezetében.

adatminőség fül

Nézzük meg a különböző lehetőségeket Adat minőség lapon. Ebben a példában a kor oszlopot választjuk, amelyet az adatok alapján kvantitatív oszlopként detektálunk. Amint a következő képernyőképen láthatjuk, ez a widget különböző típusú átalakításokat javasol, amelyeket alkalmazni lehet, beleértve a leggyakoribb műveleteket, mint pl. Cserélje ki új értékre, Csepp hiányzik, Cserélje ki mediánnalvagy Cserélje ki közepesre. Ezek közül bármelyiket kiválaszthatja az adatkészlethez a használati eset (a megoldani kívánt ML probléma) alapján. Azt is megadja neked a Dobja el az oszlopot opciót, ha teljesen el szeretné távolítani a funkciót.

kor

Ha úgy dönt Alkalmazza és exportálja a kódot, az átalakítást az adatkeret mély másolatára alkalmazzuk. Az átalakítás sikeres alkalmazása után az adattábla frissül a betekintésekkel és a vizualizációkkal. Az átalakítási kód a jegyzetfüzet meglévő cellája után jön létre. Ezt az exportált kódot később lefuttathatja, hogy alkalmazza az átalakítást az adatkészletein, és igény szerint bővítse azt. Az átalakítás testreszabható a generált kód közvetlen módosításával. Ha alkalmazzuk a Csepp hiányzik Az Életkor oszlopban a következő átalakítási kód kerül alkalmazásra az adatkészletre, és kód is generálódik a widget alatti cellában:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

A következő egy másik példa a kódrészletre Cserélje ki mediánnal:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

Most nézzük meg az adat-előkészítő widget célbetekintési képességét. Tegyük fel, hogy használni szeretné a survived funkció annak előrejelzésére, hogy az utas túléli-e. Válaszd a survived oszlopfejléc. Az oldalsó panelen válassza a lehetőséget Válassza ki céloszlopként. Az ideális adateloszlás a survived a funkciónak csak két osztálya lehet: igen (1) vagy nem (0), amely segít besorolni a Titanic-baleset túlélési esélyeit. A kiválasztott céloszlop adatellentmondásai miatt azonban a fennmaradt jellemző megvan 0, 1, ?, unknownés yes.

válassza ki céloszlopként

Válassza ki a probléma típusát a kiválasztott céloszlop alapján, amely lehet bármelyik Osztályozás or Regresszió. A fennmaradt oszlop esetében a probléma típusa az osztályozás. Választ futás betekintést generálni a céloszlophoz.

túlélte

Az adat-előkészítő eszközprimitív listázza a céloszlop-betekintést ajánlásokkal és mintamagyarázatokkal a céloszlop adatminőségével kapcsolatos problémák megoldásához. Automatikusan kiemeli a rendellenes adatokat is az oszlopban.

céloszlop-statisztika ajánlásokkal

Az ajánlott transzformációt választjuk Dobja el a ritka célértékeket, mert a ritka célértékekre kevesebb megfigyelés van.

Csökkentse a ritka célértéket

A kiválasztott transzformációt a rendszer alkalmazza a Pandas adatkeretre, és a nem gyakori célértékeket a túlélő oszlopból eltávolítjuk. Lásd a következő kódot:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

Az alkalmazott transzformáció eredménye azonnal látható az adatkereten. Az adat-előkészítési widget segítségével alkalmazott adat-előkészítési tevékenységek nyomon követéséhez az átalakított kód a következő jegyzetfüzet cellában is létrejön.

Következtetés

Ebben a bejegyzésben útmutatást adunk arról, hogy a Studio adat-előkészítő modulja hogyan segíthet az adateloszlások elemzésében, az eszköz által generált adatminőségi betekintések felfedezésében, és az egyes kritikus funkcióknál felmerülő esetleges problémák feltárásában. Ez segít javítani az általános adatminőséget, hogy segítsen a kiváló minőségű modellek betanításában, és eltávolítja a differenciálatlan nehéz teherbírást azáltal, hogy lehetővé teszi az adatok átalakítását a felhasználói felületen, és automatikusan kódot generál a notebook celláihoz. Ezt a kódot az MLOps-folyamatokban használhatja a reprodukálhatóság megteremtéséhez, elkerülheti az ismétlődő feladatokra való időveszteséget, és csökkentheti a kompatibilitási problémákat az adatrögzítő folyamatok felépítésének és telepítésének felgyorsításával.

Ha még nem ismeri a SageMaker Data Wranglert vagy a Studiot, tekintse meg a Ismerkedjen meg a SageMaker Data Wranglerrel. Ha bármilyen kérdése van ezzel a bejegyzéssel kapcsolatban, kérjük, tegye fel a megjegyzés rovatba.

A szerzőkről

Parth Patel megoldások építésze az AWS-nél a San Francisco Bay Area-ban. A Parth útmutatást ad az ügyfeleknek, hogy felgyorsítsák a felhő felé vezető utat, és segítsenek nekik az AWS Cloud sikeres elfogadásában és fejlesztésében. A gépi tanulásra, a környezeti fenntarthatóságra és az alkalmazások modernizálására összpontosít.

Isha Dua Senior Solutions Architect, székhelye a San Francisco Bay Area. Segíti az AWS Enterprise ügyfeleit a növekedésben azáltal, hogy megértik céljaikat és kihívásaikat, és útmutatást ad nekik, hogyan építhetik fel alkalmazásaikat a felhőben natív módon, miközben gondoskodnak azok rugalmasságáról és méretezhetőségéről. Szenvedélyesen rajong a gépi tanulási technológiákért és a környezeti fenntarthatóságért.

Hariharan Suresh az AWS vezető megoldási építésze. Szenvedélye az adatbázisok, a gépi tanulás és az innovatív megoldások tervezése. Mielőtt csatlakozott az AWS-hez, Hariharan terméktervező, központi banki implementációs specialista és fejlesztő volt, és több mint 11 évig dolgozott a BFSI szervezeteivel. A technikán kívül szeret siklóernyőzni és kerékpározni.

Dani Mitchell AI/ML Specialist Solutions Architect az Amazon Web Servicesnél. Középpontjában a Computer Vision használati esetei állnak, és az EMEA-szerte segíti az ügyfeleket, hogy felgyorsítsák ML-útjukat.