Használjon Github-mintákat az Amazon SageMaker Data Wranglerrel

Újra kiadta Platón

Követő: 0

Amazon SageMake r Data Wrangler egy UI-alapú adat-előkészítő eszköz, amely segít az adatok elemzésében, előfeldolgozásában és vizualizálásában olyan funkciókkal, amelyek segítségével gyorsabban tisztíthatók, átalakíthatók és előkészíthetők az adatok. A Data Wrangler előre elkészített folyamatsablonjai gyorsabbá teszik az adatok előkészítését az adattudósok és a gépi tanulást (ML) gyakorló szakemberek számára azáltal, hogy felgyorsíthatják és megérthetik az adatfolyamok bevált gyakorlatait a közös adatkészletek használatával.

A Data Wrangler folyamatok segítségével a következő feladatokat hajthatja végre:

Adatmegjelenítés – Az adathalmaz egyes oszlopaihoz tartozó statisztikai tulajdonságok vizsgálata, hisztogramok készítése, kiugró értékek tanulmányozása
Adattisztítás – Ismétlődések eltávolítása, bejegyzések eldobása vagy kitöltése hiányzó értékekkel, kiugró értékek eltávolítása
Adatgazdagítás és funkciótervezés – Oszlopok feldolgozása kifejezőbb jellemzők létrehozása érdekében, a funkciók egy részhalmazának kiválasztása a képzéshez

Ez a bejegyzés segít megérteni a Data Wrangler alkalmazást a következő előre elkészített folyamatok mintájával GitHub. A tárház táblázatos adatátalakításokat, idősoros adatátalakításokat és egyesített adatkészlet-átalakításokat mutat be. Alapvető jellegéből adódóan mindegyik más típusú átalakítást igényel. A szabványos táblázatos vagy keresztmetszeti adatok gyűjtése egy adott időpontban történik. Ezzel szemben az idősorok adatait az idő múlásával ismételten rögzítik, és minden egymást követő adatpont a múltbeli értékeitől függ.

Nézzünk egy példát arra, hogyan használhatjuk a minta adatfolyamot táblázatos adatokhoz.

Előfeltételek

A Data Wrangler egy Amazon SageMaker belül elérhető funkció Amazon SageMaker Studio, ezért követnünk kell a Studio bevezetési folyamatát a Studio környezet és a notebookok felpörgetéséhez. Bár számos hitelesítési mód közül választhat, a Studio tartomány létrehozásának legegyszerűbb módja a Gyors indítás utasítás. A Gyorsindítás ugyanazokat az alapértelmezett beállításokat használja, mint a szabványos stúdióbeállítás. Választhat a fedélzeti használat mellett is AWS IAM Identity Center (az AWS Single Sign-On utódja) a hitelesítéshez (lásd Bekapcsolva az Amazon SageMaker tartományba az IAM Identity Center használatával).

Importálja az adatkészletet és a folyamatfájlokat a Data Wranglerbe a Studio használatával

A következő lépések felvázolják, hogyan importálhat adatokat a SageMakerbe, hogy azokat a Data Wrangler felhasználja:

Inicializálja a Data Wrangler-t a Studio felhasználói felületén, ha kiválasztja Új adatfolyam.

Klónozza a GitHub repo a folyamatfájlok letöltéséhez a Studio környezetbe.