Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Használjon Github-mintákat az Amazon SageMaker Data Wranglerrel

Amazon SageMaker Data Wrangler egy UI-alapú adat-előkészítő eszköz, amely segít az adatok elemzésében, előfeldolgozásában és vizualizálásában olyan funkciókkal, amelyek segítségével gyorsabban tisztíthatók, átalakíthatók és előkészíthetők az adatok. A Data Wrangler előre elkészített folyamatsablonjai gyorsabbá teszik az adatok előkészítését az adattudósok és a gépi tanulást (ML) gyakorló szakemberek számára azáltal, hogy felgyorsíthatják és megérthetik az adatfolyamok bevált gyakorlatait a közös adatkészletek használatával.

A Data Wrangler folyamatok segítségével a következő feladatokat hajthatja végre:

  • Adatmegjelenítés – Az adathalmaz egyes oszlopaihoz tartozó statisztikai tulajdonságok vizsgálata, hisztogramok készítése, kiugró értékek tanulmányozása
  • Adattisztítás – Ismétlődések eltávolítása, bejegyzések eldobása vagy kitöltése hiányzó értékekkel, kiugró értékek eltávolítása
  • Adatgazdagítás és funkciótervezés – Oszlopok feldolgozása kifejezőbb jellemzők létrehozása érdekében, a funkciók egy részhalmazának kiválasztása a képzéshez

Ez a bejegyzés segít megérteni a Data Wrangler alkalmazást a következő előre elkészített folyamatok mintájával GitHub. A tárház táblázatos adatátalakításokat, idősoros adatátalakításokat és egyesített adatkészlet-átalakításokat mutat be. Alapvető jellegéből adódóan mindegyik más típusú átalakítást igényel. A szabványos táblázatos vagy keresztmetszeti adatok gyűjtése egy adott időpontban történik. Ezzel szemben az idősorok adatait az idő múlásával ismételten rögzítik, és minden egymást követő adatpont a múltbeli értékeitől függ.

Nézzünk egy példát arra, hogyan használhatjuk a minta adatfolyamot táblázatos adatokhoz.

Előfeltételek

A Data Wrangler egy Amazon SageMaker belül elérhető funkció Amazon SageMaker Studio, ezért követnünk kell a Studio bevezetési folyamatát a Studio környezet és a notebookok felpörgetéséhez. Bár számos hitelesítési mód közül választhat, a Studio tartomány létrehozásának legegyszerűbb módja a Gyors indítás utasítás. A Gyorsindítás ugyanazokat az alapértelmezett beállításokat használja, mint a szabványos stúdióbeállítás. Választhat a fedélzeti használat mellett is AWS IAM Identity Center (az AWS Single Sign-On utódja) a hitelesítéshez (lásd Bekapcsolva az Amazon SageMaker tartományba az IAM Identity Center használatával).

Importálja az adatkészletet és a folyamatfájlokat a Data Wranglerbe a Studio használatával

A következő lépések felvázolják, hogyan importálhat adatokat a SageMakerbe, hogy azokat a Data Wrangler felhasználja:

Inicializálja a Data Wrangler-t a Studio felhasználói felületén, ha kiválasztja Új adatfolyam.

Klónozza a GitHub repo a folyamatfájlok letöltéséhez a Studio környezetbe.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Amikor a klónozás befejeződött, látnia kell a lerakat tartalmát a bal oldali ablaktáblában.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Válassza ki a fájlt Hotel-Bookings-Classification.flow hogy importálja a folyamatfájlt a Data Wranglerbe.

Ha idősort vagy egyesített adatfolyamot használ, a folyamat más néven fog megjelenni. A folyamat importálása után a következő képernyőképet kell látnia. Ez hibákat jelez, mert meg kell győződnünk arról, hogy a folyamatfájl a megfelelő adatforrásra mutat Amazon egyszerű tárolási szolgáltatás (Amazon S3).

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatkészlet szerkesztése hogy előhozza az összes S3-as vödrét. Ezután válassza ki az adatkészletet hotel_bookings.csv az S3 vödörből az átfutáshoz táblázatos adatfolyam.

Vegye figyelembe, hogy ha használja a egyesített adatfolyam, előfordulhat, hogy több adatkészletet kell importálnia a Data WranglerbeHasználjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

A jobb oldali ablaktáblában győződjön meg róla VESSZŐ határolónak van kiválasztva és Mintavétel be van állítva Először K. Adatkészletünk elég kicsi ahhoz, hogy Data Wrangler átalakításokat futtasson a teljes adatkészleten, de szeretnénk kiemelni, hogyan importálhatja az adatkészletet. Ha nagy adatkészlettel rendelkezik, fontolja meg a mintavételezést. Választ import hogy importálja ezt az adatkészletet a Data Wranglerbe.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Az adatkészlet importálása után a Data Wrangler automatikusan ellenőrzi az adatkészletet és észleli az adattípusokat. Láthatja, hogy a hibák megszűntek, mert a megfelelő adatkészletre mutatunk. A folyamatszerkesztő most két blokkot jelenít meg, amelyek bemutatják, hogy az adatokat egy forrásból importálták, és az adattípusokat felismerték. Szükség esetén módosíthatja az adattípusokat is.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Az alábbi képernyőkép az adattípusainkat mutatja.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Nézzünk meg néhány átalakítást ennek a táblázatos folyamatnak a részeként. Ha használja a idősorok or csatlakozott adatfolyamok, nézzen meg néhány gyakori átalakítást a GitHub repo. Elvégeztünk néhány alapvető feltáró adatelemzést adatbetekintési jelentésekkel, amelyek tanulmányozták a célszivárgást és a jellemzők kollinearitását az adatkészletben, táblázat-összefoglaló elemzéseket és gyors modellezési képességet. Fedezze fel a lépéseket a GitHub repo.

A Data Insights és a Quality Report ajánlásai alapján most eldobjuk az oszlopokat.

  • Célszerű szivárgás esetén ejtse le foglalási_állapot.
  • Redundáns oszlopok esetén dobja el days_in_waiting_list, hotel, reserved_room_type, érkezési_dátum_hónap, booking_status_date, baby, és a érkezés_dátuma_hónap_napja.
  • Lineáris korrelációs eredmények alapján dobja az oszlopokat érkezés_dátum_hét_száma és a érkezés_dátum_év mert ezeknek a jellemző (oszlop) pároknak a korrelációs értéke nagyobb, mint az ajánlott 0.90-es küszöb.
  • A nemlineáris korrelációs eredmények alapján csepp foglalási_állapot. Ezt az oszlopot a célszivárgás elemzése alapján már eldobásra jelölték.
  • Számértékek feldolgozása (min-max méretezés) a számára lead_time, stays_in_weekend_nights, stays_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, booking_changes, adr, total_of_specical_requests, és a szükséges_autó_parkolóhelyek.
  • One-hot kódolja a kategorikus változókat, mint pl étkezés, is_ismételt_vendég, piaci_szegmens, hozzárendelt_szobatípus, letét típusa, és a ügyféltípus.
  • Egyensúlyozza a célváltozót Véletlenszerű túlminta az osztálykiegyensúlyozatlansághoz. Használja a gyors modellezési képességet a kiugró értékek és a hiányzó értékek kezelésére.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Exportálás az Amazon S3-ba

Most már átestünk a különböző átalakításokon, és készen állunk az adatok exportálására az Amazon S3-ba. Ez a beállítás létrehoz egy SageMaker feldolgozási feladatot, amely futtatja a Data Wrangler feldolgozási folyamatot, és elmenti az eredményül kapott adatkészletet egy megadott S3 tárolóba. Kövesse a következő lépéseket az Amazon S3-ba való exportálás beállításához:

Válassza ki a plusz jelet az átalakítási elemek gyűjteménye mellett, és válassza ki Úticél hozzáadása, Akkor Amazon S3.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

  • A Adatkészlet neve, írja be például az új adatkészlet nevét NYC_export.
  • A Fájltípus, választ CSV.
  • A delimiter, választ Vessző.
  • A Tömörítés, választ Egyik sem.
  • A Amazon S3 hely, használja ugyanazt a csoportnevet, amelyet korábban létrehoztunk.
  • A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Úticél hozzáadása.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

A Munka megnevezés, írjon be egy nevet, vagy tartsa meg az automatikusan generált opciót, és válassza ki rendeltetési hely. Csak egy úti célunk van, S3:testingtabulardata, de előfordulhat, hogy a munkafolyamat különböző lépéseiből több célállomás is szerepel. Hagyd a KMS kulcs ARN üres mezőt, és válassza ki Következő.

Most be kell állítania egy feladat számítási kapacitását. Ebben a példában az összes alapértelmezett értéket megtarthatja.

  • A Példánytípus, használjon ml.m5.4xnagy.
  • A Példányszám, használja a 2.
  • Fel lehet fedezni Kiegészítő konfiguráció, de tartsa meg az alapértelmezett beállításokat.
  • A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a futás.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Most elkezdődött a munkája, és a Data Wrangler feldolgozási folyamatának megfelelően 6 GB adat feldolgozása némi időt vesz igénybe. Ennek a munkának a költsége körülbelül 2 USD lesz, mivel az ml.m5.4xlarge 0.922 USD-ba kerül óránként, és ebből kettőt használunk.

Ha kiválasztja a munka nevét, a rendszer átirányítja egy új ablakba a munka részleteivel.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

A munka részletei oldalon az előző lépések összes paramétere látható.

Amikor a feladat állapota Befejezettre változik, ellenőrizheti a Feldolgozási idő (másodperc) érték. Ez a feldolgozási feladat körülbelül 5-10 percet vesz igénybe.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Amikor a feladat befejeződött, a betanítás és a teszt kimeneti fájlok elérhetők a megfelelő S3 kimeneti mappákban. A kimeneti helyet a feldolgozási feladatok konfigurációiból találhatja meg.

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.

Miután a Data Wrangler feldolgozási feladat befejeződött, ellenőrizhetjük az S3 tárolónkba mentett eredményeket. Ne felejtse el frissíteni a job_name változó a munka nevével.

Ezeket az exportált adatokat most már használhatja az ML modellek futtatásához.

Tisztítsuk meg

Törölje az S3 vödröket és a Data Wrangler áramlás a mögöttes erőforrások törlése és a nem kívánt költségek elkerülése érdekében a kísérlet befejezése után.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan importálhatja a táblázatos előre elkészített adatfolyamot a Data Wranglerbe, csatlakoztathatja az adatkészletünkhöz, és exportálhatja az eredményeket az Amazon S3-ba. Ha a használati esetek megkövetelik az idősorok adatainak kezelését vagy több adathalmaz összekapcsolását, akkor végignézheti a többi előre elkészített mintafolyamat a GitHub repo.

Miután importált egy előre elkészített adat-előkészítési munkafolyamatot, integrálhatja az Amazon SageMaker Processing szolgáltatással, Amazon SageMaker csővezetékekés Amazon SageMaker Feature Store az ML képzési adatok feldolgozásának, megosztásának és tárolásának feladatának egyszerűsítése. Ezt a mintaadatfolyamot Python-szkriptbe is exportálhatja, és egyéni ML-adat-előkészítő folyamatot hozhat létre, ezáltal felgyorsítva a kiadási sebességet.

Javasoljuk, hogy tekintse meg kínálatunkat GitHub tárház gyakorlati gyakorlatot szerezni, és új módszereket találni a modell pontosságának javítására! Ha többet szeretne megtudni a SageMakerről, látogassa meg a Amazon SageMaker fejlesztői útmutató.


A szerzőkről

Használjon Github-mintákat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence szolgáltatással. Függőleges keresés. Ai.Isha Dua Senior Solutions Architect, székhelye a San Francisco Bay Area. Céljaik és kihívásaik megértésével segíti az AWS Enterprise ügyfeleit a növekedésben, és útmutatást ad nekik abban, hogyan építhetik fel alkalmazásaikat felhőn natív módon, miközben gondoskodnak azok rugalmasságáról és méretezhetőségéről. Szenvedélyesen rajong a gépi tanulási technológiákért és a környezeti fenntarthatóságért.

Időbélyeg:

Még több AWS gépi tanulás