Amazon SageMaker Data Wrangler egy UI-alapú adat-előkészítő eszköz, amely segít az adatok elemzésében, előfeldolgozásában és vizualizálásában olyan funkciókkal, amelyek segítségével gyorsabban tisztíthatók, átalakíthatók és előkészíthetők az adatok. A Data Wrangler előre elkészített folyamatsablonjai gyorsabbá teszik az adatok előkészítését az adattudósok és a gépi tanulást (ML) gyakorló szakemberek számára azáltal, hogy felgyorsíthatják és megérthetik az adatfolyamok bevált gyakorlatait a közös adatkészletek használatával.
A Data Wrangler folyamatok segítségével a következő feladatokat hajthatja végre:
- Adatmegjelenítés – Az adathalmaz egyes oszlopaihoz tartozó statisztikai tulajdonságok vizsgálata, hisztogramok készítése, kiugró értékek tanulmányozása
- Adattisztítás – Ismétlődések eltávolítása, bejegyzések eldobása vagy kitöltése hiányzó értékekkel, kiugró értékek eltávolítása
- Adatgazdagítás és funkciótervezés – Oszlopok feldolgozása kifejezőbb jellemzők létrehozása érdekében, a funkciók egy részhalmazának kiválasztása a képzéshez
Ez a bejegyzés segít megérteni a Data Wrangler alkalmazást a következő előre elkészített folyamatok mintájával GitHub. A tárház táblázatos adatátalakításokat, idősoros adatátalakításokat és egyesített adatkészlet-átalakításokat mutat be. Alapvető jellegéből adódóan mindegyik más típusú átalakítást igényel. A szabványos táblázatos vagy keresztmetszeti adatok gyűjtése egy adott időpontban történik. Ezzel szemben az idősorok adatait az idő múlásával ismételten rögzítik, és minden egymást követő adatpont a múltbeli értékeitől függ.
Nézzünk egy példát arra, hogyan használhatjuk a minta adatfolyamot táblázatos adatokhoz.
Előfeltételek
A Data Wrangler egy Amazon SageMaker belül elérhető funkció Amazon SageMaker Studio, ezért követnünk kell a Studio bevezetési folyamatát a Studio környezet és a notebookok felpörgetéséhez. Bár számos hitelesítési mód közül választhat, a Studio tartomány létrehozásának legegyszerűbb módja a Gyors indítás utasítás. A Gyorsindítás ugyanazokat az alapértelmezett beállításokat használja, mint a szabványos stúdióbeállítás. Választhat a fedélzeti használat mellett is AWS IAM Identity Center (az AWS Single Sign-On utódja) a hitelesítéshez (lásd Bekapcsolva az Amazon SageMaker tartományba az IAM Identity Center használatával).
Importálja az adatkészletet és a folyamatfájlokat a Data Wranglerbe a Studio használatával
A következő lépések felvázolják, hogyan importálhat adatokat a SageMakerbe, hogy azokat a Data Wrangler felhasználja:
Inicializálja a Data Wrangler-t a Studio felhasználói felületén, ha kiválasztja Új adatfolyam.
Klónozza a GitHub repo a folyamatfájlok letöltéséhez a Studio környezetbe.
Amikor a klónozás befejeződött, látnia kell a lerakat tartalmát a bal oldali ablaktáblában.
Válassza ki a fájlt Hotel-Bookings-Classification.flow hogy importálja a folyamatfájlt a Data Wranglerbe.
Ha idősort vagy egyesített adatfolyamot használ, a folyamat más néven fog megjelenni. A folyamat importálása után a következő képernyőképet kell látnia. Ez hibákat jelez, mert meg kell győződnünk arról, hogy a folyamatfájl a megfelelő adatforrásra mutat Amazon egyszerű tárolási szolgáltatás (Amazon S3).
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatkészlet szerkesztése hogy előhozza az összes S3-as vödrét. Ezután válassza ki az adatkészletet hotel_bookings.csv
az S3 vödörből az átfutáshoz táblázatos adatfolyam.
Vegye figyelembe, hogy ha használja a egyesített adatfolyam, előfordulhat, hogy több adatkészletet kell importálnia a Data Wranglerbe
A jobb oldali ablaktáblában győződjön meg róla VESSZŐ határolónak van kiválasztva és Mintavétel be van állítva Először K. Adatkészletünk elég kicsi ahhoz, hogy Data Wrangler átalakításokat futtasson a teljes adatkészleten, de szeretnénk kiemelni, hogyan importálhatja az adatkészletet. Ha nagy adatkészlettel rendelkezik, fontolja meg a mintavételezést. Választ import hogy importálja ezt az adatkészletet a Data Wranglerbe.
Az adatkészlet importálása után a Data Wrangler automatikusan ellenőrzi az adatkészletet és észleli az adattípusokat. Láthatja, hogy a hibák megszűntek, mert a megfelelő adatkészletre mutatunk. A folyamatszerkesztő most két blokkot jelenít meg, amelyek bemutatják, hogy az adatokat egy forrásból importálták, és az adattípusokat felismerték. Szükség esetén módosíthatja az adattípusokat is.
Az alábbi képernyőkép az adattípusainkat mutatja.
Nézzünk meg néhány átalakítást ennek a táblázatos folyamatnak a részeként. Ha használja a idősorok or csatlakozott adatfolyamok, nézzen meg néhány gyakori átalakítást a GitHub repo. Elvégeztünk néhány alapvető feltáró adatelemzést adatbetekintési jelentésekkel, amelyek tanulmányozták a célszivárgást és a jellemzők kollinearitását az adatkészletben, táblázat-összefoglaló elemzéseket és gyors modellezési képességet. Fedezze fel a lépéseket a GitHub repo.
A Data Insights és a Quality Report ajánlásai alapján most eldobjuk az oszlopokat.
- Célszerű szivárgás esetén ejtse le foglalási_állapot.
- Redundáns oszlopok esetén dobja el days_in_waiting_list, hotel, reserved_room_type, érkezési_dátum_hónap, booking_status_date, baby, és a érkezés_dátuma_hónap_napja.
- Lineáris korrelációs eredmények alapján dobja az oszlopokat érkezés_dátum_hét_száma és a érkezés_dátum_év mert ezeknek a jellemző (oszlop) pároknak a korrelációs értéke nagyobb, mint az ajánlott 0.90-es küszöb.
- A nemlineáris korrelációs eredmények alapján csepp foglalási_állapot. Ezt az oszlopot a célszivárgás elemzése alapján már eldobásra jelölték.
- Számértékek feldolgozása (min-max méretezés) a számára lead_time, stays_in_weekend_nights, stays_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, booking_changes, adr, total_of_specical_requests, és a szükséges_autó_parkolóhelyek.
- One-hot kódolja a kategorikus változókat, mint pl étkezés, is_ismételt_vendég, piaci_szegmens, hozzárendelt_szobatípus, letét típusa, és a ügyféltípus.
- Egyensúlyozza a célváltozót Véletlenszerű túlminta az osztálykiegyensúlyozatlansághoz. Használja a gyors modellezési képességet a kiugró értékek és a hiányzó értékek kezelésére.
Exportálás az Amazon S3-ba
Most már átestünk a különböző átalakításokon, és készen állunk az adatok exportálására az Amazon S3-ba. Ez a beállítás létrehoz egy SageMaker feldolgozási feladatot, amely futtatja a Data Wrangler feldolgozási folyamatot, és elmenti az eredményül kapott adatkészletet egy megadott S3 tárolóba. Kövesse a következő lépéseket az Amazon S3-ba való exportálás beállításához:
Válassza ki a plusz jelet az átalakítási elemek gyűjteménye mellett, és válassza ki Úticél hozzáadása, Akkor Amazon S3.
- A Adatkészlet neve, írja be például az új adatkészlet nevét
NYC_export
. - A Fájltípus, választ CSV.
- A delimiter, választ Vessző.
- A Tömörítés, választ Egyik sem.
- A Amazon S3 hely, használja ugyanazt a csoportnevet, amelyet korábban létrehoztunk.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Úticél hozzáadása.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása.
A Munka megnevezés, írjon be egy nevet, vagy tartsa meg az automatikusan generált opciót, és válassza ki rendeltetési hely. Csak egy úti célunk van, S3:testingtabulardata
, de előfordulhat, hogy a munkafolyamat különböző lépéseiből több célállomás is szerepel. Hagyd a KMS kulcs ARN üres mezőt, és válassza ki Következő.
Most be kell állítania egy feladat számítási kapacitását. Ebben a példában az összes alapértelmezett értéket megtarthatja.
- A Példánytípus, használjon ml.m5.4xnagy.
- A Példányszám, használja a 2.
- Fel lehet fedezni Kiegészítő konfiguráció, de tartsa meg az alapértelmezett beállításokat.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a futás.
Most elkezdődött a munkája, és a Data Wrangler feldolgozási folyamatának megfelelően 6 GB adat feldolgozása némi időt vesz igénybe. Ennek a munkának a költsége körülbelül 2 USD lesz, mivel az ml.m5.4xlarge 0.922 USD-ba kerül óránként, és ebből kettőt használunk.
Ha kiválasztja a munka nevét, a rendszer átirányítja egy új ablakba a munka részleteivel.
A munka részletei oldalon az előző lépések összes paramétere látható.
Amikor a feladat állapota Befejezettre változik, ellenőrizheti a Feldolgozási idő (másodperc) érték. Ez a feldolgozási feladat körülbelül 5-10 percet vesz igénybe.
Amikor a feladat befejeződött, a betanítás és a teszt kimeneti fájlok elérhetők a megfelelő S3 kimeneti mappákban. A kimeneti helyet a feldolgozási feladatok konfigurációiból találhatja meg.
Miután a Data Wrangler feldolgozási feladat befejeződött, ellenőrizhetjük az S3 tárolónkba mentett eredményeket. Ne felejtse el frissíteni a job_name
változó a munka nevével.
Ezeket az exportált adatokat most már használhatja az ML modellek futtatásához.
Tisztítsuk meg
Törölje az S3 vödröket és a Data Wrangler áramlás a mögöttes erőforrások törlése és a nem kívánt költségek elkerülése érdekében a kísérlet befejezése után.
Következtetés
Ebben a bejegyzésben bemutattuk, hogyan importálhatja a táblázatos előre elkészített adatfolyamot a Data Wranglerbe, csatlakoztathatja az adatkészletünkhöz, és exportálhatja az eredményeket az Amazon S3-ba. Ha a használati esetek megkövetelik az idősorok adatainak kezelését vagy több adathalmaz összekapcsolását, akkor végignézheti a többi előre elkészített mintafolyamat a GitHub repo.
Miután importált egy előre elkészített adat-előkészítési munkafolyamatot, integrálhatja az Amazon SageMaker Processing szolgáltatással, Amazon SageMaker csővezetékekés Amazon SageMaker Feature Store az ML képzési adatok feldolgozásának, megosztásának és tárolásának feladatának egyszerűsítése. Ezt a mintaadatfolyamot Python-szkriptbe is exportálhatja, és egyéni ML-adat-előkészítő folyamatot hozhat létre, ezáltal felgyorsítva a kiadási sebességet.
Javasoljuk, hogy tekintse meg kínálatunkat GitHub tárház gyakorlati gyakorlatot szerezni, és új módszereket találni a modell pontosságának javítására! Ha többet szeretne megtudni a SageMakerről, látogassa meg a Amazon SageMaker fejlesztői útmutató.
A szerzőkről
Isha Dua Senior Solutions Architect, székhelye a San Francisco Bay Area. Céljaik és kihívásaik megértésével segíti az AWS Enterprise ügyfeleit a növekedésben, és útmutatást ad nekik abban, hogyan építhetik fel alkalmazásaikat felhőn natív módon, miközben gondoskodnak azok rugalmasságáról és méretezhetőségéről. Szenvedélyesen rajong a gépi tanulási technológiákért és a környezeti fenntarthatóságért.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet