Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler segítségével

Amazon SageMaker Data Wrangler hetekről percekre csökkenti az adatok gépi tanuláshoz (ML) való összesítésének és előkészítésének idejét Amazon SageMaker Studio. A Data Wrangler leegyszerűsítheti az adatok előkészítését és a tervezési folyamatokat, valamint segítséget nyújthat az adatok kiválasztásában, tisztításában, feltárásában és megjelenítésében. A Data Wrangler több mint 300 beépített átalakítást tartalmaz PySparkban, így akár több száz gigabájtnyi adatkészletet is hatékonyan feldolgozhat az alapértelmezett példányon, az ml.m5.4xlarge.

Ha azonban beépített átalakítások segítségével legfeljebb terabájtnyi adathalmazokkal dolgozik, hosszabb feldolgozási időt vagy memóriakimaradási hibákat tapasztalhat. Az adatigényei alapján mostantól továbbiakat is használhat Amazon rugalmas számítási felhő (Amazon EC2) M5 példányok és a R5 példányok. Kezdheti például egy alapértelmezett példánysal (ml.m5.4xlarge), majd válthat ml.m5.24xlarge vagy ml.r5.24xlarge fájlra. Lehetősége van különböző példánytípusok kiválasztására, és megtalálni a legjobb kompromisszumot a működési költségek és a feldolgozási idők között. Amikor legközelebb idősor-átalakításon dolgozik, és nehéz transzformátorokat futtat az adatok kiegyensúlyozása érdekében, megfelelő méretre állíthatja a Data Wrangler-példányt a folyamatok gyorsabb futtatásához.

Ha több tíz gigabájtot vagy még többet dolgoz fel egy egyedi Pandas transzformációval, előfordulhat, hogy kifogyott a memória. Az alapértelmezett példányról (ml.m5.4xlarge) átválthat az ml.m5.24xlarge-re, és az átalakítás hiba nélkül befejeződik. Alaposan összehasonlítottuk és megfigyeltük a lineáris gyorsulást, miközben növeltük a példányméretet egy adatkészlet-portfólióban.

Ebben a bejegyzésben megosztjuk két benchmark teszt eredményeinket, amelyek bemutatják, hogyan dolgozhat fel nagyobb és szélesebb adatkészleteket a Data Wranglerrel.

Data Wrangler benchmark tesztek

Tekintsünk át két általunk futtatott tesztet, az aggregációs lekérdezéseket és a one-hot kódolást, különböző példánytípusokkal, PySpark beépített transzformátorokkal és egyedi Pandas transzformációkkal. Az összesítést nem igénylő átalakítások gyorsan befejeződnek, és jól működnek az alapértelmezett példánytípussal, ezért az összesítési lekérdezésekre és az összesítéssel történő átalakításokra összpontosítottunk. A tesztadatkészletünket a következő helyen tároltuk Amazon egyszerű tárolási szolgáltatás (Amazon S3). Az adatkészlet kiterjesztett mérete körülbelül 100 GB, 80 millió sorral és 300 oszloppal. A felhasználói felület mérőszámait használtuk a benchmark tesztek időzítésére és a végpontok közötti ügyfélkapcsolati késleltetés mérésére. Tesztadatkészletünk importálásakor letiltottuk a mintavételezést. A mintavétel alapértelmezés szerint engedélyezve van, és a Data Wrangler csak az első 100 sort dolgozza fel, ha engedélyezve van.x

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Ahogy növeltük a Data Wrangler példány méretét, a Data Wrangler beépített átalakításainak és az egyéni Spark SQL-nek nagyjából lineáris felgyorsulását figyeltük meg. A Pandas összesítési lekérdezési tesztjei csak akkor fejeződtek be, amikor ml.m5.16xl-nél nagyobb példányokat használtunk, és a Pandasnak 180 GB memóriára volt szüksége az adatkészlet összesítési lekérdezésének feldolgozásához.

Az alábbi táblázat összefoglalja az összesítési lekérdezés teszt eredményeit.

Példa vCPU Memória (GiB) Data Wrangler beépített Spark transzformációs idő Panda idő
(Egyéni átalakítás)
ml.m5.4xl 16 64 229 másodperc Elfogyott a memória
ml.m5.8xl 32 128 130 másodperc Elfogyott a memória
ml.m5.16xl 64 256 52 másodperc 30 perc

Az alábbi táblázat összefoglalja a one-hot kódolási teszt eredményeit.

Példa vCPU Memória (GiB) Data Wrangler beépített Spark transzformációs idő Panda idő
(Egyéni átalakítás)
ml.m5.4xl 16 64 228 másodperc Elfogyott a memória
ml.m5.8xl 32 128 130 másodperc Elfogyott a memória
ml.m5.16xl 64 256 52 másodperc Elfogyott a memória

Váltsa át az adatfolyam példánytípusát

A folyamat példánytípusának megváltoztatásához hajtsa végre a következő lépéseket:

  1. Az Amazon SageMaker Data Wrangler konzolon navigáljon az éppen használt adatfolyamhoz.
  2. Válassza ki a példány típusát a navigációs sávon.
    Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  3. Válassza ki a használni kívánt példánytípust.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás.
    Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Megjelenik egy folyamatüzenet.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Amikor a váltás befejeződött, megjelenik egy sikeres üzenet.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A Data Wrangler a kiválasztott példánytípust használja adatelemzéshez és adatátalakításokhoz. Az alapértelmezett példány és az a példány, amelyre váltott (ml.m5.16xlarge), fut. Egy adott átalakítás futtatása előtt módosíthatja a példány típusát, vagy visszaválthat az alapértelmezett példányra.

Zárja le a nem használt példányokat

Minden futó példányért fizetni kell. A további költségek elkerülése érdekében állítsa le azokat a példányokat, amelyeket nem használ manuálisan. Egy futó példány leállításához hajtsa végre a következő lépéseket:

  1. Az adatfolyam-oldalon válassza ki a példány ikont a felhasználói felület bal oldali ablaktáblájában Példányok futtatása.
    Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állítsa le.

Ha leállít egy folyamat futtatására használt példányt, akkor ideiglenesen nem férhet hozzá a folyamathoz. Ha hibaüzenetet kap egy korábban leállított példányt futtató folyamat megnyitásakor, várjon körülbelül 5 percet, majd próbálja meg újra megnyitni.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet nagyobb és szélesebb adatkészleteket feldolgozni a Data Wranglerrel úgy, hogy a példányokat nagyobb M5 vagy R5 példánytípusokra váltjuk. M5 példányok egyensúlyt kínál a számítási, memória- és hálózati erőforrások között. R5 példányok memóriaoptimalizált példányok. Mind az M5, mind az R5 példánytípusokat biztosít a költségek és a teljesítmény optimalizálásához a munkaterheléshez.

Ha többet szeretne megtudni az adatfolyamok használatáról a Data Wranglerrel, lásd: Hozzon létre és használjon Data Wrangler Flow-t és a Amazon SageMaker árképzés. A Data Wrangler használatának megkezdéséhez lásd: Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével.


A szerzőkről

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Haider Naqvi az AWS megoldási építésze. Széles körű szoftverfejlesztési és vállalati architektúra tapasztalattal rendelkezik. Arra összpontosít, hogy az ügyfelek üzleti eredményeket érjenek el az AWS segítségével. Székhelye New Yorkban van.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Huong Nguyen az AWS idősebb termékmenedzsere. Ő vezeti a SageMaker adatökoszisztéma-integrációját, 14 éves tapasztalatával ügyfélközpontú és adatvezérelt termékek gyártásában mind a vállalati, mind a fogyasztói terek számára.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Sriharsha M Sr AI/ML Specialist Solutions Architect az Amazon Web Services Strategic Specialist csapatában. Stratégiai AWS-ügyfelekkel dolgozik, akik kihasználják az AI/ML előnyeit összetett üzleti problémák megoldására. Műszaki útmutatást és tervezési tanácsokat ad az AI/ML alkalmazások széles körű megvalósításához. Szakértelme kiterjed az alkalmazásarchitektúrára, a big data-ra, az elemzésekre és a gépi tanulásra.

Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Nyikita Ivkin az Amazon SageMaker Data Wrangler alkalmazott tudósa.

Időbélyeg:

Még több AWS gépi tanulás