Nagyobb és szélesebb adatkészletek feldolgozása az Amazon SageMaker Data Wrangler segítségével

Újra kiadta Platón

Követő: 0

Amazon SageMaker Data Wrangler hetekről percekre csökkenti az adatok gépi tanuláshoz (ML) való összesítésének és előkészítésének idejét Amazon SageMaker Studio. A Data Wrangler leegyszerűsítheti az adatok előkészítését és a tervezési folyamatokat, valamint segítséget nyújthat az adatok kiválasztásában, tisztításában, feltárásában és megjelenítésében. A Data Wrangler több mint 300 beépített átalakítást tartalmaz PySparkban, így akár több száz gigabájtnyi adatkészletet is hatékonyan feldolgozhat az alapértelmezett példányon, az ml.m5.4xlarge.

Ha azonban beépített átalakítások segítségével legfeljebb terabájtnyi adathalmazokkal dolgozik, hosszabb feldolgozási időt vagy memóriakimaradási hibákat tapasztalhat. Az adatigényei alapján mostantól továbbiakat is használhat Amazon rugalmas számítási felhő (Amazon EC2) M5 példányok és a R5 példányok. Kezdheti például egy alapértelmezett példánysal (ml.m5.4xlarge), majd válthat ml.m5.24xlarge vagy ml.r5.24xlarge fájlra. Lehetősége van különböző példánytípusok kiválasztására, és megtalálni a legjobb kompromisszumot a működési költségek és a feldolgozási idők között. Amikor legközelebb idősor-átalakításon dolgozik, és nehéz transzformátorokat futtat az adatok kiegyensúlyozása érdekében, megfelelő méretre állíthatja a Data Wrangler-példányt a folyamatok gyorsabb futtatásához.

Ha több tíz gigabájtot vagy még többet dolgoz fel egy egyedi Pandas transzformációval, előfordulhat, hogy kifogyott a memória. Az alapértelmezett példányról (ml.m5.4xlarge) átválthat az ml.m5.24xlarge-re, és az átalakítás hiba nélkül befejeződik. Alaposan összehasonlítottuk és megfigyeltük a lineáris gyorsulást, miközben növeltük a példányméretet egy adatkészlet-portfólióban.

Ebben a bejegyzésben megosztjuk két benchmark teszt eredményeinket, amelyek bemutatják, hogyan dolgozhat fel nagyobb és szélesebb adatkészleteket a Data Wranglerrel.

Data Wrangler benchmark tesztek

Tekintsünk át két általunk futtatott tesztet, az aggregációs lekérdezéseket és a one-hot kódolást, különböző példánytípusokkal, PySpark beépített transzformátorokkal és egyedi Pandas transzformációkkal. Az összesítést nem igénylő átalakítások gyorsan befejeződnek, és jól működnek az alapértelmezett példánytípussal, ezért az összesítési lekérdezésekre és az összesítéssel történő átalakításokra összpontosítottunk. A tesztadatkészletünket a következő helyen tároltuk Amazon egyszerű tárolási szolgáltatás (Amazon S3). Az adatkészlet kiterjesztett mérete körülbelül 100 GB, 80 millió sorral és 300 oszloppal. A felhasználói felület mérőszámait használtuk a benchmark tesztek időzítésére és a végpontok közötti ügyfélkapcsolati késleltetés mérésére. Tesztadatkészletünk importálásakor letiltottuk a mintavételezést. A mintavétel alapértelmezés szerint engedélyezve van, és a Data Wrangler csak az első 100 sort dolgozza fel, ha engedélyezve van.x

Ahogy növeltük a Data Wrangler példány méretét, a Data Wrangler beépített átalakításainak és az egyéni Spark SQL-nek nagyjából lineáris felgyorsulását figyeltük meg. A Pandas összesítési lekérdezési tesztjei csak akkor fejeződtek be, amikor ml.m5.16xl-nél nagyobb példányokat használtunk, és a Pandasnak 180 GB memóriára volt szüksége az adatkészlet összesítési lekérdezésének feldolgozásához.

Az alábbi táblázat összefoglalja az összesítési lekérdezés teszt eredményeit.

Példa	vCPU	Memória (GiB)	Data Wrangler beépített Spark transzformációs idő	Panda idő (Egyéni átalakítás)
ml.m5.4xl	16	64	229 másodperc	Elfogyott a memória
ml.m5.8xl	32	128	130 másodperc	Elfogyott a memória
ml.m5.16xl	64	256	52 másodperc	30 perc

Az alábbi táblázat összefoglalja a one-hot kódolási teszt eredményeit.

Példa	vCPU	Memória (GiB)	Data Wrangler beépített Spark transzformációs idő	Panda idő (Egyéni átalakítás)
ml.m5.4xl	16	64	228 másodperc	Elfogyott a memória
ml.m5.8xl	32	128	130 másodperc	Elfogyott a memória
ml.m5.16xl	64	256	52 másodperc	Elfogyott a memória

Váltsa át az adatfolyam példánytípusát

A folyamat példánytípusának megváltoztatásához hajtsa végre a következő lépéseket:

Az Amazon SageMaker Data Wrangler konzolon navigáljon az éppen használt adatfolyamhoz.
Válassza ki a példány típusát a navigációs sávon.
Válassza ki a használni kívánt példánytípust.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás.

Megjelenik egy folyamatüzenet.

Amikor a váltás befejeződött, megjelenik egy sikeres üzenet.

A Data Wrangler a kiválasztott példánytípust használja adatelemzéshez és adatátalakításokhoz. Az alapértelmezett példány és az a példány, amelyre váltott (ml.m5.16xlarge), fut. Egy adott átalakítás futtatása előtt módosíthatja a példány típusát, vagy visszaválthat az alapértelmezett példányra.

Zárja le a nem használt példányokat

Minden futó példányért fizetni kell. A további költségek elkerülése érdekében állítsa le azokat a példányokat, amelyeket nem használ manuálisan. Egy futó példány leállításához hajtsa végre a következő lépéseket:

Az adatfolyam-oldalon válassza ki a példány ikont a felhasználói felület bal oldali ablaktáblájában Példányok futtatása.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állítsa le.

Ha leállít egy folyamat futtatására használt példányt, akkor ideiglenesen nem férhet hozzá a folyamathoz. Ha hibaüzenetet kap egy korábban leállított példányt futtató folyamat megnyitásakor, várjon körülbelül 5 percet, majd próbálja meg újra megnyitni.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet nagyobb és szélesebb adatkészleteket feldolgozni a Data Wranglerrel úgy, hogy a példányokat nagyobb M5 vagy R5 példánytípusokra váltjuk. M5 példányok egyensúlyt kínál a számítási, memória- és hálózati erőforrások között. R5 példányok memóriaoptimalizált példányok. Mind az M5, mind az R5 példánytípusokat biztosít a költségek és a teljesítmény optimalizálásához a munkaterheléshez.

Ha többet szeretne megtudni az adatfolyamok használatáról a Data Wranglerrel, lásd: Hozzon létre és használjon Data Wrangler Flow-t és a Amazon SageMaker árképzés. A Data Wrangler használatának megkezdéséhez lásd: Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével.

A szerzőkről

Haider Naqvi az AWS megoldási építésze. Széles körű szoftverfejlesztési és vállalati architektúra tapasztalattal rendelkezik. Arra összpontosít, hogy az ügyfelek üzleti eredményeket érjenek el az AWS segítségével. Székhelye New Yorkban van.

Huong Nguyen az AWS idősebb termékmenedzsere. Ő vezeti a SageMaker adatökoszisztéma-integrációját, 14 éves tapasztalatával ügyfélközpontú és adatvezérelt termékek gyártásában mind a vállalati, mind a fogyasztói terek számára.

Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.

Sriharsha M Sr AI/ML Specialist Solutions Architect az Amazon Web Services Strategic Specialist csapatában. Stratégiai AWS-ügyfelekkel dolgozik, akik kihasználják az AI/ML előnyeit összetett üzleti problémák megoldására. Műszaki útmutatást és tervezési tanácsokat ad az AI/ML alkalmazások széles körű megvalósításához. Szakértelme kiterjed az alkalmazásarchitektúrára, a big data-ra, az elemzésekre és a gépi tanulásra.

Nyikita Ivkin az Amazon SageMaker Data Wrangler alkalmazott tudósa.

Időbélyeg: May 6, 2022

Időbélyeg: 7. július 2022.

Újra kiadta Platón

Automatizálja és implementálja a verzióvezérlést az Amazon Kendra GYIK-hez

Hogyan építette fel a LotteON a dinamikus A/B tesztelést személyre szabott ajánlórendszeréhez | Amazon webszolgáltatások

Határozza meg az anomáliák helyét az Amazon Lookout for Vision segítségével, GPU használata nélkül

Csökkentse az élelmiszer-pazarlást a kiskereskedelem fenntarthatóságának és pénzügyi eredményeinek javítása érdekében az Amazon Forecast segítségével

Bejelentjük az Amazon Lex Visual Conversation Builder-jét

Futtassa a notebookokat kötegelt munkákként az Amazon SageMaker Studio Labban

Szemléltető jegyzetfüzetek az Amazon SageMaker JumpStartban

Hogyan tette lehetővé az AWS Prototyping segítségével az ICL-Group számítógépes látásmodelleket az Amazon SageMakeren | Amazon webszolgáltatások

Az Amazon SageMaker Data Wrangler segítségével nagyszabású szolgáltatástervezés az egészségügy és az élettudományok számára

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók