Amazon SageMaker Data Wrangler hetekről percekre csökkenti az adatok gépi tanuláshoz (ML) való összesítésének és előkészítésének idejét Amazon SageMaker Studio. A Data Wrangler leegyszerűsítheti az adatok előkészítését és a tervezési folyamatokat, valamint segítséget nyújthat az adatok kiválasztásában, tisztításában, feltárásában és megjelenítésében. A Data Wrangler több mint 300 beépített átalakítást tartalmaz PySparkban, így akár több száz gigabájtnyi adatkészletet is hatékonyan feldolgozhat az alapértelmezett példányon, az ml.m5.4xlarge.
Ha azonban beépített átalakítások segítségével legfeljebb terabájtnyi adathalmazokkal dolgozik, hosszabb feldolgozási időt vagy memóriakimaradási hibákat tapasztalhat. Az adatigényei alapján mostantól továbbiakat is használhat Amazon rugalmas számítási felhő (Amazon EC2) M5 példányok és a R5 példányok. Kezdheti például egy alapértelmezett példánysal (ml.m5.4xlarge), majd válthat ml.m5.24xlarge vagy ml.r5.24xlarge fájlra. Lehetősége van különböző példánytípusok kiválasztására, és megtalálni a legjobb kompromisszumot a működési költségek és a feldolgozási idők között. Amikor legközelebb idősor-átalakításon dolgozik, és nehéz transzformátorokat futtat az adatok kiegyensúlyozása érdekében, megfelelő méretre állíthatja a Data Wrangler-példányt a folyamatok gyorsabb futtatásához.
Ha több tíz gigabájtot vagy még többet dolgoz fel egy egyedi Pandas transzformációval, előfordulhat, hogy kifogyott a memória. Az alapértelmezett példányról (ml.m5.4xlarge) átválthat az ml.m5.24xlarge-re, és az átalakítás hiba nélkül befejeződik. Alaposan összehasonlítottuk és megfigyeltük a lineáris gyorsulást, miközben növeltük a példányméretet egy adatkészlet-portfólióban.
Ebben a bejegyzésben megosztjuk két benchmark teszt eredményeinket, amelyek bemutatják, hogyan dolgozhat fel nagyobb és szélesebb adatkészleteket a Data Wranglerrel.
Data Wrangler benchmark tesztek
Tekintsünk át két általunk futtatott tesztet, az aggregációs lekérdezéseket és a one-hot kódolást, különböző példánytípusokkal, PySpark beépített transzformátorokkal és egyedi Pandas transzformációkkal. Az összesítést nem igénylő átalakítások gyorsan befejeződnek, és jól működnek az alapértelmezett példánytípussal, ezért az összesítési lekérdezésekre és az összesítéssel történő átalakításokra összpontosítottunk. A tesztadatkészletünket a következő helyen tároltuk Amazon egyszerű tárolási szolgáltatás (Amazon S3). Az adatkészlet kiterjesztett mérete körülbelül 100 GB, 80 millió sorral és 300 oszloppal. A felhasználói felület mérőszámait használtuk a benchmark tesztek időzítésére és a végpontok közötti ügyfélkapcsolati késleltetés mérésére. Tesztadatkészletünk importálásakor letiltottuk a mintavételezést. A mintavétel alapértelmezés szerint engedélyezve van, és a Data Wrangler csak az első 100 sort dolgozza fel, ha engedélyezve van.x
Ahogy növeltük a Data Wrangler példány méretét, a Data Wrangler beépített átalakításainak és az egyéni Spark SQL-nek nagyjából lineáris felgyorsulását figyeltük meg. A Pandas összesítési lekérdezési tesztjei csak akkor fejeződtek be, amikor ml.m5.16xl-nél nagyobb példányokat használtunk, és a Pandasnak 180 GB memóriára volt szüksége az adatkészlet összesítési lekérdezésének feldolgozásához.
Az alábbi táblázat összefoglalja az összesítési lekérdezés teszt eredményeit.
Példa | vCPU | Memória (GiB) | Data Wrangler beépített Spark transzformációs idő | Panda idő (Egyéni átalakítás) |
ml.m5.4xl | 16 | 64 | 229 másodperc | Elfogyott a memória |
ml.m5.8xl | 32 | 128 | 130 másodperc | Elfogyott a memória |
ml.m5.16xl | 64 | 256 | 52 másodperc | 30 perc |
Az alábbi táblázat összefoglalja a one-hot kódolási teszt eredményeit.
Példa | vCPU | Memória (GiB) | Data Wrangler beépített Spark transzformációs idő | Panda idő (Egyéni átalakítás) |
ml.m5.4xl | 16 | 64 | 228 másodperc | Elfogyott a memória |
ml.m5.8xl | 32 | 128 | 130 másodperc | Elfogyott a memória |
ml.m5.16xl | 64 | 256 | 52 másodperc | Elfogyott a memória |
Váltsa át az adatfolyam példánytípusát
A folyamat példánytípusának megváltoztatásához hajtsa végre a következő lépéseket:
- Az Amazon SageMaker Data Wrangler konzolon navigáljon az éppen használt adatfolyamhoz.
- Válassza ki a példány típusát a navigációs sávon.
- Válassza ki a használni kívánt példánytípust.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás.
Megjelenik egy folyamatüzenet.
Amikor a váltás befejeződött, megjelenik egy sikeres üzenet.
A Data Wrangler a kiválasztott példánytípust használja adatelemzéshez és adatátalakításokhoz. Az alapértelmezett példány és az a példány, amelyre váltott (ml.m5.16xlarge), fut. Egy adott átalakítás futtatása előtt módosíthatja a példány típusát, vagy visszaválthat az alapértelmezett példányra.
Zárja le a nem használt példányokat
Minden futó példányért fizetni kell. A további költségek elkerülése érdekében állítsa le azokat a példányokat, amelyeket nem használ manuálisan. Egy futó példány leállításához hajtsa végre a következő lépéseket:
- Az adatfolyam-oldalon válassza ki a példány ikont a felhasználói felület bal oldali ablaktáblájában Példányok futtatása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állítsa le.
Ha leállít egy folyamat futtatására használt példányt, akkor ideiglenesen nem férhet hozzá a folyamathoz. Ha hibaüzenetet kap egy korábban leállított példányt futtató folyamat megnyitásakor, várjon körülbelül 5 percet, majd próbálja meg újra megnyitni.
Következtetés
Ebben a bejegyzésben bemutattuk, hogyan lehet nagyobb és szélesebb adatkészleteket feldolgozni a Data Wranglerrel úgy, hogy a példányokat nagyobb M5 vagy R5 példánytípusokra váltjuk. M5 példányok egyensúlyt kínál a számítási, memória- és hálózati erőforrások között. R5 példányok memóriaoptimalizált példányok. Mind az M5, mind az R5 példánytípusokat biztosít a költségek és a teljesítmény optimalizálásához a munkaterheléshez.
Ha többet szeretne megtudni az adatfolyamok használatáról a Data Wranglerrel, lásd: Hozzon létre és használjon Data Wrangler Flow-t és a Amazon SageMaker árképzés. A Data Wrangler használatának megkezdéséhez lásd: Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével.
A szerzőkről
Haider Naqvi az AWS megoldási építésze. Széles körű szoftverfejlesztési és vállalati architektúra tapasztalattal rendelkezik. Arra összpontosít, hogy az ügyfelek üzleti eredményeket érjenek el az AWS segítségével. Székhelye New Yorkban van.
Huong Nguyen az AWS idősebb termékmenedzsere. Ő vezeti a SageMaker adatökoszisztéma-integrációját, 14 éves tapasztalatával ügyfélközpontú és adatvezérelt termékek gyártásában mind a vállalati, mind a fogyasztói terek számára.
Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.
Sriharsha M Sr AI/ML Specialist Solutions Architect az Amazon Web Services Strategic Specialist csapatában. Stratégiai AWS-ügyfelekkel dolgozik, akik kihasználják az AI/ML előnyeit összetett üzleti problémák megoldására. Műszaki útmutatást és tervezési tanácsokat ad az AI/ML alkalmazások széles körű megvalósításához. Szakértelme kiterjed az alkalmazásarchitektúrára, a big data-ra, az elemzésekre és a gépi tanulásra.
Nyikita Ivkin az Amazon SageMaker Data Wrangler alkalmazott tudósa.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/process-larger-and-wider-datasets-with-amazon-sagemaker-data-wrangler/
- "
- 100
- Rólunk
- hozzáférés
- át
- További
- Előny
- tanács
- AI
- Minden termék
- amazon
- Az Amazon Web Services
- elemzés
- analitika
- Alkalmazás
- alkalmazások
- körülbelül
- építészet
- körül
- AWS
- benchmark
- BEST
- Big adatok
- Épület
- beépített
- üzleti
- változik
- töltött
- díjak
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- Takarításra
- bonyolult
- Kiszámít
- Konzol
- fogyasztó
- Jelenleg
- szokás
- Ügyfelek
- dátum
- adatelemzés
- bizonyítani
- igazolták
- Design
- Fejlesztés
- különböző
- le-
- ökoszisztéma
- eredményesen
- lehetővé téve
- Mérnöki
- Vállalkozás
- példa
- tapasztalat
- szakvélemény
- kutatás
- kiterjedt
- gyorsabb
- Funkció
- megtalálása
- vezetéknév
- áramlási
- összpontosított
- koncentrál
- következő
- magasság
- segít
- segít
- Hogyan
- How To
- HTTPS
- Több száz
- ICON
- végre
- importáló
- <p></p>
- integráció
- IT
- nagyobb
- vezető
- TANUL
- tanulás
- gép
- gépi tanulás
- menedzser
- kézzel
- intézkedés
- Memory design
- Metrics
- millió
- ML
- több
- Navigáció
- hálózatba
- New York
- ajánlat
- nyitás
- Optimalizálja
- opció
- szenvedélyes
- teljesítmény
- portfolió
- potenciális
- Készít
- problémák
- folyamat
- Folyamatok
- feldolgozás
- Termékek
- Termékek
- ad
- biztosít
- gyorsan
- szükség
- követelmények
- Tudástár
- Eredmények
- Kritika
- futás
- futás
- Skála
- Tudós
- kiválasztott
- Series of
- Szolgáltatások
- Megosztás
- Egyszerű
- Méret
- So
- szoftver
- szoftverfejlesztés
- Megoldások
- SOLVE
- terek
- szakember
- kezdet
- kezdődött
- tárolás
- Stratégiai
- siker
- kapcsoló
- bevétel
- csapat
- Műszaki
- teszt
- tesztek
- alaposan
- idő
- Átalakítás
- Átalakítás
- ui
- használ
- megjelenítés
- várjon
- háló
- webes szolgáltatások
- WHO
- nélkül
- Munka
- dolgozó
- művek
- év