Cost-effective Data Preparation For Machine Learning Using SageMaker Data Wrangler

Újra kiadta Platón

Követő: 0

Amazon SageMaker Data Wrangler képessége Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára, hogy vizuális interfészen keresztül kiváló minőségű szolgáltatásokat készítsenek a gépi tanulási (ML) alkalmazásokhoz. A Data Wrangler hetekről percekre csökkenti az adatok összesítéséhez és előkészítéséhez szükséges időt az ML-hez. A Data Wrangler segítségével leegyszerűsítheti az adat-előkészítési és szolgáltatástervezési folyamatot, és elvégezheti az adat-előkészítési munkafolyamat minden egyes lépését, beleértve az adatok kiválasztását, tisztítását, feltárását és megjelenítését egyetlen vizuális felületről.

Ebben a bejegyzésben az adat-előkészítés különböző aspektusaiba és a Data Wrangler kapcsolódó funkcióiba merülünk, hogy megértsük az adat-előkészítés költségösszetevőit, és azt, hogy a Data Wrangler hogyan kínál költséghatékony megközelítést az adat-előkészítéshez. Ezenkívül fedezzük a költségoptimalizálási bevált gyakorlatokat is, hogy tovább csökkentsük az adat-előkészítési költségeket a Data Wranglerben.

A feltáró adatelemzés (EDA) és adat-előkészítés áttekintése a Data Wranglerben

A Data Wrangler költséghatékonyságának megértéséhez fontos megvizsgálni az EDA és az ML adat-előkészítési szakaszának különböző aspektusait. Ez a blog nem hasonlítja össze az EDA különböző platformjait vagy szolgáltatásokat, de megérti az EDA különböző lépéseit, azok költségmegfontolását, és azt, hogy a Data Wrangler hogyan segíti elő költséghatékony módon az EDA-t.

Az adattudósok tipikus EDA-tapasztalata a következő lépésekből áll:

Indítson el egy Jupyter notebook példányt az EDA végrehajtásához.
Importálja a szükséges csomagokat az adatok elemzéséhez és megjelenítéséhez.
Importálja az adatokat több forrásból.
Hajtson végre olyan átalakításokat, mint például a hiányzó értékek és kiugró értékek kezelése, az egyszeri kódolás, az adatok kiegyensúlyozása stb., hogy megtisztítsa az adatokat és készen álljon a modellezésre.
Vizualizálja az adatokat.
Hozzon létre mechanizmusokat a lépések megismétléséhez.
A feldolgozott adatok exportálása a downstream elemzéshez vagy az ML-hez.

Ezek a lépések összetettek, és rugalmasságot igényelnek a számítási és memóriakövetelmények terén, így minden lépést megfelelő számítási és memóriahasználattal futtathat. Szüksége van egy olyan integrált rendszerre is, amely több forrásból és mechanizmusból tud adatokat importálni az ismétlődéshez vagy újrafelhasználáshoz, hogy ugyanazokat az EDA-lépéseket alkalmazhassa a nagyobb, hasonló vagy eltérő adatkészletekre, amint azt a downstream ML-folyamat megköveteli.

EDA költségmegfontolások

Íme néhány költségmegfontolás az EDA-val kapcsolatban:

Kiszámít

Egyes EDA-környezetek bizonyos formátumú adatokat igényelnek. Ilyen esetekben az adatokat az EDA környezet által elfogadott formátumban kell feldolgoznia. Például, ha a környezet csak CSV formátumot fogad el, de parketta vagy más formátumú adatok vannak, akkor az adatkészletet CSV formátumba kell konvertálnia. Az adatok újraformázásához számítás szükséges.
Nem minden környezet rendelkezik azzal a rugalmassággal, hogy egy gombnyomással módosítsa a számítási vagy memóriakonfigurációt. Előfordulhat, hogy az egyes végrehajtott átalakításokhoz a legnagyobb számítási kapacitással és memóriaterülettel kell rendelkeznie.

Tárolás és adatátvitel

Több forrásból kell adatokat gyűjteni. Ha az EDA-környezet csak kiválasztott forrásokat támogat, előfordulhat, hogy át kell helyeznie az adatokat a különböző forrásokból az egyetlen támogatott forrásba, ami növeli a tárolási és az adatátviteli költségeket.

Munkaköltség és szakértelem

Az EDA platform és a mögöttes számítási infrastruktúra kezelése szakértelmet, erőfeszítést és költségeket igényel. Az infrastruktúra kezelése során az operációs rendszerek és alkalmazások, például a kiépítés, a javítás és a frissítés műveleti terhei hárulnak Önre. Ügyeljen arra, hogy gyorsan azonosítsa a problémákat. Ha nem ellenőrzi az adatokat a modell felépítése előtt, akkor sok erőforrást és mérnöki időt veszített el.
Vegye figyelembe, hogy az EDA-hoz adattudományi és adattapasztalat szükséges.
Ezenkívül egyes EDA-környezetek nem kínálnak rámutatással és kattintással használható felületet, és kódot írnak elő az adatok felfedezéséhez, megjelenítéséhez és átalakításához, ami munkaerőköltséggel jár.

Műveleti költség

Ahhoz, hogy az adatokat a forrásból áthelyezze az átalakítások végrehajtásához, majd a lefelé irányuló ML-folyamatokhoz, előfordulhat, hogy az ismétlődő EDA-lépéseket újra kell végrehajtania az adatok lekérésének elejétől az EDA minden egyes fázisában, ami időigényes és kumulatív. munkaerőköltség. Ha használhatja az előző lépésből származó átalakított adatokat, az nem növeli halmozottan a költségeket.
Ha egyszerű mechanizmussal ismételheti meg ugyanazokat az EDA-lépéseket hasonló vagy növekményes adatkészleteken, az emberek és a számítási erőforrások szempontjából időt és költséget takarít meg.

Nézzük meg, hogyan könnyíti meg a Data Wrangler költséghatékony módon az EDA-t vagy az adatok előkészítését ezeken a különböző területeken.

Kiszámít

Amikor EDA-t hajt végre egy notebookon, előfordulhat, hogy nem lesz rugalmas a számítás vagy a memória igény szerinti méretezésére, ami arra kényszerítheti, hogy futtassa a transzformáció és a vizualizációk túlméretezett környezetben. Ha alulméretezett környezettel rendelkezik, memóriaproblémák léphetnek fel. A Data Wranglerben kiválaszthat egy kisebb példánytípust bizonyos átalakításokhoz vagy elemzésekhez, majd a példányt nagyobb típusra skálázhatja, és összetett átalakításokat hajthat végre. Amikor az összetett átalakítás befejeződött, a Data Wrangler-példányt kisebb példánytípusra kicsinyítheti. Ez rugalmasságot biztosít a számítások skálázásához az átalakítási követelmények alapján.

A Data Wrangler támogatja a változatos példánytípusok, és kiválaszthatja a munkaterhelésének megfelelőt, ezáltal kiküszöböli a túlméretezett vagy alulméretezett környezetek költségeit.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Tárolás és adatátvitel

Ebben a részben a tárolással és az adatátvitellel kapcsolatos költségekkel kapcsolatos megfontolásokat tárgyalunk.

import

Az ML-re vonatkozó adatok gyakran több forrásból és különböző formátumokban állnak rendelkezésre. A Data Wrangler segítségével megteheti importál adatok a következő adatforrásokból: Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, AWS-tó formáció, Amazon SageMaker Feature Store és a Hópehely. Az adatok a következő formátumok bármelyikében lehetnek: CSV, Parquet, JSON és Optimized Row Columnar (ORC), és további adatformátumok kerülnek hozzáadásra az ügyfelek igényei alapján. Mivel a fontos adatforrásokat a Data Wrangler már támogatja, az adatok közvetlenül importálhatók a megfelelő forrásokból, és csak a GB-hónapos tárhelyért kell fizetni. További információkért lásd: Amazon SageMaker árképzés.

Az összes iteratív adatfeltárás, adatátalakítás és vizualizáció elvégezhető magában a Data Wranglerben. Ez kiküszöböli a további adatmozgást más környezetekhez képest, ahol előfordulhat, hogy az adatokat különböző helyekre kell mozgatni a feldolgozás, átalakítás és feldolgozás céljából. Költség szempontjából ez kiküszöböli a duplikált adattárolást és a csökkentett adatmozgást.

Az adatminőség költsége

Ha nem azonosítja a rossz adatokat, és korán kijavítja azokat, akkor később költséges probléma lesz a megoldása. A Adatminőségi és betekintési jelentés segít megszüntetni ezt a problémát. Az Adatminőség- és Betekintési jelentés segítségével elemzést végezhet az adatokon, hogy betekintést nyerhessen az adatkészletbe, például a hiányzó értékek és a kiugró értékek számába. Ha problémái vannak az adatokkal, például célszivárgás vagy egyensúlyhiány, a betekintési jelentés felhívhatja a figyelmet ezekre a problémákra. Amint importálja adatait, egyetlen gombnyomással lefuttathat egy statisztikai jelentést. Ez csökkenti a könyvtárak importálásával és az adatkészlettel kapcsolatos szükséges információk megszerzéséhez szükséges kódírással kapcsolatos erőfeszítéseket, ami csökkenti a munkaerőköltséget és a szükséges szakértelemet.

Amikor létrehozza az adatminőségi és betekintési jelentést, a Data Wrangler lehetőséget ad egy céloszlop kiválasztására (az az oszlop, amelyet meg akar jósolni). Amikor kiválaszt egy céloszlopot, a Data Wrangler automatikusan létrehoz egy céloszlop elemzést. A funkciókat a prediktív erejük sorrendjében is rangsorolja (lásd a következő képernyőképet). Ez hozzájárul a kiváló minőségű szolgáltatások közvetlen üzleti előnyeihez a downstream ML folyamathoz.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Átalakítás

Ha az EDA-eszköz csak bizonyos átalakításokat támogat, előfordulhat, hogy át kell helyeznie az adatokat egy másik környezetbe az egyéni átalakítások, például a Spark-feladatok végrehajtásához. A Data Wrangler támogatja egyedi átalakítások, amely PySparkban, Pandasban és SQL-ben írható (példaként lásd a következő képernyőképet). Fejlesztőbarátak, és mindegyik zökkenőmentesen egy helyre van csomagolva, csökkentve az adatmozgást és megtakarítva az adatátvitellel és tárolással kapcsolatos költségeket.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Előfordulhat, hogy matematikai műveleteket kell végrehajtania az adatkészleteken, például egy oszlop abszolút értékét kell megadnia. Ha az Ön EDA-eszköze nem támogatja a matematikai műveleteket, előfordulhat, hogy a műveleteket külsőleg kell elvégeznie, ami további erőfeszítést és költséget igényel. Egyes eszközök támogathatják az adatkészleten végzett matematikai műveleteket, de szükség van a könyvtárak importálására, ami további erőfeszítést igényel. A Data Wranglerben használhatja a egyéni képlet új oszlop definiálásához Spark SQL-kifejezés használatával az aktuális adatkeretben lévő adatok lekérdezéséhez anélkül, hogy az egyéni átalakítások vagy egyéni lekérdezések további költsége merülne fel.

Munkaköltség és szakértelem

Az EDA platform és a mögöttes számítási infrastruktúra kezelése szakértelmet, erőfeszítést és költségeket igényel. A Data Wrangler több mint 300 előre konfigurált, PySparkban írt adatátalakítást kínál, így akár több száz gigabájtnyi adatkészletet is hatékonyan feldolgozhat anélkül, hogy az adatok átalakításához kódot kellene írnia. Használhat olyan átalakításokat, mint például az oszloptípus konvertálása, egy gyorskódolás, a hiányzó adatok beszámítása átlaggal vagy mediánnal, az oszlopok átméretezése és az adatok/idő beágyazása, hogy az adatokat olyan formátumokká alakítsa, amelyeket a modellek egyetlen kódsor írása nélkül is használhatnak. Ez csökkenti az időt és az erőfeszítést, ezáltal csökkenti a munkaerőköltséget.

A Data Wrangler egy point-and-click felületet kínál az adatok megjelenítéséhez és érvényesítéséhez (lásd a következő képernyőképet). Nincs szükség szakértelemre az adattervezésben vagy az analitikában, mivel minden adat-előkészítés egyszerű egérmutatóval és kattintással elvégezhető.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Megjelenítés

A Data Wrangler segít megérteni adatait, és azonosítani a lehetséges hibákat és szélsőséges értékeket robusztus előre konfigurált vizualizációs sablonok segítségével. Nincs szüksége jártasságra vagy további időre a külső könyvtárak vagy függőségek importálására a vizualizációk végrehajtásához. Hisztogramok, szórásdiagramok, doboz- és bajuszdiagramok, vonaldiagramok és oszlopdiagramok mind rendelkezésre állnak (néhány példát a következő képernyőképeken talál). A sablonok, például a hisztogramok egyszerűvé teszik saját vizualizációk létrehozását és szerkesztését kódírás nélkül.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Érvényesítés

A Data Wrangler lehetővé teszi az adat-előkészítési munkafolyamat inkonzisztenciáinak gyors azonosítását, és a problémák diagnosztizálását a modellek éles üzembe helyezése előtt (lásd a következő képernyőképet). Gyorsan megállapíthatja, hogy az előkészített adatok pontos modellt eredményeznek-e, így megállapíthatja, hogy szükség van-e további funkciók tervezésére a teljesítmény javításához. Mindez a modellépítési fázis előtt történik, így nincs többletmunkaköltség egy olyan modell felépítéséhez, amely nem a várt módon teljesít (alacsony teljesítménymutatók), ami további átalakításokat eredményezne a modell felépítése után. Az érvényesítés a jobb minőségű szolgáltatások üzleti előnyeit is eredményezi.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Építsen méretezhető adat-előkészítő folyamatokat

Amikor EDA-t hajt végre, adat-előkészítő folyamatokat kell felépítenie, amelyek adatkészletekkel skálázhatók (lásd a következő képernyőképet). Ez fontos az ismétlési és a későbbi ML folyamatok számára. Az ügyfelek általában a Sparkot az elosztott, méretezhető és a memórián belüli feldolgozási jelleg miatt használják; ehhez azonban sok szakértelem szükséges a Sparkban. A Spark-környezet beállítása időigényes, és szakértelmet igényel az optimális konfigurációhoz. A Data Wranglerrel adatfeldolgozási feladatokat hozhat létre, és exportálhat az Amazon S3-ba és az Amazon szolgáltatástárba pusztán a vizuális felületen keresztül, anélkül, hogy Jupyter notebookokat kellene generálnia, futtatnia vagy kezelnie, ami Spark-szakértelem nélkül teszi lehetővé a méretezhető adat-előkészítési folyamatokat. További információkért lásd: Indítsa el a feldolgozási feladatokat néhány kattintással az Amazon SageMaker Data Wrangler segítségével.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Műveleti költség

Az integráció nem feltétlenül jelent közvetlen költséghaszont; mindazonáltal vannak közvetett költségelőnyök, ha olyan integrált környezetben dolgozik, mint például a SageMaker. Mivel a Data Wrangler integrálva van az AWS-szolgáltatásokkal, exportálhatja adat-előkészítési munkafolyamatát egy Data Wrangler munkajegyzetfüzetbe, és elindíthatja Amazon SageMaker Autopilot képzési kísérlet, Amazon SageMaker csővezetékek notebook vagy kódszkript. Egy kattintással létrehozhat egy Data Wrangler feldolgozási feladatot is anélkül, hogy infrastruktúrát kellene beállítania és felügyelnie ismétlődő lépések végrehajtásához vagy automatizáláshoz egy ML munkafolyamatban.

A Data Wrangler folyamatban megteheti export az adatfeldolgozási folyamatokon végrehajtott átalakítások egy része vagy mindegyike. Az adatfolyam exportálásakor díjat kell fizetnie a használt AWS-erőforrásokért. A költségek szempontjából az átalakítás exportálása lehetővé teszi, hogy további adatkészleteken is megismételje az átalakítást további erőfeszítések nélkül.

A Data Wrangler segítségével megteheti exportálhatja az adatkészletben végzett összes átalakítást egy célcsomópontra néhány kattintással. Ez lehetővé teszi adatfeldolgozási feladatok létrehozását és az Amazon S3-ba való exportálást pusztán a vizuális felületen keresztül anélkül, hogy Jupyter notebookokat kellene generálnia, futtatnia vagy kezelnie, ezáltal javítva az alacsony kódolású élményt.

A Data Wrangler lehetővé teszi az adat-előkészítési lépések vagy adatfolyamok exportálását különböző környezetekbe. A Data Wrangler zökkenőmentesen integrálható más AWS-szolgáltatásokkal és -funkciókkal, például az alábbiakkal:

SageMaker Feature Store – A Data Wrangler segítségével megtervezheti a modell jellemzőit, majd bekerül a funkciótáradba, amely a funkciók és a hozzájuk kapcsolódó metaadatok központosított tárolója
SageMaker csővezetékek – Használhatja a Data Wranglerből exportált adatfolyamot a SageMaker folyamatokban, amelyeket nagyszabású ML munkafolyamatok létrehozására és telepítésére használnak.
Amazon S3 – Exportálhatja az adatokat az Amazon S3-ba, és felhasználhatja Data Wrangler-feladatok létrehozására
Piton – Végül exportálhatja az adatfolyam összes lépését egy Python-fájlba, amelyet manuálisan integrálhat bármely adatfeldolgozási munkafolyamatba.

Az ilyen szoros integráció csökkenti az erőfeszítést, az időt, a szakértelmet és a költségeket.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Költségoptimalizálási bevált gyakorlatok

Ebben a részben a Data Wrangler költségeinek további optimalizálására vonatkozó bevált módszereket tárgyaljuk.

Frissítse a Data Wranglert a legújabb kiadásra

Amikor frissítse a Data Wranglert a legújabb kiadáshoz megkapja a Data Wrangler legújabb funkcióit, biztonságát és általános optimalizálását, ami javíthatja a költséghatékonyságát.

Használjon beépített Data Wrangler transzformátorokat

Használja a beépített Data Wrangler transzformátorokat az egyedi Pandas transzformációkhoz, amikor nagyobb és szélesebb adatkészleteket dolgoz fel.

Válassza ki a megfelelő példánytípust a Data Wrangler-folyamathoz

A Data Wrangler két ml-példánytípus-családot támogat: m5 és r5. Az m5 példányok általános célú példányok, amelyek egyensúlyt biztosítanak a számítás és a memória között, míg az r5 példányokat úgy tervezték, hogy gyors teljesítményt nyújtsanak a memóriában lévő nagy adatkészletek feldolgozásához.

Javasoljuk, hogy válasszon olyan példányt, amely a legjobban optimalizálható a munkaterheléséhez. Például az r5.8xlarge ára magasabb lehet, mint az m5.4xlarge, de az r5.8xlarge jobban optimalizálható a munkaterheléshez. A jobban optimalizált példányokkal kevesebb idő alatt, alacsonyabb költségek mellett futtathatja adatfolyamait.

Költséghatékony adat-előkészítés gépi tanuláshoz a SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Nagyobb és szélesebb adatkészletek feldolgozása

Tíz gigabájtnál nagyobb adatkészletek esetén javasoljuk a beépített átalakítások használatát, vagy az adatok importálása során történő mintavételét az egyéni Pandas-átalakítások interaktív futtatásához. Ban,-ben Hozzászólás, megosztjuk két benchmark teszt eredményeinket, hogy bemutassuk, hogyan kell ezt megtenni.

Zárja le a nem használt példányokat

Minden futó példányért fizetni kell. A további költségek elkerülése érdekében állítsa le azokat a példányokat, amelyeket nem használ manuálisan. Egy futó példány leállításához hajtsa végre a következő lépéseket:

Az adatfolyam-oldalon válassza ki a példány ikont a navigációs ablaktáblában Példányok futtatása.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állítsa le.

Ha leállít egy folyamat futtatására használt példányt, akkor ideiglenesen nem férhet hozzá a folyamathoz. Ha hibaüzenetet kap egy korábban leállított példányt futtató folyamat megnyitásakor, várjon körülbelül 5 percet, majd próbálja meg újra megnyitni.

Ha nem használja a Data Wranglert, fontos, hogy leállítsa azt a példányt, amelyen az fut, hogy elkerülje a további költségeket. További információkért lásd: Állítsa le a Data Wranglert.

A Data Wrangler erőforrások automatikus leállításával kapcsolatos információkért lásd: Takarítson meg költségeket azáltal, hogy automatikusan leállítja a tétlen erőforrásokat az Amazon SageMaker Studio-ban.

Export

Amikor exportálja a Data Wrangler folyamatát vagy átalakításait, költségelosztási címkék segítségével rendszerezheti és kezelheti ezen erőforrások költségeit. Ön létrehozza ezeket a címkéket a felhasználói profilhoz, és a Data Wrangler automatikusan alkalmazza őket az adatfolyam exportálásához használt erőforrásokra. További információkért lásd Költségallokációs címkék használata.

Árazás

A Data Wrangler árazás három összetevőből áll: Data Wrangler-példányok, Data Wrangler-feladatok és ML-tárhely. A Data Wrangleren belül elvégezheti az EDA vagy az adat-előkészítés összes lépését, és Ön fizet a példányért, a munkákért és a tárhely áráért a használat vagy fogyasztás alapján, előzetes vagy licencdíjak nélkül. További információkért lásd: Igény szerinti árképzés.

Következtetés

Ebben a bejegyzésben áttekintettük az EDA és az adatok előkészítésének különböző költségvonzatait, hogy megtudjuk, hogyan csökkenti a funkciókban gazdag és integrált Data Wrangler hetekről percekre az adatok összesítésének és előkészítésének idejét az ML használati esetekre, megkönnyítve ezáltal a költséghatékony adat-előkészítést. ML számára. Megvizsgáltuk a Data Wrangler árképzési összetevőit és a költségoptimalizálás bevált gyakorlatait is, amikor a Data Wranglert használja az ML adat-előkészítési követelményeihez.

További információért tekintse meg a következő forrásokat:

A szerzőkről

Rajakumar Sampathkumar az AWS fő műszaki ügyfélmenedzsere, aki útmutatást nyújt az ügyfeleknek az üzleti technológia összehangolásához, és támogatja felhőalapú működési modelljeik és folyamataik újrafeltalálását. Szenvedélye a felhő és a gépi tanulás. Raj egyben gépi tanulási specialista is, és az AWS-ügyfelekkel együttműködve tervezi, telepíti és kezeli az AWS-munkaterheléseket és architektúrákat.

Rahul Nabera az AWS Professional Services adatelemzési tanácsadója. Jelenlegi munkája arra összpontosít, hogy lehetővé tegye az ügyfelek számára, hogy adat- és gépi tanulási terheléseiket az AWS-re építsék. Szabadidejében szívesen játszik krikettet és röplabdát.

Időbélyeg: November 7, 2022November 7, 2022

Időbélyeg: 1. március 2024.

A feltáró adatelemzés (EDA) és adat-előkészítés áttekintése a Data Wranglerben

EDA költségmegfontolások

Kiszámít

Tárolás és adatátvitel

Munkaköltség és szakértelem

Műveleti költség

Kiszámít

Tárolás és adatátvitel

import

Az adatminőség költsége

Átalakítás

Munkaköltség és szakértelem

Megjelenítés

Érvényesítés

Építsen méretezhető adat-előkészítő folyamatokat

Műveleti költség

Költségoptimalizálási bevált gyakorlatok

Frissítse a Data Wranglert a legújabb kiadásra

Használjon beépített Data Wrangler transzformátorokat

Válassza ki a megfelelő példánytípust a Data Wrangler-folyamathoz

Nagyobb és szélesebb adatkészletek feldolgozása

Zárja le a nem használt példányokat

Export

Árazás

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók