Amazon SageMaker Data Wrangler egy erre a célra kialakított adatösszesítő és -előkészítő eszköz a gépi tanuláshoz (ML). Lehetővé teszi egy vizuális interfész használatát az adatok eléréséhez, valamint feltáró adatelemzés (EDA) és funkciótervezés végrehajtásához. Az EDA funkció beépített adatelemzési képességekkel rendelkezik diagramokhoz (mint például szóródiagram vagy hisztogram), és időtakarékos modellelemzési képességekkel rendelkezik, mint például a jellemzők fontossága, a célszivárgás és a modell magyarázhatósága. A funkciótervezési képesség több mint 300 beépített átalakítást tartalmaz, és egyéni átalakításokat hajthat végre Python, PySpark vagy Spark SQL futtatókörnyezet használatával.
Az egyéni vizualizációkhoz és átalakításokhoz a Data Wrangler most példakódrészleteket biztosít a szokásos vizualizációkhoz és átalakításokhoz. Ebben a bejegyzésben bemutatjuk, hogyan használhatja ezeket a kódrészleteket az EDA gyors elindításához a Data Wranglerben.
Megoldás áttekintése
Ennek az írásnak az idején importálhat adatkészleteket a Data Wranglerbe innen Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, Databricks és Snowflake. Ebben a bejegyzésben az Amazon S3-at használjuk a 2014-es Amazon tárolására áttekintések adatkészlet. A következő minta az adatkészletből:
Ebben a bejegyzésben az EDA-t három oszlop segítségével hajtjuk végre:asin
, reviewTime
és overall
– amely megfelel a termékazonosítónak, a felülvizsgálat időpontjának és az általános értékelési pontszámnak. Ezeket az adatokat arra használjuk, hogy megjelenítsük a felülvizsgálatok számának dinamikáját hónapok és évek szerint.
Példakódrészlet az EDA-hoz a Data Wranglerben
Az EDA végrehajtásának megkezdéséhez a Data Wranglerben hajtsa végre a következő lépéseket:
- Töltse le a Digital Music vélemények adatkészlet JSON, és töltse fel az Amazon S3-ra.
Ezt használjuk az EDA nyers adatkészleteként. - Nyisd ki Amazon SageMaker Studio és hozzon létre egy új Data Wrangler-folyamatot, és importálja az adatkészletet az Amazon S3-ból.
Ez az adatkészlet kilenc oszlopot tartalmaz, de mi csak hármat használunk:
asin
,reviewTime
ésoverall
. El kell dobnunk a másik hat oszlopot. - Hozzon létre egy egyéni átalakítást, és válassza ki Python (PySpark).
- Bontsa Példarészletek keresése És válasszon Húzza el az összes oszlopot, kivéve néhányat.
- Írja be a megadott kódrészletet az egyéni átalakításba, és kövesse az utasításokat a kód módosításához.
Most, hogy megvan az összes szükséges oszlop, szűrjük le az adatokat, hogy csak 2000 és 2020 között tartsuk meg az értékeléseket.
- Használja a Szűrési időbélyeg a tartományon kívül részlet a 2000 előtti és 2020 utáni adatok eldobásához:
Ezután kivonjuk az évet és a hónapot a reviewTime oszlopból.
- Használja a Jelölje ki a dátumot/időt átalakítani.
- A Oszlopok kibontása, választ év és a hónap.
Ezután szeretnénk összesíteni az előző lépésben létrehozott vélemények számát év és hónap szerint.
- Használja a Statisztikák készítése csoportokban töredék:
- Nevezze át az előző lépés összesítését erről:
count(overall)
nak nekreviews_num
választásával Oszlopok kezelése és a Oszlop átnevezése átalakítani.
Végül szeretnénk létrehozni egy hőtérképet, amely megjeleníti a vélemények évenkénti és hónaponkénti megoszlását. - Az elemzés lapon válassza a lehetőséget Egyedi vizualizáció.
- Bontsa Keressen rá a részletre És válasszon Hőtérkép a legördülő menüben.
- Írja be a megadott kódrészletet az egyéni vizualizációba:
A következő vizualizációt kapjuk.
Ha tovább szeretné javítani a hőtérképet, akkor az adatokat szeletelheti úgy, hogy csak a 2011 előtti vélemények jelenjenek meg. Ezeket nehéz azonosítani az imént létrehozott hőtérképen, mivel 2012 óta nagy mennyiségű vélemény készült. - Adjon hozzá egy kódsort egyéni vizualizációjához:
A következő hőtérképet kapjuk.
A hőtérkép most már láthatóbban tükrözi a 2011 előtti értékeléseket: megfigyelhetjük a szezonális hatásokat (az év vége több vásárlást és így több értékelést is hoz), és azonosítani tudjuk a rendellenes hónapokat, például 2003 októberét és 2005 márciusát. Érdemes tovább vizsgálni. hogy meghatározzuk azoknak az anomáliáknak az okát.
Következtetés
A Data Wrangler egy kifejezetten ML adatgyűjtő és -előkészítő eszköz. Ebben a bejegyzésben bemutattuk, hogyan hajthat végre EDA-t és hogyan alakíthatja át gyorsan adatait a Data Wrangler által biztosított kódrészletek segítségével. Csak meg kell találnia egy részletet, be kell írnia a kódot, és be kell állítania a paramétereket, hogy megfeleljenek az adatkészletnek. Folytathatja az iterációt a szkripten összetettebb vizualizációk és átalakítások létrehozásához.
Ha többet szeretne megtudni a Data Wranglerről, lásd: Hozzon létre és használjon Data Wrangler Flow-t.
A szerzőkről
Nyikita Ivkin az Amazon SageMaker Data Wrangler alkalmazott tudósa.
Haider Naqvi az AWS megoldási építésze. Széles körű szoftverfejlesztési és vállalati architektúra tapasztalattal rendelkezik. Arra összpontosít, hogy az ügyfelek üzleti eredményeket érjenek el az AWS segítségével. Székhelye New Yorkban van.
Harish Rajagopalan az Amazon Web Services vezető megoldási építésze. A Harish vállalati ügyfelekkel dolgozik, és segíti őket felhőalapú utazásukban.
James Wu az AWS vezető AI/ML specialistája. Együttműködik az ügyfelekkel, hogy felgyorsítsa a felhőalapú utazást, és felgyorsítsa üzleti értékük realizálását. Ezen túlmenően James szenvedélyesen foglalkozik nagyméretű AI/ML megoldások fejlesztésével és skálázásával a különböző tartományokban. Mielőtt csatlakozott az AWS-hez, egy multidiszciplináris innovációs technológiai csapatot vezetett ML mérnökökkel és szoftverfejlesztőkkel a piac és a reklámipar egyik vezető globális cégénél.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Rólunk
- gyorsul
- hozzáférés
- Elérése
- át
- mellett
- Hirdetés
- Minden termék
- lehetővé teszi, hogy
- amazon
- Az Amazon Web Services
- elemzés
- alkalmazott
- építészet
- elérhető
- AWS
- Tengely
- mert
- előtt
- között
- beépített
- üzleti
- képességek
- Okoz
- táblázatok
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- felhő
- kód
- Oszlop
- Közös
- teljes
- bonyolult
- folytatódik
- ellenőrzések
- teremt
- készítette
- szokás
- Ügyfelek
- dátum
- adatelemzés
- bizonyítani
- igazolták
- Határozzuk meg
- fejlesztők
- fejlesztése
- Fejlesztés
- terjesztés
- domainek
- le-
- Csepp
- dinamika
- hatások
- lehetővé téve
- Mérnöki
- Mérnökök
- belép
- Vállalkozás
- példa
- Kivéve
- tapasztalat
- kiterjedt
- gyorsabb
- Funkció
- Végül
- Cég
- vezetéknév
- áramlási
- koncentrál
- következik
- következő
- ból ből
- funkció
- funkciók
- további
- Globális
- nagy
- Csoportok
- tekintettel
- hasznos
- segít
- Hogyan
- How To
- HTTPS
- azonosítani
- fontosság
- ipar
- Innováció
- Felület
- IT
- utazás
- Tart
- nagy
- TANUL
- tanulás
- Led
- vonal
- Lista
- gép
- gépi tanulás
- térkép
- március
- piacára
- Mérkőzés
- ML
- modell
- Hónap
- hónap
- több
- zene
- nevek
- New York
- szám
- Más
- átfogó
- szenvedélyes
- előadó
- játék
- Készít
- előző
- Termékek
- ad
- feltéve,
- biztosít
- Vásárlás
- vásárlások
- mennyiségi
- gyorsan
- Nyers
- nyilvántartások
- tükrözi
- Kritika
- Vélemények
- skálázás
- Tudós
- Szolgáltatások
- Egyszerű
- óta
- SIX
- szoftver
- szoftverfejlesztés
- Megoldások
- szakember
- kezdet
- statisztika
- tárolás
- tárolni
- cél
- csapat
- Technológia
- A
- ebből adódóan
- három
- idő
- szerszám
- felső
- Átalakítás
- transzformációk
- típusok
- használ
- érték
- különféle
- megjelenítés
- kötetek
- háló
- webes szolgáltatások
- WHO
- csodálatos
- művek
- érdemes
- írás
- X
- év
- év
- A te