Amazon SageMaker Data Wrangler hetekről percekre csökkenti az adatok gépi tanuláshoz (ML) való összesítésének és előkészítésének idejét. A Data Wrangler segítségével néhány kattintással kiválaszthatja és lekérdezheti az adatokat, gyorsan átalakíthatja az adatokat több mint 300 beépített adatátalakítással, és kód írása nélkül megértheti adatait beépített vizualizációkkal.
Ezenkívül létrehozhat egyedi átalakítások egyedi igényei szerint. Az egyéni átalakítások lehetővé teszik egyéni átalakítások írását PySpark, Pandas vagy SQL használatával.
A Data Wrangler mostantól támogatja az egyéni Pandas felhasználó által definiált funkció (UDF) transzformáció, amely nagy adatkészleteket képes hatékonyan feldolgozni. Két egyedi Pandas UDF mód közül választhat: Pandas és Python. Mindkét mód hatékony megoldást kínál az adatkészletek feldolgozására, és a választott mód az Ön preferenciáitól függ.
Ebben a bejegyzésben bemutatjuk, hogyan kell használni az új Pandas UDF transzformációt bármelyik módban.
Megoldás áttekintése
Ennek az írásnak az idején importálhat adatkészleteket a Data Wranglerbe innen Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, Databricks és Snowflake. Ehhez a bejegyzéshez az Amazon S3-at használjuk a 2014-es adatok tárolására Az Amazon áttekinti az adatkészletet.
Az adatoknak van egy oszlopa, melynek neve reviewText
felhasználó által generált szöveget tartalmaz. A szövegben több is szerepel hagyja abba a szavakat, amelyek gyakori szavak, amelyek nem adnak sok információt, például „a”, „an” és „the”. A stopszavak eltávolítása a természetes nyelvi feldolgozó (NLP) folyamatok gyakori előfeldolgozási lépése. Létrehozhatunk egyéni függvényt a stopszavak eltávolítására a véleményekből.
Hozzon létre egyéni Pandas UDF transzformációt
Nézzük meg a Data Wrangler két egyedi Pandas UDF transzformációjának létrehozásának folyamatát Pandas és Python módok használatával.
- Töltse le a Digital Music vélemények adatkészlet és töltse fel az Amazon S3-ra.
- Nyisd ki Amazon SageMaker Studio és hozzon létre egy új Data Wrangler folyamatot.
- Alatt Adatok importálása, választ Amazon S3 és navigáljon az adatkészlet helyére.
- A Fájltípus, választ jsonl.
Az adatok előnézetét meg kell jeleníteni a táblázatban.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import A folytatáshoz.
- Az adatok importálása után válassza a mellette lévő pluszjelet Adattípusok És válasszon Transzformáció hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Egyedi átalakítás.
- A legördülő menüben, Python (felhasználó által meghatározott függvény).
Most létrehozzuk egyéni transzformációnkat a stopszavak eltávolításához.
- Adja meg a bemeneti oszlopot, a kimeneti oszlopot, a visszatérési típust és a módot.
A következő példa Panda módot használ. Ez azt jelenti, hogy a függvénynek el kell fogadnia és vissza kell adnia egy azonos hosszúságú Pandas sorozatot. A Pandas sorozatot úgy is felfoghatja, mint egy táblázat oszlopát vagy az oszlop egy részét. Ez a legteljesítményesebb Panda UDF mód, mivel a Pandák a műveleteket értékkötegek között vektorizálhatják, nem pedig egyenként. A pd.Series
típusú tippekre van szükség Panda módban.
Ha a Pandas API helyett inkább a tiszta Pythont szeretné használni, a Python mód lehetővé teszi egy tiszta Python-függvény megadását, amely egyetlen argumentumot fogad el, és egyetlen értéket ad vissza. A következő példa a kimenet szempontjából egyenértékű az előző Pandas kóddal. Python módban nincs szükség tippekre.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad az egyéni átalakítás hozzáadásához.
Következtetés
A Data Wrangler több mint 300 beépített átalakítást tartalmaz, és egyedi átalakításokat is hozzáadhat az Ön igényeihez. Ebben a bejegyzésben bemutattuk, hogyan dolgozhatunk fel adatkészleteket a Data Wrangler új egyedi Pandas UDF transzformációjával, mind Pandas, mind Python módban. Bármelyik módot használhatja saját ízlése szerint. Ha többet szeretne megtudni a Data Wranglerről, lásd: Hozzon létre és használjon Data Wrangler Flow-t.
A szerzőkről
Ben Harris egy szoftvermérnök, akinek tapasztalata van méretezhető adatfolyamok és gépi tanulási megoldások tervezésében, üzembe helyezésében és karbantartásában számos területen. Ben többek között adatgyűjtési és címkézési, kép- és szövegosztályozási, szekvencia-szekvencia modellezési, beágyazási és klaszterezési rendszereket épített ki.
Haider Naqvi az AWS megoldási építésze. Széles körű szoftverfejlesztési és vállalati architektúra tapasztalattal rendelkezik. Arra összpontosít, hogy az ügyfelek üzleti eredményeket érjenek el az AWS segítségével. Székhelye New Yorkban van.
Vishal Srivastava műszaki ügyfélmenedzser az AWS-nél. Szoftverfejlesztési és analitikai háttérrel elsősorban a pénzügyi szolgáltatási szektorban és a digitális natív üzleti ügyfelekkel dolgozik, és támogatja felhőalapú utazásukat. Szabadidejében szívesen utazik családjával.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Rólunk
- Fiók
- át
- amazon
- között
- analitika
- api
- építészet
- elérhető
- AWS
- háttér
- beépített
- üzleti
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- besorolás
- felhő
- kód
- gyűjtemény
- Oszlop
- Közös
- tartalmaz
- teremt
- létrehozása
- szokás
- Ügyfelek
- dátum
- bizonyítani
- igazolták
- függ
- bevezetéséhez
- tervezés
- Fejlesztés
- digitális
- domainek
- hatékony
- eredményesen
- lehetővé téve
- mérnök
- Vállalkozás
- példa
- tapasztalat
- kiterjedt
- család
- pénzügyi
- pénzügyi szolgáltatások
- áramlási
- koncentrál
- következő
- Ingyenes
- funkció
- Hogyan
- How To
- HTTPS
- kép
- információ
- bemenet
- IT
- csatlakozik
- címkézés
- nyelv
- nagy
- TANUL
- tanulás
- elhelyezkedés
- gép
- gépi tanulás
- menedzser
- Mérkőzés
- ML
- több
- a legtöbb
- zene
- Természetes
- New York
- Művelet
- Készít
- Preview
- folyamat
- feldolgozás
- ad
- Quick
- gyorsan
- kötelező
- követelmények
- visszatérés
- Visszatér
- Vélemények
- skálázható
- szektor
- Series of
- Szolgáltatások
- Egyszerű
- szoftver
- szoftverfejlesztés
- Software Engineer
- megoldások
- Megoldások
- terek
- tárolás
- tárolni
- Támogatja
- Systems
- Műszaki
- Keresztül
- idő
- jelképes
- tokenek
- Átalakítás
- utazás
- megért
- egyedi
- használ
- érték
- fajta
- nélkül
- szavak
- művek
- írás