Amazon SageMaker Data Wrangler skrajša čas za združevanje in pripravo podatkov za strojno učenje (ML) s tednov na minute. Z Data Wranglerjem lahko izbirate in povprašujete po podatkih s samo nekaj kliki, hitro preoblikujete podatke z več kot 300 vgrajenimi transformacijami podatkov in razumete svoje podatke z vgrajenimi vizualizacijami brez pisanja kode.
Poleg tega lahko ustvarite transformacije po meri edinstveno za vaše zahteve. Transformacije po meri vam omogočajo pisanje transformacij po meri z uporabo PySpark, Pandas ali SQL.
Data Wrangler zdaj podpira po meri Uporabniško definirana funkcija Panda (UDF), ki lahko učinkovito obdeluje velike nabore podatkov. Izbirate lahko med dvema načinoma Pandas UDF po meri: Pandas in Python. Oba načina zagotavljata učinkovito rešitev za obdelavo nizov podatkov, način, ki ga izberete, pa je odvisen od vaših želja.
V tej objavi prikazujemo, kako uporabiti novo transformacijo UDF Pandas v obeh načinih.
Pregled rešitev
V času tega pisanja lahko nabore podatkov uvozite v Data Wrangler iz Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShift, Databricks in Snowflake. Za to objavo uporabljamo Amazon S3 za shranjevanje 2014 Amazon pregleduje nabor podatkov.
Podatki imajo stolpec, imenovan reviewText
ki vsebuje uporabniško ustvarjeno besedilo. Besedilo vsebuje tudi več ustavi besede, ki so običajne besede, ki ne zagotavljajo veliko informacij, kot so »a«, »an« in »the«. Odstranjevanje stop besed je običajen korak predprocesiranja v cevovodih za obdelavo naravnega jezika (NLP). Ustvarimo lahko funkcijo po meri za odstranitev stop besed iz ocen.
Ustvarite Pandas UDF transformacijo po meri
Sprehodimo se skozi postopek ustvarjanja dveh transformacij Data Wrangler po meri Pandas UDF z uporabo načinov Pandas in Python.
- Prenos Nabor podatkov o pregledih digitalne glasbe in ga naložite v Amazon S3.
- Odprto Amazon SageMaker Studio in ustvarite nov tok Data Wrangler.
- Pod Uvozi podatke, izberite Amazon S3 in se pomaknite do lokacije nabora podatkov.
- za Tip datoteke, izberite jsonl.
V tabeli mora biti prikazan predogled podatkov.
- Izberite uvoz nadaljevati.
- Ko so vaši podatki uvoženi, izberite znak plus poleg Vrste podatkov In izberite Dodaj preoblikovanje.
- Izberite Preoblikovanje po meri.
- V spustnem meniju Python (uporabniško definirana funkcija).
Zdaj ustvarimo svojo preobrazbo po meri, da odstranimo zaustavitvene besede.
- Določite vhodni stolpec, izhodni stolpec, vrnjeno vrsto in način.
Naslednji primer uporablja način Pandas. To pomeni, da mora funkcija sprejeti in vrniti niz Pandas enake dolžine. Serijo Pandas si lahko predstavljate kot stolpec v tabeli ali kos stolpca. To je najzmogljivejši način Pandas UDF, ker lahko Panda vektorizira operacije v paketih vrednosti v nasprotju z eno po eno. The pd.Series
tipski namigi so potrebni v načinu Pandas.
Če raje uporabljate čisti Python v nasprotju z API-jem Pandas, vam način Python omogoča, da določite čisto funkcijo Python, ki sprejme en argument in vrne eno samo vrednost. Naslednji primer je enakovreden prejšnji kodi Pandas v smislu izhoda. V načinu Python tipski namigi niso potrebni.
- Izberite Dodaj da dodate svojo preobrazbo po meri.
zaključek
Data Wrangler ima več kot 300 vgrajenih transformacij, dodate pa lahko tudi prilagojene transformacije, edinstvene za vaše zahteve. V tej objavi smo pokazali, kako obdelati nabore podatkov z novo transformacijo UDF Pandas po meri Data Wrangler z uporabo načina Pandas in Python. Uporabite lahko kateri koli način glede na vaše želje. Če želite izvedeti več o Data Wranglerju, glejte Ustvarite in uporabite Data Wrangler Flow.
O avtorjih
Ben Harris je programski inženir z izkušnjami pri načrtovanju, uvajanju in vzdrževanju razširljivih podatkovnih cevovodov in rešitev strojnega učenja na različnih področjih. Ben je med drugim zgradil sisteme za zbiranje podatkov in označevanje, klasifikacijo slik in besedil, modeliranje od zaporedja do zaporedja, vdelavo in združevanje v gruče.
Haider Naqvi je arhitekt rešitev pri AWS. Ima bogate izkušnje z razvojem programske opreme in poslovne arhitekture. Osredotoča se na omogočanje strankam, da z AWS dosežejo poslovne rezultate. Živi v New Yorku.
Vishal Srivastava je tehnični vodja računa pri AWS. Z izkušnjami na področju razvoja programske opreme in analitike dela predvsem s sektorjem finančnih storitev in digitalnimi domačimi poslovnimi strankami ter podpira njihovo pot v oblaku. V prostem času z družino rad potuje.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- O meni
- Račun
- čez
- Amazon
- med
- analitika
- API
- Arhitektura
- Na voljo
- AWS
- ozadje
- vgrajeno
- poslovni
- Izberite
- Razvrstitev
- Cloud
- Koda
- zbirka
- Stolpec
- Skupno
- Vsebuje
- ustvarjajo
- Ustvarjanje
- po meri
- Stranke, ki so
- datum
- izkazati
- Dokazano
- odvisno
- uvajanja
- oblikovanje
- Razvoj
- digitalni
- domen
- učinkovite
- učinkovito
- omogočanje
- inženir
- Podjetje
- Primer
- izkušnje
- obsežen
- družina
- finančna
- finančne storitve
- Pretok
- Osredotoča
- po
- brezplačno
- funkcija
- Kako
- Kako
- HTTPS
- slika
- Podatki
- vhod
- IT
- Pridružuje
- označevanje
- jezik
- velika
- UČITE
- učenje
- kraj aktivnosti
- stroj
- strojno učenje
- upravitelj
- Stave
- ML
- več
- Najbolj
- Glasba
- naravna
- NY
- operacije
- Pripravimo
- predogled
- Postopek
- obravnavati
- zagotavljajo
- Hitro
- hitro
- obvezna
- Zahteve
- vrnitev
- vrne
- Mnenja
- razširljive
- sektor
- Serija
- Storitve
- Enostavno
- Software
- Razvoj programske opreme
- Software Engineer
- Rešitev
- rešitve
- prostori
- shranjevanje
- trgovina
- Podpira
- sistemi
- tehnični
- skozi
- čas
- žeton
- Boni
- Transform
- potovanja
- razumeli
- edinstven
- uporaba
- vrednost
- raznolikost
- brez
- besede
- deluje
- pisanje