Amazon SageMaker Data Wrangler vähendab masinõppeks (ML) andmete koondamiseks ja ettevalmistamiseks kuluvat aega nädalatelt minutitele. Data Wrangleri abil saate vaid mõne klõpsuga andmeid valida ja päringuid teha, andmeid kiiresti teisendada enam kui 300 sisseehitatud andmeteisendusega ja mõista oma andmeid sisseehitatud visualiseeringute abil ilma koodi kirjutamata.
Lisaks saate luua kohandatud teisendused ainulaadne teie nõudmistele. Kohandatud teisendused võimaldavad teil kirjutada kohandatud teisendusi kas PySparki, Pandase või SQL-i abil.
Data Wrangler toetab nüüd kohandatud funktsiooni Panda kasutaja määratud funktsioon (UDF) teisendus, mis suudab tõhusalt töödelda suuri andmekogumeid. Saate valida kahe kohandatud Panda UDF-i režiimi vahel: Pandas ja Python. Mõlemad režiimid pakuvad tõhusat lahendust andmekogumite töötlemiseks ja teie valitud režiim sõltub teie eelistustest.
Selles postituses näitame, kuidas kasutada uut Panda UDF-i teisendust mõlemas režiimis.
Lahenduse ülevaade
Selle kirjutamise ajal saate andmekogumeid Data Wranglerisse importida Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane nihe, Databricks ja Snowflake. Selle postituse jaoks kasutame 3. aasta salvestamiseks Amazon S2014 Amazoni arvustuste andmestik.
Andmetel on veerg nimega reviewText
mis sisaldab kasutaja loodud teksti. Tekst sisaldab ka mitmeid lõpeta sõnad, mis on levinud sõnad, mis ei anna palju teavet, nt "a", "an" ja "the". Stoppsõnade eemaldamine on loomuliku keele töötlemise (NLP) torujuhtmetes tavaline eeltöötlusetapp. Saame luua kohandatud funktsiooni stop-sõnade eemaldamiseks arvustustest.
Looge kohandatud Panda UDF-i teisendus
Vaatame läbi kahe Data Wrangleri kohandatud Panda UDF-i teisenduse loomise protsessi, kasutades Pandase ja Pythoni režiime.
- Lae alla Digital Music arvustuste andmestik ja laadige see Amazon S3-sse.
- avatud Amazon SageMaker Studio ja looge uus Data Wrangleri voog.
- alla Andmete importimine, vali Amazon S3 ja navigeerige andmestiku asukohta.
- eest Faili tüüp, vali jsonl.
Tabelis tuleks kuvada andmete eelvaade.
- Vali Import jätkama.
- Pärast andmete importimist valige kõrval olev plussmärk Andmetüübid Ja vali Lisa teisendus.
- Vali Kohandatud teisendus.
- rippmenüüst Python (kasutaja määratud funktsioon).
Nüüd loome stoppsõnade eemaldamiseks kohandatud teisenduse.
- Määrake oma sisendveerg, väljundi veerg, tagastamise tüüp ja režiim.
Järgmises näites kasutatakse Panda režiimi. See tähendab, et funktsioon peaks aktsepteerima ja tagastama sama pikkusega Panda seeria. Pandade seeriat võib pidada tabeli veeruks või veeru osaks. See on Pandade kõige tõhusam UDF-režiim, kuna Pandad saavad vektoriseerida toiminguid väärtuspartiide kaupa, mitte ükshaaval. The pd.Series
Panda režiimis on nõutavad tüüpi vihjed.
Kui eelistate Pandase API asemel kasutada puhast Pythoni, võimaldab Pythoni režiim määrata puhta Pythoni funktsiooni, mis aktsepteerib ühe argumendi ja tagastab ühe väärtuse. Järgmine näide on väljundi poolest samaväärne eelmise Panda koodiga. Pythoni režiimis pole tüübivihjed vajalikud.
- Vali lisama kohandatud teisenduse lisamiseks.
Järeldus
Data Wrangleril on üle 300 sisseehitatud teisenduse ja saate lisada ka kohandatud teisendusi, mis vastavad teie vajadustele. Selles postituses näitasime, kuidas töödelda andmekogumeid Data Wrangleri uue kohandatud Panda UDF-i teisendusega, kasutades nii Pandase kui ka Pythoni režiime. Saate kasutada mõlemat režiimi vastavalt oma eelistustele. Data Wrangleri kohta lisateabe saamiseks vaadake Looge ja kasutage Data Wrangleri voogu.
Autoritest
Ben Harris on tarkvarainsener, kellel on paljudes valdkondades skaleeritavate andmekanalite ja masinõppelahenduste kavandamise, juurutamise ja hooldamise kogemus. Ben on muuhulgas loonud süsteeme andmete kogumiseks ja märgistamiseks, piltide ja tekstide klassifitseerimiseks, järjestusest järjestusteks modelleerimiseks, manustamiseks ja klastriteks.
Haider Naqvi on AWS-i lahenduste arhitekt. Tal on ulatuslik tarkvaraarenduse ja ettevõttearhitektuuri kogemus. Ta keskendub sellele, et võimaldada klientidel AWS-iga äritulemusi saavutada. Ta asub New Yorgist väljas.
Vishal Srivastava on AWS-i tehniline kontohaldur. Tarkvaraarenduse ja -analüütika taustaga töötab ta peamiselt finantsteenuste sektori ja digitaalsete äriklientidega ning toetab nende pilveteekonda. Vabal ajal armastab ta perega reisida.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- MEIST
- konto
- üle
- Amazon
- vahel
- analytics
- API
- arhitektuur
- saadaval
- AWS
- tagapõhi
- sisseehitatud
- äri
- Vali
- klassifikatsioon
- Cloud
- kood
- kogumine
- Veerg
- ühine
- sisaldab
- looma
- loomine
- tava
- Kliendid
- andmed
- näitama
- Näidatud
- sõltub
- juurutamine
- projekteerimine
- & Tarkvaraarendus
- digitaalne
- Domeenid
- tõhus
- tõhusalt
- võimaldades
- insener
- ettevõte
- näide
- kogemus
- ulatuslik
- pere
- finants-
- finantsteenused
- voog
- keskendub
- Järel
- tasuta
- funktsioon
- Kuidas
- Kuidas
- HTTPS
- pilt
- info
- sisend
- IT
- Liita
- märgistamine
- keel
- suur
- Õppida
- õppimine
- liising
- masin
- masinõpe
- juht
- Vastama
- ML
- rohkem
- kõige
- muusika
- Natural
- New York
- Operations
- Valmistama
- Eelvaade
- protsess
- töötlemine
- anda
- Kiire
- kiiresti
- nõutav
- Nõuded
- tagasipöördumine
- Tulu
- Arvustused
- skaalautuvia
- sektor
- Seeria
- Teenused
- lihtne
- tarkvara
- tarkvaraarenduse
- Tarkvara insener
- lahendus
- Lahendused
- tühikud
- ladustamine
- salvestada
- Toetab
- süsteemid
- Tehniline
- Läbi
- aeg
- sümboolne
- märgid
- Muutma
- reisima
- mõistma
- ainulaadne
- kasutama
- väärtus
- sort
- ilma
- sõnad
- töötab
- kirjutamine