Uporabniško določene funkcije Panda so zdaj na voljo v Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Spremljevalci: 0

Amazon SageMaker Data Wrangler skrajša čas za združevanje in pripravo podatkov za strojno učenje (ML) s tednov na minute. Z Data Wranglerjem lahko izbirate in povprašujete po podatkih s samo nekaj kliki, hitro preoblikujete podatke z več kot 300 vgrajenimi transformacijami podatkov in razumete svoje podatke z vgrajenimi vizualizacijami brez pisanja kode.

Poleg tega lahko ustvarite transformacije po meri edinstveno za vaše zahteve. Transformacije po meri vam omogočajo pisanje transformacij po meri z uporabo PySpark, Pandas ali SQL.

Data Wrangler zdaj podpira po meri Uporabniško definirana funkcija Panda (UDF), ki lahko učinkovito obdeluje velike nabore podatkov. Izbirate lahko med dvema načinoma Pandas UDF po meri: Pandas in Python. Oba načina zagotavljata učinkovito rešitev za obdelavo nizov podatkov, način, ki ga izberete, pa je odvisen od vaših želja.

V tej objavi prikazujemo, kako uporabiti novo transformacijo UDF Pandas v obeh načinih.

Pregled rešitev

V času tega pisanja lahko nabore podatkov uvozite v Data Wrangler iz Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShift, Databricks in Snowflake. Za to objavo uporabljamo Amazon S3 za shranjevanje 2014 Amazon pregleduje nabor podatkov.

Podatki imajo stolpec, imenovan reviewText ki vsebuje uporabniško ustvarjeno besedilo. Besedilo vsebuje tudi več ustavi besede, ki so običajne besede, ki ne zagotavljajo veliko informacij, kot so »a«, »an« in »the«. Odstranjevanje stop besed je običajen korak predprocesiranja v cevovodih za obdelavo naravnega jezika (NLP). Ustvarimo lahko funkcijo po meri za odstranitev stop besed iz ocen.

Ustvarite Pandas UDF transformacijo po meri

Sprehodimo se skozi postopek ustvarjanja dveh transformacij Data Wrangler po meri Pandas UDF z uporabo načinov Pandas in Python.

Prenos Nabor podatkov o pregledih digitalne glasbe in ga naložite v Amazon S3.
Odprto Amazon SageMaker Studio in ustvarite nov tok Data Wrangler.
Pod Uvozi podatke, izberite Amazon S3 in se pomaknite do lokacije nabora podatkov.
za Tip datoteke, izberite jsonl.

V tabeli mora biti prikazan predogled podatkov.

Izberite uvoz nadaljevati.
Ko so vaši podatki uvoženi, izberite znak plus poleg Vrste podatkov In izberite Dodaj preoblikovanje.
Izberite Preoblikovanje po meri.
V spustnem meniju Python (uporabniško definirana funkcija).

Zdaj ustvarimo svojo preobrazbo po meri, da odstranimo zaustavitvene besede.

Določite vhodni stolpec, izhodni stolpec, vrnjeno vrsto in način.

Naslednji primer uporablja način Pandas. To pomeni, da mora funkcija sprejeti in vrniti niz Pandas enake dolžine. Serijo Pandas si lahko predstavljate kot stolpec v tabeli ali kos stolpca. To je najzmogljivejši način Pandas UDF, ker lahko Panda vektorizira operacije v paketih vrednosti v nasprotju z eno po eno. The pd.Series tipski namigi so potrebni v načinu Pandas.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Če raje uporabljate čisti Python v nasprotju z API-jem Pandas, vam način Python omogoča, da določite čisto funkcijo Python, ki sprejme en argument in vrne eno samo vrednost. Naslednji primer je enakovreden prejšnji kodi Pandas v smislu izhoda. V načinu Python tipski namigi niso potrebni.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Izberite Dodaj da dodate svojo preobrazbo po meri.

zaključek

Data Wrangler ima več kot 300 vgrajenih transformacij, dodate pa lahko tudi prilagojene transformacije, edinstvene za vaše zahteve. V tej objavi smo pokazali, kako obdelati nabore podatkov z novo transformacijo UDF Pandas po meri Data Wrangler z uporabo načina Pandas in Python. Uporabite lahko kateri koli način glede na vaše želje. Če želite izvedeti več o Data Wranglerju, glejte Ustvarite in uporabite Data Wrangler Flow.

O avtorjih

Ben Harris je programski inženir z izkušnjami pri načrtovanju, uvajanju in vzdrževanju razširljivih podatkovnih cevovodov in rešitev strojnega učenja na različnih področjih. Ben je med drugim zgradil sisteme za zbiranje podatkov in označevanje, klasifikacijo slik in besedil, modeliranje od zaporedja do zaporedja, vdelavo in združevanje v gruče.

Haider Naqvi je arhitekt rešitev pri AWS. Ima bogate izkušnje z razvojem programske opreme in poslovne arhitekture. Osredotoča se na omogočanje strankam, da z AWS dosežejo poslovne rezultate. Živi v New Yorku.

Vishal Srivastava je tehnični vodja računa pri AWS. Z izkušnjami na področju razvoja programske opreme in analitike dela predvsem s sektorjem finančnih storitev in digitalnimi domačimi poslovnimi strankami ter podpira njihovo pot v oblaku. V prostem času z družino rad potuje.

Časovni žig: April 28, 2022

Več od Strojno učenje AWS

Ustvarite napovedi hladnega zagona za izdelke brez zgodovinskih podatkov z uporabo Amazon Forecast, ki je zdaj do 45 % bolj natančen PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ustvarite napovedi hladnega zagona za izdelke brez preteklih podatkov z uporabo Amazon Forecast, ki je zdaj do 45 % natančnejša

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1761594

Časovni žig: November 21, 2022

Lokalizirajte vsebino v več jezikov z uporabo storitev strojnega učenja AWS

Strojno učenje AWS

Izvorno vozlišče: 1279228

Časovni žig: April 25, 2022

Uporabniško definirane funkcije Panda so zdaj na voljo v Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Pregled rešitev

Ustvarite Pandas UDF transformacijo po meri

zaključek

O avtorjih

Več od Strojno učenje AWS

Ustvarite napovedi hladnega zagona za izdelke brez preteklih podatkov z uporabo Amazon Forecast, ki je zdaj do 45 % natančnejša

Lokalizirajte vsebino v več jezikov z uporabo storitev strojnega učenja AWS

2022H2 Povzetek lansiranja Amazon Texttract

Chronomics zazna rezultate testov za COVID-19 z oznakami po meri Amazon Rekognition

Optimizacija stroškov za Amazon SageMaker Canvas s samodejnim izklopom nedejavnih aplikacij | Spletne storitve Amazon

Ocenite velike jezikovne modele glede kakovosti in odgovornosti | Spletne storitve Amazon

Poenotena priprava podatkov, usposabljanje modela in uvedba z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot – 2. del

Demistifikacija strojnega učenja na robu skozi resnične primere uporabe

Zgradite robusten napovedovalec toksičnosti na podlagi besedila

Gostite transformatorske modele Hugging Face z Amazon SageMaker Serverless Inference

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun