Pandas brukerdefinerte funksjoner er nå tilgjengelige i Amazon SageMaker Data Wrangler

Publisert av Platon

Følgere: 0

Amazon SageMaker Data Wrangler reduserer tiden for å samle og forberede data for maskinlæring (ML) fra uker til minutter. Med Data Wrangler kan du velge og søke etter data med bare noen få klikk, raskt transformere data med over 300 innebygde datatransformasjoner og forstå dataene dine med innebygde visualiseringer uten å skrive noen kode.

I tillegg kan du opprette tilpassede transformasjoner unik for dine behov. Egendefinerte transformasjoner lar deg skrive tilpassede transformasjoner ved å bruke enten PySpark, Pandas eller SQL.

Data Wrangler støtter nå en tilpasset Pandas brukerdefinert funksjon (UDF) transformasjon som kan behandle store datasett effektivt. Du kan velge mellom to egendefinerte Pandas UDF-moduser: Pandas og Python. Begge modusene gir en effektiv løsning for å behandle datasett, og modusen du velger avhenger av dine preferanser.

I dette innlegget viser vi hvordan du bruker den nye Pandas UDF-transformasjonen i begge modusene.

Løsningsoversikt

Når dette skrives, kan du importere datasett til Data Wrangler fra Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks og Snowflake. For dette innlegget bruker vi Amazon S3 til å lagre 2014 Amazon vurderer datasett.

Dataene har en kolonne kalt reviewText som inneholder brukergenerert tekst. Teksten inneholder også flere stoppe ord, som er vanlige ord som ikke gir mye informasjon, for eksempel «en», «en» og «den». Fjerning av stoppord er et vanlig forbehandlingstrinn i rørledninger for naturlig språkbehandling (NLP). Vi kan lage en egendefinert funksjon for å fjerne stoppordene fra anmeldelsene.

Lag en tilpasset Pandas UDF-transformasjon

La oss gå gjennom prosessen med å lage to Data Wrangler-tilpassede Pandas UDF-transformasjoner ved å bruke Pandas- og Python-moduser.

Last ned Digital musikk anmeldelser datasett og last den opp til Amazon S3.
Åpen Amazon SageMaker Studio og lag en ny Data Wrangler-flyt.
Under Import datoer, velg Amazon S3 og naviger til datasettplasseringen.
Til Filtype, velg jsonl.

En forhåndsvisning av dataene skal vises i tabellen.

Velg Import å fortsette.
Etter at dataene dine er importert, velg plusstegnet ved siden av Datatyper Og velg Legg til transform.
Velg Tilpasset transformasjon.
På rullegardinmenyen, Python (brukerdefinert funksjon).

Nå lager vi vår egendefinerte transformasjon for å fjerne stoppord.

Spesifiser inndatakolonne, utdatakolonne, returtype og modus.

Følgende eksempel bruker Pandas-modus. Dette betyr at funksjonen skal akseptere og returnere en Pandas-serie av samme lengde. Du kan tenke på en Pandas-serie som en kolonne i en tabell eller en del av kolonnen. Dette er den mest effektive Pandas UDF-modus fordi Pandas kan vektorisere operasjoner på tvers av grupper med verdier i motsetning til én om gangen. De pd.Series typehint er nødvendig i Pandas-modus.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Hvis du foretrekker å bruke ren Python i motsetning til Pandas API, lar Python-modus deg spesifisere en ren Python-funksjon som aksepterer et enkelt argument og returnerer en enkelt verdi. Følgende eksempel tilsvarer den foregående Pandas-koden når det gjelder utdata. Typehint er ikke nødvendig i Python-modus.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Velg Legg til for å legge til din egendefinerte transformasjon.

konklusjonen

Data Wrangler har over 300 innebygde transformasjoner, og du kan også legge til tilpassede transformasjoner som er unike for dine behov. I dette innlegget demonstrerte vi hvordan man behandler datasett med Data Wranglers nye tilpassede Pandas UDF-transformasjon, ved å bruke både Pandas- og Python-modus. Du kan bruke begge modusene basert på dine preferanser. For å lære mer om Data Wrangler, se Opprett og bruk en Data Wrangler-flyt.

Om forfatterne

Ben Harris er en programvareingeniør med erfaring med å designe, distribuere og vedlikeholde skalerbare datapipelines og maskinlæringsløsninger på tvers av en rekke domener. Ben har bygget systemer for datainnsamling og merking, bilde- og tekstklassifisering, sekvens-til-sekvens-modellering, innebygging og clustering, blant annet.

Haider Naqvi er løsningsarkitekt hos AWS. Han har omfattende erfaring med programvareutvikling og bedriftsarkitektur. Han fokuserer på å gjøre det mulig for kunder å oppnå forretningsresultater med AWS. Han er basert i New York.

Vishal Srivastava er Technical Account Manager hos AWS. Med bakgrunn fra programvareutvikling og analyse jobber han primært med finanssektoren og digitale innfødte bedriftskunder og støtter deres skyreise. På fritiden elsker han å reise med familien.

Tidstempel: April 28, 2022

Mer fra AWS maskinlæring

Generer kaldstartprognoser for produkter uten historiske data ved å bruke Amazon Forecast, nå opptil 45 % mer nøyaktig PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Generer kaldstartprognoser for produkter uten historiske data ved hjelp av Amazon Forecast, nå opptil 45 % mer nøyaktig

Kildeklynge:

AWS maskinlæring

Kilde node: 1761594

Tidstempel: November 21, 2022

Lokaliser innhold til flere språk ved hjelp av AWS maskinlæringstjenester

AWS maskinlæring

Kilde node: 1279228

Tidstempel: April 25, 2022

Pandas brukerdefinerte funksjoner er nå tilgjengelig i Amazon SageMaker Data Wrangler

Publisert av Platon

Løsningsoversikt

Lag en tilpasset Pandas UDF-transformasjon

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Generer kaldstartprognoser for produkter uten historiske data ved hjelp av Amazon Forecast, nå opptil 45 % mer nøyaktig

Lokaliser innhold til flere språk ved hjelp av AWS maskinlæringstjenester

2022H2 Amazon Textract lanseringssammendrag

Chronomics oppdager COVID-19-testresultater med Amazon Rekognition Custom Labels

Optimalisering av kostnader for Amazon SageMaker Canvas med automatisk avslutning av inaktive apper | Amazon Web Services

Vurdere store språkmodeller for kvalitet og ansvar | Amazon Web Services

Samlet dataforberedelse, modellopplæring og distribusjon med Amazon SageMaker Data Wrangler og Amazon SageMaker Autopilot – Del 2

Avmystifiserer maskinlæring på kanten gjennom reelle brukstilfeller

Bygg en robust tekstbasert toksisitetsprediktor

Vær vert for Hugging Face-transformatormodeller som bruker Amazon SageMaker Serverless Inference

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn