Pandas användardefinierade funktioner är nu tillgängliga i Amazon SageMaker Data Wrangler

Återutgiven av Platon

anhängare: 0

Amazon SageMaker Data Wrangler minskar tiden för att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter. Med Data Wrangler kan du välja och fråga data med bara några få klick, snabbt transformera data med över 300 inbyggda datatransformationer och förstå dina data med inbyggda visualiseringar utan att skriva någon kod.

Dessutom kan du skapa anpassade transformationer unik för dina krav. Med anpassade transformationer kan du skriva anpassade transformationer med antingen PySpark, Pandas eller SQL.

Data Wrangler stöder nu en anpassad Pandas användardefinierad funktion (UDF) transform som kan bearbeta stora datamängder effektivt. Du kan välja mellan två anpassade Pandas UDF-lägen: Pandas och Python. Båda lägena ger en effektiv lösning för att bearbeta datamängder, och vilket läge du väljer beror på dina preferenser.

I det här inlägget visar vi hur man använder den nya Pandas UDF-transformen i båda lägena.

Lösningsöversikt

När detta skrivs kan du importera datamängder till Data Wrangler från Amazon enkel lagringstjänst (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks och Snowflake. För det här inlägget använder vi Amazon S3 för att lagra 2014 Amazon recensioner dataset.

Data har en kolumn som kallas reviewText som innehåller användargenererad text. Texten innehåller också flera stoppa ord, som är vanliga ord som inte ger mycket information, som "a", "an" och "the." Borttagning av stoppord är ett vanligt förbearbetningssteg i pipelines för naturlig språkbehandling (NLP). Vi kan skapa en anpassad funktion för att ta bort stopporden från recensionerna.

Skapa en anpassad Pandas UDF-transform

Låt oss gå igenom processen att skapa två Data Wrangler anpassade Pandas UDF-transformationer med Pandas och Python-lägen.

ladda ner Digital Music recensioner dataset och ladda upp den till Amazon S3.
Öppen Amazon SageMaker Studio och skapa ett nytt Data Wrangler-flöde.
Enligt Importera datumväljer Amazon S3 och navigera till datauppsättningsplatsen.
För Filtypväljer jsonl.

En förhandsgranskning av data bör visas i tabellen.

Välja Importera att fortsätta.
När din data har importerats väljer du plustecknet bredvid Datatyper Och välj Lägg till transform.
Välja Anpassad transformation.
På rullgardinsmenyn, Python (användardefinierad funktion).

Nu skapar vi vår anpassade transformation för att ta bort stoppord.

Ange din inmatningskolumn, utdatakolumn, returtyp och läge.

Följande exempel använder Pandas-läget. Detta betyder att funktionen ska acceptera och returnera en Pandas-serie av samma längd. Du kan tänka på en Pandas-serie som en kolumn i en tabell eller en del av kolumnen. Detta är det mest presterande Pandas UDF-läget eftersom Pandas kan vektorisera operationer över batcher av värden i motsats till ett i taget. De pd.Series typtips krävs i Pandas-läge.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Om du föredrar att använda ren Python i motsats till Pandas API, låter Python-läget dig ange en ren Python-funktion som accepterar ett enda argument och returnerar ett enda värde. Följande exempel är ekvivalent med föregående Pandas-kod när det gäller utdata. Typtips krävs inte i Python-läge.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Välja Lägg till för att lägga till din anpassade transformation.

Slutsats

Data Wrangler har över 300 inbyggda transformationer, och du kan också lägga till anpassade transformationer som är unika för dina krav. I det här inlägget demonstrerade vi hur man bearbetar datauppsättningar med Data Wranglers nya anpassade Pandas UDF-transform, med både Pandas och Python-lägen. Du kan använda båda lägena baserat på dina önskemål. För att lära dig mer om Data Wrangler, se Skapa och använd ett Data Wrangler-flöde.

Om författarna

Ben Harris är en mjukvaruingenjör med erfarenhet av att designa, distribuera och underhålla skalbara datapipelines och maskininlärningslösningar över en mängd olika domäner. Ben har byggt system för datainsamling och märkning, bild- och textklassificering, sekvens-till-sekvens-modellering, inbäddning och klustring, bland annat.

Haider Naqvi är lösningsarkitekt på AWS. Han har omfattande erfarenhet av mjukvaruutveckling och företagsarkitektur. Han fokuserar på att göra det möjligt för kunder att uppnå affärsresultat med AWS. Han är baserad från New York.

Vishal Srivastava är Technical Account Manager på AWS. Med en bakgrund inom mjukvaruutveckling och analys arbetar han främst med finansiella tjänster och digitala företagskunder och stödjer deras molnresa. På fritiden älskar han att resa med sin familj.

Tidsstämpel: 28 april 2022

Mer från AWS maskininlärning

Generera kallstartsprognoser för produkter utan historisk data med hjälp av Amazon Forecast, nu upp till 45 % mer exakt PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Generera kallstartsprognoser för produkter utan historisk data med Amazon Forecast, nu upp till 45 % mer exakt

Källkluster:

AWS maskininlärning

Källnod: 1761594

Tidsstämpel: November 21, 2022

Lokalisera innehåll till flera språk med hjälp av AWS maskininlärningstjänster

AWS maskininlärning

Källnod: 1279228

Tidsstämpel: April 25, 2022

Pandas användardefinierade funktioner är nu tillgängliga i Amazon SageMaker Data Wrangler

Återutgiven av Platon

Lösningsöversikt

Skapa en anpassad Pandas UDF-transform

Slutsats

Om författarna

Mer från AWS maskininlärning

Generera kallstartsprognoser för produkter utan historisk data med Amazon Forecast, nu upp till 45 % mer exakt

Lokalisera innehåll till flera språk med hjälp av AWS maskininlärningstjänster

2022H2 Amazon Textract lanseringssammanfattning

Chronomics upptäcker COVID-19-testresultat med Amazon Rekognition Custom Labels

Optimera kostnader för Amazon SageMaker Canvas med automatisk avstängning av lediga appar | Amazon webbtjänster

Utvärdera stora språkmodeller för kvalitet och ansvar | Amazon webbtjänster

Enhetlig dataförberedelse, modellutbildning och implementering med Amazon SageMaker Data Wrangler och Amazon SageMaker Autopilot – Del 2

Avmystifiera maskininlärning vid kanten genom verkliga användningsfall

Bygg en robust textbaserad toxicitetsprediktor

Värd för Hugging Face-transformatormodeller med Amazon SageMaker Serverless Inference

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto