Amazon SageMaker Data Wrangler minskar tiden för att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter. Med Data Wrangler kan du välja och fråga data med bara några få klick, snabbt transformera data med över 300 inbyggda datatransformationer och förstå dina data med inbyggda visualiseringar utan att skriva någon kod.
Dessutom kan du skapa anpassade transformationer unik för dina krav. Med anpassade transformationer kan du skriva anpassade transformationer med antingen PySpark, Pandas eller SQL.
Data Wrangler stöder nu en anpassad Pandas användardefinierad funktion (UDF) transform som kan bearbeta stora datamängder effektivt. Du kan välja mellan två anpassade Pandas UDF-lägen: Pandas och Python. Båda lägena ger en effektiv lösning för att bearbeta datamängder, och vilket läge du väljer beror på dina preferenser.
I det här inlägget visar vi hur man använder den nya Pandas UDF-transformen i båda lägena.
Lösningsöversikt
När detta skrivs kan du importera datamängder till Data Wrangler från Amazon enkel lagringstjänst (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks och Snowflake. För det här inlägget använder vi Amazon S3 för att lagra 2014 Amazon recensioner dataset.
Data har en kolumn som kallas reviewText
som innehåller användargenererad text. Texten innehåller också flera stoppa ord, som är vanliga ord som inte ger mycket information, som "a", "an" och "the." Borttagning av stoppord är ett vanligt förbearbetningssteg i pipelines för naturlig språkbehandling (NLP). Vi kan skapa en anpassad funktion för att ta bort stopporden från recensionerna.
Skapa en anpassad Pandas UDF-transform
Låt oss gå igenom processen att skapa två Data Wrangler anpassade Pandas UDF-transformationer med Pandas och Python-lägen.
- ladda ner Digital Music recensioner dataset och ladda upp den till Amazon S3.
- Öppen Amazon SageMaker Studio och skapa ett nytt Data Wrangler-flöde.
- Enligt Importera datumväljer Amazon S3 och navigera till datauppsättningsplatsen.
- För Filtypväljer jsonl.
En förhandsgranskning av data bör visas i tabellen.
- Välja Importera att fortsätta.
- När din data har importerats väljer du plustecknet bredvid Datatyper Och välj Lägg till transform.
- Välja Anpassad transformation.
- På rullgardinsmenyn, Python (användardefinierad funktion).
Nu skapar vi vår anpassade transformation för att ta bort stoppord.
- Ange din inmatningskolumn, utdatakolumn, returtyp och läge.
Följande exempel använder Pandas-läget. Detta betyder att funktionen ska acceptera och returnera en Pandas-serie av samma längd. Du kan tänka på en Pandas-serie som en kolumn i en tabell eller en del av kolumnen. Detta är det mest presterande Pandas UDF-läget eftersom Pandas kan vektorisera operationer över batcher av värden i motsats till ett i taget. De pd.Series
typtips krävs i Pandas-läge.
Om du föredrar att använda ren Python i motsats till Pandas API, låter Python-läget dig ange en ren Python-funktion som accepterar ett enda argument och returnerar ett enda värde. Följande exempel är ekvivalent med föregående Pandas-kod när det gäller utdata. Typtips krävs inte i Python-läge.
- Välja Lägg till för att lägga till din anpassade transformation.
Slutsats
Data Wrangler har över 300 inbyggda transformationer, och du kan också lägga till anpassade transformationer som är unika för dina krav. I det här inlägget demonstrerade vi hur man bearbetar datauppsättningar med Data Wranglers nya anpassade Pandas UDF-transform, med både Pandas och Python-lägen. Du kan använda båda lägena baserat på dina önskemål. För att lära dig mer om Data Wrangler, se Skapa och använd ett Data Wrangler-flöde.
Om författarna
Ben Harris är en mjukvaruingenjör med erfarenhet av att designa, distribuera och underhålla skalbara datapipelines och maskininlärningslösningar över en mängd olika domäner. Ben har byggt system för datainsamling och märkning, bild- och textklassificering, sekvens-till-sekvens-modellering, inbäddning och klustring, bland annat.
Haider Naqvi är lösningsarkitekt på AWS. Han har omfattande erfarenhet av mjukvaruutveckling och företagsarkitektur. Han fokuserar på att göra det möjligt för kunder att uppnå affärsresultat med AWS. Han är baserad från New York.
Vishal Srivastava är Technical Account Manager på AWS. Med en bakgrund inom mjukvaruutveckling och analys arbetar han främst med finansiella tjänster och digitala företagskunder och stödjer deras molnresa. På fritiden älskar han att resa med sin familj.
- Myntsmart. Europas bästa bitcoin- och kryptobörs.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. FRI TILLGÅNG.
- CryptoHawk. Altcoin radar. Gratis provperiod.
- Källa: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Om oss
- Konto
- tvärs
- amason
- bland
- analytics
- api
- arkitektur
- tillgänglig
- AWS
- bakgrund
- inbyggd
- företag
- Välja
- klassificering
- cloud
- koda
- samling
- Kolumn
- Gemensam
- innehåller
- skapa
- Skapa
- beställnings
- Kunder
- datum
- demonstrera
- demonstreras
- beror
- utplacera
- design
- Utveckling
- digital
- domäner
- effektiv
- effektivt
- möjliggör
- ingenjör
- Företag
- exempel
- erfarenhet
- omfattande
- familj
- finansiella
- finansiella tjänster
- flöda
- fokuserar
- efter
- Fri
- fungera
- Hur ser din drömresa ut
- How To
- HTTPS
- bild
- informationen
- ingång
- IT
- Fogar
- märkning
- språk
- Large
- LÄRA SIG
- inlärning
- läge
- Maskinen
- maskininlärning
- chef
- Match
- ML
- mer
- mest
- Musik
- Natural
- New York
- Verksamhet
- Förbered
- Förhandsvisning
- process
- bearbetning
- ge
- Snabbt
- snabbt
- Obligatorisk
- Krav
- avkastning
- återgår
- Omdömen
- skalbar
- sektor
- Serier
- Tjänster
- Enkelt
- Mjukvara
- mjukvaruutveckling
- Programvara ingenjör
- lösning
- Lösningar
- utrymmen
- förvaring
- lagra
- Stöder
- System
- Teknisk
- Genom
- tid
- token
- tokens
- Förvandla
- färdas
- förstå
- unika
- användning
- värde
- mängd
- utan
- ord
- fungerar
- skrivning