Amazon SageMaker Data Wrangler reducerer tiden til at samle og forberede data til maskinlæring (ML) fra uger til minutter. Med Data Wrangler kan du vælge og forespørge data med blot et par klik, hurtigt transformere data med over 300 indbyggede datatransformationer og forstå dine data med indbyggede visualiseringer uden at skrive nogen kode.
Derudover kan du oprette tilpassede transformationer unik for dine krav. Brugerdefinerede transformationer giver dig mulighed for at skrive brugerdefinerede transformationer ved hjælp af enten PySpark, Pandas eller SQL.
Data Wrangler understøtter nu en brugerdefineret Pandas brugerdefineret funktion (UDF) transformation, der kan behandle store datasæt effektivt. Du kan vælge mellem to brugerdefinerede Pandas UDF-tilstande: Pandas og Python. Begge tilstande giver en effektiv løsning til at behandle datasæt, og den tilstand, du vælger, afhænger af dine præferencer.
I dette indlæg demonstrerer vi, hvordan du bruger den nye Pandas UDF-transformation i begge tilstande.
Løsningsoversigt
I skrivende stund kan du importere datasæt til Data Wrangler fra Amazon Simple Storage Service (Amazon S3), Amazonas Athena, Amazon rødforskydning, Databricks og Snowflake. Til dette indlæg bruger vi Amazon S3 til at gemme 2014 Amazon anmelder datasæt.
Dataene har en kolonne kaldet reviewText
indeholdende brugergenereret tekst. Teksten indeholder også flere stop ord, som er almindelige ord, der ikke giver meget information, såsom "en", "en" og "den." Fjernelse af stopord er et almindeligt forbehandlingstrin i pipelines for naturlig sprogbehandling (NLP). Vi kan oprette en brugerdefineret funktion til at fjerne stopordene fra anmeldelserne.
Opret en brugerdefineret Pandas UDF-transformation
Lad os gennemgå processen med at skabe to Data Wrangler brugerdefinerede Pandas UDF-transformationer ved hjælp af Pandas og Python-tilstande.
- Download Digital Music anmeldelser datasæt og upload det til Amazon S3.
- Åbne Amazon SageMaker Studio og opret et nyt Data Wrangler-flow.
- Under Import datoer, vælg Amazon S3 og naviger til datasættets placering.
- Til Filtype, vælg jsonl.
En forhåndsvisning af dataene skal vises i tabellen.
- Vælg Importere at fortsætte.
- Når dine data er importeret, skal du vælge plustegnet ved siden af Datatyper Og vælg Tilføj transformation.
- Vælg Brugerdefineret transformation.
- På rullemenuen, Python (brugerdefineret funktion).
Nu opretter vi vores tilpassede transformation for at fjerne stopord.
- Angiv din inputkolonne, outputkolonne, returtype og tilstand.
Følgende eksempel bruger Pandas-tilstand. Det betyder, at funktionen skal acceptere og returnere en Panda-serie af samme længde. Du kan tænke på en Pandas-serie som en kolonne i en tabel eller en del af kolonnen. Dette er den mest effektive Pandas UDF-tilstand, fordi Pandas kan vektorisere operationer på tværs af batches af værdier i modsætning til én ad gangen. Det pd.Series
typetip er påkrævet i Pandas-tilstand.
Hvis du foretrækker at bruge ren Python i modsætning til Pandas API, giver Python-tilstand dig mulighed for at angive en ren Python-funktion, der accepterer et enkelt argument og returnerer en enkelt værdi. Følgende eksempel svarer til den foregående Pandas-kode med hensyn til output. Typetip er ikke påkrævet i Python-tilstand.
- Vælg Tilføj for at tilføje din tilpassede transformation.
Konklusion
Data Wrangler har over 300 indbyggede transformationer, og du kan også tilføje tilpassede transformationer, der er unikke til dine krav. I dette indlæg demonstrerede vi, hvordan man behandler datasæt med Data Wranglers nye brugerdefinerede Pandas UDF-transformation ved hjælp af både Pandas- og Python-tilstande. Du kan bruge begge tilstande baseret på dine præferencer. For at lære mere om Data Wrangler, se Opret og brug et datawrangler-flow.
Om forfatterne
Ben Harris er en softwareingeniør med erfaring med at designe, implementere og vedligeholde skalerbare datapipelines og maskinlæringsløsninger på tværs af en række forskellige domæner. Ben har blandt andet bygget systemer til dataindsamling og mærkning, billed- og tekstklassificering, sekvens-til-sekvens-modellering, indlejring og clustering.
Haider Naqvi er Solutions Architect hos AWS. Han har omfattende erfaring med softwareudvikling og virksomhedsarkitektur. Han fokuserer på at gøre det muligt for kunderne at opnå forretningsresultater med AWS. Han er baseret i New York.
Vishal Srivastava er Technical Account Manager hos AWS. Med en baggrund i softwareudvikling og analyse arbejder han primært med finanssektoren og digitale native erhvervskunder og understøtter deres cloud-rejse. I sin fritid elsker han at rejse med sin familie.
- Coinsmart. Europas bedste Bitcoin og Crypto Exchange.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. FRI ADGANG.
- CryptoHawk. Altcoin radar. Gratis prøveversion.
- Kilde: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Om
- Konto
- tværs
- Amazon
- blandt
- analytics
- api
- arkitektur
- til rådighed
- AWS
- baggrund
- indbygget
- virksomhed
- Vælg
- klassificering
- Cloud
- kode
- samling
- Kolonne
- Fælles
- indeholder
- skabe
- Oprettelse af
- skik
- Kunder
- data
- demonstrere
- demonstreret
- afhænger
- implementering
- designe
- Udvikling
- digital
- Domæner
- effektiv
- effektivt
- muliggør
- ingeniør
- Enterprise
- eksempel
- erfaring
- omfattende
- familie
- finansielle
- finansielle tjenesteydelser
- flow
- fokuserer
- efter
- Gratis
- funktion
- Hvordan
- How To
- HTTPS
- billede
- oplysninger
- indgang
- IT
- Sammenføjninger
- mærkning
- Sprog
- stor
- LÆR
- læring
- placering
- maskine
- machine learning
- leder
- Match
- ML
- mere
- mest
- Musik
- Natural
- New York
- Produktion
- Forbered
- Eksempel
- behandle
- forarbejdning
- give
- Hurtig
- hurtigt
- påkrævet
- Krav
- afkast
- afkast
- Anmeldelser
- skalerbar
- sektor
- Series
- Tjenester
- Simpelt
- Software
- softwareudvikling
- Software Engineer
- løsninger
- Løsninger
- rum
- opbevaring
- butik
- Understøtter
- Systemer
- Teknisk
- Gennem
- tid
- token
- Tokens
- Transform
- rejse
- forstå
- enestående
- brug
- værdi
- række
- uden
- ord
- virker
- skrivning