Amazon SageMaker Data Wrangler reduserer tiden for å samle og forberede data for maskinlæring (ML) fra uker til minutter. Med Data Wrangler kan du velge og søke etter data med bare noen få klikk, raskt transformere data med over 300 innebygde datatransformasjoner og forstå dataene dine med innebygde visualiseringer uten å skrive noen kode.
I tillegg kan du opprette tilpassede transformasjoner unik for dine behov. Egendefinerte transformasjoner lar deg skrive tilpassede transformasjoner ved å bruke enten PySpark, Pandas eller SQL.
Data Wrangler støtter nå en tilpasset Pandas brukerdefinert funksjon (UDF) transformasjon som kan behandle store datasett effektivt. Du kan velge mellom to egendefinerte Pandas UDF-moduser: Pandas og Python. Begge modusene gir en effektiv løsning for å behandle datasett, og modusen du velger avhenger av dine preferanser.
I dette innlegget viser vi hvordan du bruker den nye Pandas UDF-transformasjonen i begge modusene.
Løsningsoversikt
Når dette skrives, kan du importere datasett til Data Wrangler fra Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShift, Databricks og Snowflake. For dette innlegget bruker vi Amazon S3 til å lagre 2014 Amazon vurderer datasett.
Dataene har en kolonne kalt reviewText
som inneholder brukergenerert tekst. Teksten inneholder også flere stoppe ord, som er vanlige ord som ikke gir mye informasjon, for eksempel «en», «en» og «den». Fjerning av stoppord er et vanlig forbehandlingstrinn i rørledninger for naturlig språkbehandling (NLP). Vi kan lage en egendefinert funksjon for å fjerne stoppordene fra anmeldelsene.
Lag en tilpasset Pandas UDF-transformasjon
La oss gå gjennom prosessen med å lage to Data Wrangler-tilpassede Pandas UDF-transformasjoner ved å bruke Pandas- og Python-moduser.
- Last ned Digital musikk anmeldelser datasett og last den opp til Amazon S3.
- Åpen Amazon SageMaker Studio og lag en ny Data Wrangler-flyt.
- Under Import datoer, velg Amazon S3 og naviger til datasettplasseringen.
- Til Filtype, velg jsonl.
En forhåndsvisning av dataene skal vises i tabellen.
- Velg Import å fortsette.
- Etter at dataene dine er importert, velg plusstegnet ved siden av Datatyper Og velg Legg til transform.
- Velg Tilpasset transformasjon.
- På rullegardinmenyen, Python (brukerdefinert funksjon).
Nå lager vi vår egendefinerte transformasjon for å fjerne stoppord.
- Spesifiser inndatakolonne, utdatakolonne, returtype og modus.
Følgende eksempel bruker Pandas-modus. Dette betyr at funksjonen skal akseptere og returnere en Pandas-serie av samme lengde. Du kan tenke på en Pandas-serie som en kolonne i en tabell eller en del av kolonnen. Dette er den mest effektive Pandas UDF-modus fordi Pandas kan vektorisere operasjoner på tvers av grupper med verdier i motsetning til én om gangen. De pd.Series
typehint er nødvendig i Pandas-modus.
Hvis du foretrekker å bruke ren Python i motsetning til Pandas API, lar Python-modus deg spesifisere en ren Python-funksjon som aksepterer et enkelt argument og returnerer en enkelt verdi. Følgende eksempel tilsvarer den foregående Pandas-koden når det gjelder utdata. Typehint er ikke nødvendig i Python-modus.
- Velg Legg til for å legge til din egendefinerte transformasjon.
konklusjonen
Data Wrangler har over 300 innebygde transformasjoner, og du kan også legge til tilpassede transformasjoner som er unike for dine behov. I dette innlegget demonstrerte vi hvordan man behandler datasett med Data Wranglers nye tilpassede Pandas UDF-transformasjon, ved å bruke både Pandas- og Python-modus. Du kan bruke begge modusene basert på dine preferanser. For å lære mer om Data Wrangler, se Opprett og bruk en Data Wrangler-flyt.
Om forfatterne
Ben Harris er en programvareingeniør med erfaring med å designe, distribuere og vedlikeholde skalerbare datapipelines og maskinlæringsløsninger på tvers av en rekke domener. Ben har bygget systemer for datainnsamling og merking, bilde- og tekstklassifisering, sekvens-til-sekvens-modellering, innebygging og clustering, blant annet.
Haider Naqvi er løsningsarkitekt hos AWS. Han har omfattende erfaring med programvareutvikling og bedriftsarkitektur. Han fokuserer på å gjøre det mulig for kunder å oppnå forretningsresultater med AWS. Han er basert i New York.
Vishal Srivastava er Technical Account Manager hos AWS. Med bakgrunn fra programvareutvikling og analyse jobber han primært med finanssektoren og digitale innfødte bedriftskunder og støtter deres skyreise. På fritiden elsker han å reise med familien.
- Myntsmart. Europas beste Bitcoin og Crypto Exchange.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. FRI TILGANG.
- CryptoHawk. Altcoin Radar. Gratis prøveperiode.
- Kilde: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Om oss
- Logg inn
- tvers
- Amazon
- blant
- analytics
- api
- arkitektur
- tilgjengelig
- AWS
- bakgrunn
- innebygd
- virksomhet
- Velg
- klassifisering
- Cloud
- kode
- samling
- Kolonne
- Felles
- inneholder
- skape
- Opprette
- skikk
- Kunder
- dato
- demonstrere
- demonstrert
- avhenger
- utplasserings
- utforme
- Utvikling
- digitalt
- domener
- effektiv
- effektivt
- muliggjør
- ingeniør
- Enterprise
- eksempel
- erfaring
- omfattende
- familie
- finansiell
- finansielle tjenester
- flyten
- fokuserer
- etter
- Gratis
- funksjon
- Hvordan
- Hvordan
- HTTPS
- bilde
- informasjon
- inngang
- IT
- tiltrer
- merking
- Språk
- stor
- LÆRE
- læring
- plassering
- maskin
- maskinlæring
- leder
- Match
- ML
- mer
- mest
- musikk
- Naturlig
- New York
- Drift
- Forbered
- Forhåndsvisning
- prosess
- prosessering
- gi
- Rask
- raskt
- påkrevd
- Krav
- retur
- avkastning
- Anmeldelser
- skalerbar
- sektor
- Serien
- Tjenester
- Enkelt
- Software
- programvareutvikling
- Software Engineer
- løsning
- Solutions
- mellomrom
- lagring
- oppbevare
- Støtter
- Systemer
- Teknisk
- Gjennom
- tid
- token
- tokens
- Transform
- reiser
- forstå
- unik
- bruke
- verdi
- variasjon
- uten
- ord
- virker
- skriving