Amazon SageMaker Data Wrangler reduce timpul de agregare și pregătire a datelor pentru învățarea automată (ML) de la săptămâni la minute. Cu Data Wrangler, puteți selecta și interoga datele cu doar câteva clicuri, puteți transforma rapid datele cu peste 300 de transformări de date încorporate și puteți înțelege datele cu vizualizări încorporate fără a scrie niciun cod.
În plus, puteți crea transformări personalizate unic pentru cerințele dumneavoastră. Transformările personalizate vă permit să scrieți transformări personalizate folosind fie PySpark, Pandas, fie SQL.
Data Wrangler acceptă acum o personalizare Funcție definită de utilizator Pandas (UDF) transformare care poate procesa seturi mari de date eficient. Puteți alege dintre două moduri personalizate Pandas UDF: Pandas și Python. Ambele moduri oferă o soluție eficientă pentru procesarea seturilor de date, iar modul pe care îl alegeți depinde de preferințele dvs.
În această postare, demonstrăm cum să utilizați noua transformare Pandas UDF în oricare dintre modurile.
Prezentare generală a soluțiilor
La momentul scrierii acestui articol, puteți importa seturi de date în Data Wrangler din Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, Databricks și Snowflake. Pentru această postare, folosim Amazon S3 pentru a stoca 2014 Amazon recenzii setul de date.
Datele au o coloană numită reviewText
conţinând text generat de utilizator. Textul contine si cateva opri cuvintele, care sunt cuvinte comune care nu oferă prea multe informații, cum ar fi „a”, „an” și „the”. Eliminarea cuvintelor stop este o etapă comună de preprocesare în conductele de procesare a limbajului natural (NLP). Putem crea o funcție personalizată pentru a elimina cuvintele oprite din recenzii.
Creați o transformare Pandas UDF personalizată
Să parcurgem procesul de creare a două transformări UDF Pandas personalizate Data Wrangler folosind modurile Pandas și Python.
- Descărcați Muzica digitală examinează setul de date și încărcați-l pe Amazon S3.
- Operatii Deschise Amazon SageMaker Studio și creați un nou flux Data Wrangler.
- În Date de import, alege Amazon S3 și navigați la locația setului de date.
- Pentru Tip de fișier, alege jsonl.
O previzualizare a datelor ar trebui să fie afișată în tabel.
- Alege Import a continua.
- După ce datele dvs. sunt importate, alegeți semnul plus de lângă Tipuri de date Și alegeți Adăugați transformare.
- Alege Transformare personalizată.
- În meniul derulant, Python (funcție definită de utilizator).
Acum creăm transformarea noastră personalizată pentru a elimina cuvintele oprite.
- Specificați coloana de intrare, coloana de ieșire, tipul de returnare și modul.
Următorul exemplu folosește modul Pandas. Aceasta înseamnă că funcția ar trebui să accepte și să returneze o serie Pandas de aceeași lungime. Vă puteți gândi la o serie Pandas ca la o coloană dintr-un tabel sau la o bucată a coloanei. Acesta este cel mai performant mod Pandas UDF, deoarece Pandas poate vectoriza operațiunile în loturi de valori, spre deosebire de una câte una. The pd.Series
sunt necesare indicii de tip în modul Pandas.
Dacă preferați să utilizați Python pur spre deosebire de API-ul Pandas, modul Python vă permite să specificați o funcție Python pură care acceptă un singur argument și returnează o singură valoare. Următorul exemplu este echivalent cu codul Pandas precedent în ceea ce privește ieșirea. Sugestiile de tip nu sunt necesare în modul Python.
- Alege Adăuga pentru a adăuga transformarea personalizată.
Concluzie
Data Wrangler are peste 300 de transformări încorporate și, de asemenea, puteți adăuga transformări personalizate unice pentru cerințele dvs. În această postare, am demonstrat cum să procesăm seturile de date cu noua transformare personalizată Pandas UDF a lui Data Wrangler, folosind atât modurile Pandas, cât și Python. Puteți utiliza oricare dintre modurile în funcție de preferințele dvs. Pentru a afla mai multe despre Data Wrangler, consultați Creați și utilizați un flux de date Wrangler.
Despre Autori
Ben Harris este un inginer software cu experiență în proiectarea, implementarea și întreținerea conductelor de date scalabile și soluții de învățare automată într-o varietate de domenii. Ben a construit sisteme pentru colectarea și etichetarea datelor, clasificarea imaginilor și a textului, modelarea secvență-la-secvență, încorporarea și gruparea, printre altele.
Haider Naqvi este arhitect de soluții la AWS. Are o vastă experiență în dezvoltarea de software și arhitectura întreprinderii. El se concentrează pe a permite clienților să obțină rezultate de afaceri cu AWS. Are sediul în New York.
Vishal Srivastava este manager tehnic de cont la AWS. Cu o experiență în dezvoltarea software și analiză, lucrează în primul rând cu clienții din sectorul serviciilor financiare și digital nativi și le sprijină călătoria în cloud. În timpul liber, îi place să călătorească cu familia.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Source: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Despre Noi
- Cont
- peste
- Amazon
- printre
- Google Analytics
- api
- arhitectură
- disponibil
- AWS
- fundal
- construit-in
- afaceri
- Alege
- clasificare
- Cloud
- cod
- colectare
- Coloană
- Comun
- conține
- crea
- Crearea
- personalizat
- clienţii care
- de date
- demonstra
- demonstrat
- depinde de
- Implementarea
- proiect
- Dezvoltare
- digital
- domenii
- eficient
- eficient
- permițând
- inginer
- Afacere
- exemplu
- experienţă
- extensiv
- familie
- financiar
- Servicii financiare
- debit
- se concentrează
- următor
- Gratuit
- funcţie
- Cum
- Cum Pentru a
- HTTPS
- imagine
- informații
- intrare
- IT
- Se alătură
- etichetarea
- limbă
- mare
- AFLAȚI
- învăţare
- locaţie
- maşină
- masina de învățare
- manager
- Meci
- ML
- mai mult
- cele mai multe
- Muzică
- Natural
- New York
- Operațiuni
- Pregăti
- Anunţ
- proces
- prelucrare
- furniza
- Rapid
- repede
- necesar
- Cerinţe
- reveni
- Returnează
- Recenzii
- scalabil
- sector
- serie
- Servicii
- simplu
- Software
- de dezvoltare de software
- Inginer Software
- soluţie
- soluţii
- spații
- depozitare
- stoca
- Sprijină
- sisteme
- Tehnic
- Prin
- timp
- semn
- indicativele
- Transforma
- călătorie
- înţelege
- unic
- utilizare
- valoare
- varietate
- fără
- cuvinte
- fabrică
- scris