Amazon SageMaker Data Wrangler este un instrument special de agregare și pregătire a datelor pentru învățarea automată (ML). Vă permite să utilizați o interfață vizuală pentru a accesa date și pentru a efectua analize exploratorii de date (EDA) și inginerie de caracteristici. Caracteristica EDA vine cu capabilități încorporate de analiză a datelor pentru diagrame (cum ar fi diagrama de dispersie sau histograma) și capabilități de analiză a modelului care economisesc timp, cum ar fi importanța caracteristicilor, scurgerea țintei și explicabilitatea modelului. Capacitatea de inginerie a caracteristicilor are peste 300 de transformări încorporate și poate efectua transformări personalizate folosind fie Python, PySpark, fie Spark SQL runtime.
Pentru vizualizări și transformări personalizate, Data Wrangler oferă acum exemple de fragmente de cod pentru tipuri obișnuite de vizualizări și transformări. În această postare, demonstrăm cum să folosiți aceste fragmente de cod pentru a vă porni rapid EDA în Data Wrangler.
Prezentare generală a soluțiilor
La momentul scrierii acestui articol, puteți importa seturi de date în Data Wrangler din Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, Databricks și Snowflake. Pentru această postare, folosim Amazon S3 pentru a stoca Amazon 2014 recenzii setul de date. Următorul este un eșantion al setului de date:
În această postare, efectuăm EDA folosind trei coloane—asin
, reviewTime
, și overall
—care se mapează la ID-ul produsului, data orei revizuirii și, respectiv, scorul general al recenziei. Folosim aceste date pentru a vizualiza dinamica numărului de recenzii în luni și ani.
Folosind exemplu de fragment de cod pentru EDA în Data Wrangler
Pentru a începe să efectuați EDA în Data Wrangler, parcurgeți următorii pași:
- Descărcați Muzica digitală examinează setul de date JSON și încărcați-l pe Amazon S3.
Folosim acesta ca set de date brute pentru EDA. - Operatii Deschise Amazon SageMaker Studio și creați un nou flux Data Wrangler și importați setul de date din Amazon S3.
Acest set de date are nouă coloane, dar folosim doar trei:
asin
,reviewTime
, șioverall
. Trebuie să aruncăm celelalte șase coloane. - Creați o transformare personalizată și alegeți Python (PySpark).
- Extinde Căutați exemple de fragmente Și alegeți Aruncă toate coloanele, cu excepția câtorva.
- Introduceți fragmentul furnizat în transformarea personalizată și urmați instrucțiunile pentru a modifica codul.
Acum că avem toate coloanele de care avem nevoie, haideți să filtram datele în jos pentru a păstra recenziile numai între 2000 și 2020.
- Folosește Marcare temporală a filtrului în afara intervalului fragment pentru a elimina datele înainte de anul 2000 și după 2020:
În continuare, extragem anul și luna din coloana reviewTime.
- Folosește Prezentați data/ora transforma.
- Pentru Extrageți coloanele, alege an și lună.
În continuare, dorim să cumulăm numărul de recenzii pe an și lună pe care le-am creat în pasul anterior.
- Folosește Calculați statistici în grupuri fragment:
- Redenumiți agregarea pasului anterior de la
count(overall)
lareviews_num
alegând Gestionați coloanele si Redenumiți coloana transforma.
În cele din urmă, dorim să creăm o hartă termică pentru a vizualiza distribuția recenziilor pe an și pe lună. - În fila de analiză, alegeți Vizualizare personalizată.
- Extinde Căutați fragment Și alegeți Harta termografica din meniul derulant.
- Introduceți fragmentul furnizat în vizualizarea personalizată:
Obținem următoarea vizualizare.
Dacă doriți să îmbunătățiți și mai mult harta termică, puteți tăia datele pentru a afișa numai recenzii înainte de 2011. Acestea sunt greu de identificat în harta termică pe care tocmai am creat-o din cauza volumului mare de recenzii începând cu 2012. - Adăugați o linie de cod la vizualizarea dvs. personalizată:
Obținem următoarea hartă termică.
Acum, harta termică reflectă mai vizibil recenziile anterioare anului 2011: putem observa efectele sezoniere (sfârșitul anului aduce mai multe achiziții și, prin urmare, mai multe recenzii) și putem identifica luni anormale, precum octombrie 2003 și martie 2005. Merită investigat în continuare. pentru a determina cauza acestor anomalii.
Concluzie
Data Wrangler este un instrument special de agregare și pregătire a datelor pentru ML. În această postare, am demonstrat cum să efectuați EDA și să vă transformați datele rapid folosind fragmente de cod furnizate de Data Wrangler. Trebuie doar să găsiți un fragment, să introduceți codul și să ajustați parametrii pentru a se potrivi cu setul de date. Puteți continua să repetați scriptul pentru a crea vizualizări și transformări mai complexe.
Pentru a afla mai multe despre Data Wrangler, consultați Creați și utilizați un flux de date Wrangler.
Despre Autori
Nikita Ivkin este un om de știință aplicat, Amazon SageMaker Data Wrangler.
Haider Naqvi este arhitect de soluții la AWS. Are o vastă experiență în dezvoltarea software-ului și arhitectura întreprinderii. El se concentrează pe a permite clienților să obțină rezultate de afaceri cu AWS. Are sediul în New York.
Harish Rajagopalan este arhitect senior de soluții la Amazon Web Services. Harish lucrează cu clienții companiei și îi ajută în călătoria lor în cloud.
James Wu este Senior AI/ML Specialist SA la AWS. El lucrează cu clienții pentru a-și accelera călătoria în cloud și pentru a-și accelera realizarea valorii afacerii. În plus, James este, de asemenea, pasionat de dezvoltarea și scalarea unor soluții mari AI/ML în diferite domenii. Înainte de a se alătura AWS, a condus o echipă multidisciplinară de tehnologie de inovare cu ingineri ML și dezvoltatori de software pentru o firmă globală de top din piața și industria de publicitate.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Sursa: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Despre Noi
- accelera
- acces
- Obține
- peste
- plus
- Promovare
- TOATE
- permite
- Amazon
- Amazon Web Services
- analiză
- aplicat
- arhitectură
- disponibil
- AWS
- Axă
- deoarece
- înainte
- între
- construit-in
- afaceri
- capacități
- Provoca
- Grafice
- Alege
- Cloud
- cod
- Coloană
- Comun
- Completă
- complex
- continua
- controale
- crea
- a creat
- personalizat
- clienţii care
- de date
- analiza datelor
- demonstra
- demonstrat
- Determina
- Dezvoltatorii
- în curs de dezvoltare
- Dezvoltare
- distribuire
- domenii
- jos
- Picătură
- dinamică
- efecte
- permițând
- Inginerie
- inginerii
- Intrați
- Afacere
- exemplu
- Cu excepția
- experienţă
- extensiv
- mai repede
- Caracteristică
- În cele din urmă
- Firmă
- First
- debit
- se concentrează
- urma
- următor
- din
- funcţie
- funcții
- mai mult
- Caritate
- mare
- Grupului
- având în
- util
- ajută
- Cum
- Cum Pentru a
- HTTPS
- identifica
- importanță
- industrie
- Inovaţie
- interfaţă
- IT
- călătorie
- A pastra
- mare
- AFLAȚI
- învăţare
- Led
- Linie
- Listă
- maşină
- masina de învățare
- Hartă
- Martie
- Piață
- Meci
- ML
- model
- Lună
- luni
- mai mult
- Muzică
- nume
- New York
- număr
- Altele
- global
- pasionat
- efectuarea
- joc
- Pregăti
- precedent
- Produs
- furniza
- prevăzut
- furnizează
- cumpărare
- achiziții
- cantitativ
- repede
- Crud
- înregistrări
- reflectă
- revizuiască
- Recenzii
- scalare
- Om de stiinta
- Servicii
- simplu
- întrucât
- SIX
- Software
- de dezvoltare de software
- soluţii
- specialist
- Începe
- statistică
- depozitare
- stoca
- Ţintă
- echipă
- Tehnologia
- prin urmare
- trei
- timp
- instrument
- top
- Transforma
- transformări
- Tipuri
- utilizare
- valoare
- diverse
- vizualizare
- volume
- web
- servicii web
- OMS
- minunat
- fabrică
- valoare
- scris
- X
- an
- ani
- Ta