În această postare, introducem o nouă analiză în Raport privind calitatea datelor și perspective of Amazon SageMaker Data Wrangler. Această analiză vă ajută să validați caracteristicile textuale pentru corectitudine și să descoperiți rânduri nevalide pentru reparare sau omisiune.
Data Wrangler reduce timpul necesar pentru agregarea și pregătirea datelor pentru învățarea automată (ML) de la săptămâni la minute. Puteți simplifica procesul de pregătire a datelor și de inginerie a caracteristicilor și puteți finaliza fiecare pas al fluxului de lucru de pregătire a datelor, inclusiv selecția datelor, curățarea, explorarea și vizualizarea, dintr-o singură interfață vizuală.
Prezentare generală a soluțiilor
Preprocesarea datelor implică adesea curățarea datelor textuale, cum ar fi adrese de e-mail, numere de telefon și nume de produse. Aceste date pot avea constrângeri de integritate subiacente care pot fi descrise prin expresii regulate. De exemplu, pentru a fi considerat valid, un număr de telefon local poate trebui să urmeze un model de genul [1-9][0-9]{2}-[0-9]{4}
, care s-ar potrivi cu o cifră diferită de zero, urmată de încă două cifre, urmate de o liniuță, urmate de încă patru cifre.
Scenariile obișnuite care au ca rezultat date nevalide pot include intrări umane inconsecvente, de exemplu numere de telefon în diferite formate (5551234 vs. 555 1234 vs. 555-1234) sau date neașteptate, cum ar fi 0, 911 sau 411. Pentru un centru de apeluri pentru clienți, este important să omiteți numere precum 0, 911 sau 411 și să validați (și posibil să corectați) intrări precum 5551234 sau 555 1234.
Din păcate, deși există constrângeri textuale, este posibil să nu fie furnizate împreună cu datele. Prin urmare, un cercetător de date care pregătește un set de date trebuie să descopere manual constrângerile analizând datele. Acest lucru poate fi obositor, predispus la erori și consumatoare de timp.
Învățarea modelelor analizează automat datele dvs. și evidențiază constrângerile textuale care se pot aplica setului dvs. de date. Pentru exemplul cu numere de telefon, învățarea tiparelor poate analiza datele și poate identifica că marea majoritate a numerelor de telefon urmează constrângerile textuale [1-9][0-9]{2}-[0-9][4]
. De asemenea, vă poate avertiza că există exemple de date nevalide, astfel încât să le puteți exclude sau corecta.
În secțiunile următoare, demonstrăm cum să folosiți învățarea modelelor în Data Wrangler folosind un set de date fictiv de categorii de produse și coduri SKU (unitatea de stocare).
Acest set de date conține caracteristici care descriu produsele după companie, marcă și consumul de energie. În special, include o caracteristică SKU care este prost formatată. Toate datele din acest set de date sunt fictive și create aleatoriu folosind nume de marcă aleatoare și nume de aparate.
Cerințe preliminare
Înainte de a începe să utilizați Data Wrangler, Descarca setul de date eșantion și încărcați-l într-o locație în Serviciul Amazon de stocare simplă (Amazon S3). Pentru instrucțiuni, consultați Încărcarea obiectelor.
Importați setul de date
Pentru a importa setul de date, parcurgeți următorii pași:
- În Data Wrangler, alegeți Importați și explorați date pentru ML.
- Alege Import.
- Pentru Date de import, alege Amazon S3.
- Găsiți fișierul în Amazon S3 și alegeți Import.
După import, putem naviga la fluxul de date.
Obțineți informații despre date
În acest pas, creăm un raport de date care include informații despre calitatea datelor. Pentru mai multe informații, consultați Obțineți informații despre datele și calitatea datelor. Parcurgeți următorii pași:
- Pe Flux de date fila, alegeți semnul plus de lângă Tipuri de date.
- Alege Obțineți informații despre date.
- Pentru Tipul analizei, alege Raport privind calitatea datelor și perspective.
- Pentru această postare, pleacă Coloana țintă și Tipul problemei gol. Dacă intenționați să utilizați setul de date pentru o activitate de regresie sau clasificare cu o caracteristică țintă, puteți selecta acele opțiuni, iar raportul va include o analiză a modului în care caracteristicile dvs. de intrare se raportează la ținta dvs. De exemplu, poate produce rapoarte privind scurgerile țintă. Pentru mai multe informații, consultați Coloana țintă.
- Alege Crea.
Acum avem un raport privind calitatea datelor și statisticile datelor. Dacă derulăm în jos la SKU secțiunea, putem vedea un exemplu de învățare a modelelor care descrie SKU. Această funcție pare să aibă unele date nevalide și este necesară o remediere posibilă.
Înainte de a curăța caracteristica SKU, să derulăm în sus la Marca secțiune pentru a vedea mai multe informații. Aici vedem că au fost descoperite două modele, ceea ce indică faptul că majoritatea numelor de mărci sunt cuvinte unice formate din caractere de cuvinte sau caractere alfabetice. A caracter de cuvânt este fie un caracter de subliniere, fie un caracter care poate apărea într-un cuvânt în orice limbă. De exemplu, șirurile Hello_world
și écoute
ambele constau din caractere de cuvinte: H
și é
.
Pentru această postare, nu curățăm această funcție.
Vedeți informații despre învățarea tiparelor
Să revenim la curățarea SKU-urilor și să mărim modelul și mesajul de avertizare.
După cum se arată în următoarea captură de ecran, învățarea modelului evidențiază un model de mare precizie care se potrivește cu 97.78% din date. De asemenea, afișează câteva exemple care se potrivesc cu modelul, precum și exemple care nu se potrivesc cu modelul. În non-potriviri, vedem câteva SKU-uri nevalide.
În plus față de modelele de suprafață, poate apărea un avertisment care indică o potențială acțiune de curățare a datelor dacă există un model de mare precizie, precum și unele date care nu sunt conforme cu modelul.
Putem omite datele nevalide. Dacă alegem (clic dreapta) pe expresia regulată, putem copia expresia [A-Z]{3}-[0-9]{4,5}
.
Eliminați datele nevalide
Să creăm o transformare pentru a omite datele neconforme care nu se potrivesc cu acest model.
- Pe Flux de date fila, alegeți semnul plus de lângă Tipuri de date.
- Alege Adăugați transformare.
- Alege Adăugați pasul.
- Caută
regex
Și alegeți Căutați și editați. - Pentru Transforma, alege Convertiți non-potrivirile în lipsă.
- Pentru Coloane de intrare, alege
SKU
. - Pentru Model, introduceți expresia noastră regulată.
- Alege Anunţ, Apoi alegeți Adăuga.
Acum datele străine au fost eliminate din funcții. - Pentru a elimina rândurile, adăugați pasul Mânerul lipsește și alegeți transformarea Picătură lipsă.
- Alege
SKU
ca coloană de intrare.
Revenim la fluxul nostru de date cu datele eronate eliminate.
Concluzie
În această postare, v-am arătat cum să utilizați funcția de învățare a modelelor în statisticile datelor pentru a găsi date textuale nevalide în setul dvs. de date, precum și cum să corectați sau să omiteți acele date.
Acum că ați curățat o coloană textuală, vă puteți vizualiza setul de date folosind un analiză sau poți aplica transformări încorporate pentru a vă prelucra în continuare datele. Când ești mulțumit de datele tale, poți antrenează un model cu Pilot automat cu Amazon SageMaker, Sau exportă-ți datele la o sursă de date cum ar fi Amazon S3.
Am dori să mulțumim lui Nikita Ivkin pentru recenzia sa atentă.
Despre autori
Vishaal Kapoor este un om de știință senior aplicat cu AWS AI. Este pasionat de a ajuta clienții să-și înțeleagă datele în Data Wrangler. În timpul liber, face biciclete montane, face snowboard și își petrece timpul cu familia.
Zohar Karnin este om de știință principal în Amazon AI. Interesele sale de cercetare sunt în domeniile algoritmilor de învățare automată pe scară largă și online. El dezvoltă algoritmi de învățare automată infinit scalabili pentru Amazon SageMaker.
Ajai Sharma este director de produs principal pentru Amazon SageMaker, unde se concentrează pe Data Wrangler, un instrument vizual de pregătire a datelor pentru oamenii de știință de date. Înainte de AWS, Ajai a fost expert în știința datelor la McKinsey and Company, unde a condus angajamente axate pe ML pentru companii de finanțe și asigurări de top din întreaga lume. Ajai este pasionat de știința datelor și îi place să exploreze cei mai noi algoritmi și tehnici de învățare automată.
Derek Baron este manager de dezvoltare software pentru Amazon SageMaker Data Wrangler
- AI
- ai art
- ai art generator
- ai robot
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- inteligență artificială
- certificare de inteligență artificială
- inteligența artificială în domeniul bancar
- robot cu inteligență artificială
- roboți cu inteligență artificială
- software de inteligență artificială
- Învățare automată AWS
- blockchain
- conferință blockchain ai
- coingenius
- inteligența artificială conversațională
- criptoconferință ai
- dall-e
- învățare profundă
- google ai
- Intermediar (200)
- masina de învățare
- Plato
- platoul ai
- Informații despre date Platon
- Jocul lui Platon
- PlatoData
- platogaming
- scara ai
- sintaxă
- zephyrnet