Detectați modele în datele text cu Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

În această postare, introducem o nouă analiză în Raport privind calitatea datelor și perspective of Amazon SageMaker Data Wrangler. Această analiză vă ajută să validați caracteristicile textuale pentru corectitudine și să descoperiți rânduri nevalide pentru reparare sau omisiune.

Data Wrangler reduce timpul necesar pentru agregarea și pregătirea datelor pentru învățarea automată (ML) de la săptămâni la minute. Puteți simplifica procesul de pregătire a datelor și de inginerie a caracteristicilor și puteți finaliza fiecare pas al fluxului de lucru de pregătire a datelor, inclusiv selecția datelor, curățarea, explorarea și vizualizarea, dintr-o singură interfață vizuală.

Prezentare generală a soluțiilor

Preprocesarea datelor implică adesea curățarea datelor textuale, cum ar fi adrese de e-mail, numere de telefon și nume de produse. Aceste date pot avea constrângeri de integritate subiacente care pot fi descrise prin expresii regulate. De exemplu, pentru a fi considerat valid, un număr de telefon local poate trebui să urmeze un model de genul [1-9][0-9]{2}-[0-9]{4}, care s-ar potrivi cu o cifră diferită de zero, urmată de încă două cifre, urmate de o liniuță, urmate de încă patru cifre.

Scenariile obișnuite care au ca rezultat date nevalide pot include intrări umane inconsecvente, de exemplu numere de telefon în diferite formate (5551234 vs. 555 1234 vs. 555-1234) sau date neașteptate, cum ar fi 0, 911 sau 411. Pentru un centru de apeluri pentru clienți, este important să omiteți numere precum 0, 911 sau 411 și să validați (și posibil să corectați) intrări precum 5551234 sau 555 1234.

Din păcate, deși există constrângeri textuale, este posibil să nu fie furnizate împreună cu datele. Prin urmare, un cercetător de date care pregătește un set de date trebuie să descopere manual constrângerile analizând datele. Acest lucru poate fi obositor, predispus la erori și consumatoare de timp.

Învățarea modelelor analizează automat datele dvs. și evidențiază constrângerile textuale care se pot aplica setului dvs. de date. Pentru exemplul cu numere de telefon, învățarea tiparelor poate analiza datele și poate identifica că marea majoritate a numerelor de telefon urmează constrângerile textuale [1-9][0-9]{2}-[0-9][4]. De asemenea, vă poate avertiza că există exemple de date nevalide, astfel încât să le puteți exclude sau corecta.

În secțiunile următoare, demonstrăm cum să folosiți învățarea modelelor în Data Wrangler folosind un set de date fictiv de categorii de produse și coduri SKU (unitatea de stocare).

Acest set de date conține caracteristici care descriu produsele după companie, marcă și consumul de energie. În special, include o caracteristică SKU care este prost formatată. Toate datele din acest set de date sunt fictive și create aleatoriu folosind nume de marcă aleatoare și nume de aparate.

Cerințe preliminare

Înainte de a începe să utilizați Data Wrangler, Descarca setul de date eșantion și încărcați-l într-o locație în Serviciul Amazon de stocare simplă (Amazon S3). Pentru instrucțiuni, consultați Încărcarea obiectelor.

Importați setul de date

Pentru a importa setul de date, parcurgeți următorii pași:

În Data Wrangler, alegeți Importați și explorați date pentru ML.
Alege Import.
Pentru Date de import, alege Amazon S3.
Găsiți fișierul în Amazon S3 și alegeți Import.

După import, putem naviga la fluxul de date.

Obțineți informații despre date

În acest pas, creăm un raport de date care include informații despre calitatea datelor. Pentru mai multe informații, consultați Obțineți informații despre datele și calitatea datelor. Parcurgeți următorii pași:

Pe Flux de date fila, alegeți semnul plus de lângă Tipuri de date.
Alege Obțineți informații despre date.
Pentru Tipul analizei, alege Raport privind calitatea datelor și perspective.
Pentru această postare, pleacă Coloana țintă și Tipul problemei gol. Dacă intenționați să utilizați setul de date pentru o activitate de regresie sau clasificare cu o caracteristică țintă, puteți selecta acele opțiuni, iar raportul va include o analiză a modului în care caracteristicile dvs. de intrare se raportează la ținta dvs. De exemplu, poate produce rapoarte privind scurgerile țintă. Pentru mai multe informații, consultați Coloana țintă.
Alege Crea.

Acum avem un raport privind calitatea datelor și statisticile datelor. Dacă derulăm în jos la SKU secțiunea, putem vedea un exemplu de învățare a modelelor care descrie SKU. Această funcție pare să aibă unele date nevalide și este necesară o remediere posibilă.

Înainte de a curăța caracteristica SKU, să derulăm în sus la Marca secțiune pentru a vedea mai multe informații. Aici vedem că au fost descoperite două modele, ceea ce indică faptul că majoritatea numelor de mărci sunt cuvinte unice formate din caractere de cuvinte sau caractere alfabetice. A caracter de cuvânt este fie un caracter de subliniere, fie un caracter care poate apărea într-un cuvânt în orice limbă. De exemplu, șirurile Hello_world și écoute ambele constau din caractere de cuvinte: H și é.

Pentru această postare, nu curățăm această funcție.

Vedeți informații despre învățarea tiparelor

Să revenim la curățarea SKU-urilor și să mărim modelul și mesajul de avertizare.

După cum se arată în următoarea captură de ecran, învățarea modelului evidențiază un model de mare precizie care se potrivește cu 97.78% din date. De asemenea, afișează câteva exemple care se potrivesc cu modelul, precum și exemple care nu se potrivesc cu modelul. În non-potriviri, vedem câteva SKU-uri nevalide.

În plus față de modelele de suprafață, poate apărea un avertisment care indică o potențială acțiune de curățare a datelor dacă există un model de mare precizie, precum și unele date care nu sunt conforme cu modelul.

Putem omite datele nevalide. Dacă alegem (clic dreapta) pe expresia regulată, putem copia expresia [A-Z]{3}-[0-9]{4,5}.

Eliminați datele nevalide

Să creăm o transformare pentru a omite datele neconforme care nu se potrivesc cu acest model.

Pe Flux de date fila, alegeți semnul plus de lângă Tipuri de date.
Alege Adăugați transformare.
Alege Adăugați pasul.
Caută regex Și alegeți Căutați și editați.
Pentru Transforma, alege Convertiți non-potrivirile în lipsă.
Pentru Coloane de intrare, alege SKU.
Pentru Model, introduceți expresia noastră regulată.
Alege Anunţ, Apoi alegeți Adăuga.

Acum datele străine au fost eliminate din funcții.
Pentru a elimina rândurile, adăugați pasul Mânerul lipsește și alegeți transformarea Picătură lipsă.
Alege SKU ca coloană de intrare.

Revenim la fluxul nostru de date cu datele eronate eliminate.

Concluzie

În această postare, v-am arătat cum să utilizați funcția de învățare a modelelor în statisticile datelor pentru a găsi date textuale nevalide în setul dvs. de date, precum și cum să corectați sau să omiteți acele date.

Acum că ați curățat o coloană textuală, vă puteți vizualiza setul de date folosind un analiză sau poți aplica transformări încorporate pentru a vă prelucra în continuare datele. Când ești mulțumit de datele tale, poți antrenează un model cu Pilot automat cu Amazon SageMaker, Sau exportă-ți datele la o sursă de date cum ar fi Amazon S3.

Am dori să mulțumim lui Nikita Ivkin pentru recenzia sa atentă.

Despre autori

Vishaal Kapoor este un om de știință senior aplicat cu AWS AI. Este pasionat de a ajuta clienții să-și înțeleagă datele în Data Wrangler. În timpul liber, face biciclete montane, face snowboard și își petrece timpul cu familia.

Zohar Karnin este om de știință principal în Amazon AI. Interesele sale de cercetare sunt în domeniile algoritmilor de învățare automată pe scară largă și online. El dezvoltă algoritmi de învățare automată infinit scalabili pentru Amazon SageMaker.

Ajai Sharma este director de produs principal pentru Amazon SageMaker, unde se concentrează pe Data Wrangler, un instrument vizual de pregătire a datelor pentru oamenii de știință de date. Înainte de AWS, Ajai a fost expert în știința datelor la McKinsey and Company, unde a condus angajamente axate pe ML pentru companii de finanțe și asigurări de top din întreaga lume. Ajai este pasionat de știința datelor și îi place să exploreze cei mai noi algoritmi și tehnici de învățare automată.

Derek Baron este manager de dezvoltare software pentru Amazon SageMaker Data Wrangler

Timestamp-ul: Octombrie 24, 2022Octombrie 24, 2022

Timestamp-ul: Septembrie 15, 2022

Detectați modele în datele text cu Amazon SageMaker Data Wrangler

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Importați setul de date

Obțineți informații despre date

Vedeți informații despre învățarea tiparelor

Eliminați datele nevalide

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

AWS Panorama acceptă acum NVIDIA JetPack SDK 4.6.2

Începeți cu implementarea modelelor în timp real pe Amazon SageMaker

Bazele de cunoștințe din Amazon Bedrock simplifică acum adresarea întrebărilor pe un singur document | Amazon Web Services

Prognozele săptămânale pot începe acum duminică cu Amazon Forecast

Simplificați învățarea continuă a modelelor personalizate Amazon Comprehend folosind volantul Comprehend

Căutați inteligent proiectele dvs. Jira cu conectorul cloud Amazon Kendra Jira

Instanța Amazon EC2 DL2q pentru inferență AI rentabilă și de înaltă performanță este acum disponibilă în general | Amazon Web Services

Utilizați Amazon SageMaker Data Wrangler pentru pregătirea datelor și Studio Labs pentru a învăța și a experimenta cu ML

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont