Prepare Data From Amazon EMR For Machine Learning Using Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

Pregătirea datelor este o componentă principală a conductelor de învățare automată (ML). De fapt, se estimează că profesioniștii în domeniul datelor își petrec aproximativ 80% din timp pregătirii datelor. Pe această piață competitivă intensă, echipele doresc să analizeze datele și să extragă rapid informații mai semnificative. Clienții adoptă modalități mai eficiente și mai vizuale de a construi sisteme de procesare a datelor.

Amazon SageMaker Data Wrangler simplifică procesul de pregătire a datelor și de inginerie a caracteristicilor, reducând timpul necesar de la săptămâni la minute, oferind o interfață vizuală unică pentru oamenii de știință de date pentru a selecta, curăța datele, crea funcții și automatizează pregătirea datelor în fluxurile de lucru ML fără a scrie niciun cod. Puteți importa date din mai multe surse de date, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, și Fulg de zăpadă. Acum puteți folosi și Amazon EMR ca sursă de date în Data Wrangler pentru a pregăti cu ușurință datele pentru ML.

Analizarea, transformarea și pregătirea unor cantități mari de date este un pas fundamental al oricărui flux de lucru ML și știința datelor. Profesioniștii în domeniul datelor, cum ar fi oamenii de știință ai datelor, doresc să valorifice puterea Apache Spark, Stup, și Presto rulează pe Amazon EMR pentru pregătirea rapidă a datelor, dar curba de învățare este abruptă. Clienții noștri doreau posibilitatea de a se conecta la Amazon EMR pentru a rula interogări SQL ad-hoc pe Hive sau Presto pentru a interoga date în metamagazinul intern sau în metamagazinul extern (de exemplu, AWS Glue Data Catalog) și pentru a pregăti date în câteva clicuri.

Acest articol de blog va discuta despre cum clienții pot găsi și se pot conecta acum la clusterele Amazon EMR existente folosind o experiență vizuală în SageMaker Data Wrangler. Aceștia pot inspecta vizual baza de date, tabelele, schema și interogările Presto pentru a se pregăti pentru modelare sau raportare. Apoi, aceștia pot profila rapid datele folosind o interfață vizuală pentru a evalua calitatea datelor, pentru a identifica anomaliile sau datele lipsă sau eronate și pentru a primi informații și recomandări despre cum să rezolve aceste probleme. În plus, ei pot analiza, curăța și proiecta caracteristici cu ajutorul a peste o duzină de analize încorporate suplimentare și a peste 300 de transformări încorporate suplimentare susținute de Spark fără a scrie o singură linie de cod.

Prezentare generală a soluțiilor

Profesioniștii în date se pot găsi și se pot conecta rapid la clusterele EMR existente folosind configurațiile SageMaker Studio. În plus, profesioniștii în date pot închide clusterele EMR cu doar câteva clicuri de la SageMaker Studio folosind șabloane predefinite și crearea la cerere de clustere EMR. Cu ajutorul acestor instrumente, clienții pot sări direct în notebook-ul universal SageMaker Studio și pot scrie cod în Apache Spark, Hive, Presto sau PySpark pentru a efectua pregătirea datelor la scară. Datorită curbei abrupte de învățare pentru crearea codului Spark pentru a pregăti datele, nu toți profesioniștii în domeniul datelor sunt confortabili cu această procedură. Cu Amazon EMR ca sursă de date pentru Amazon SageMaker Data Wrangler, acum vă puteți conecta rapid și ușor la Amazon EMR fără a scrie o singură linie de cod.

Următoarea diagramă reprezintă diferitele componente utilizate în această soluție.

Demonstrăm două opțiuni de autentificare care pot fi utilizate pentru a stabili o conexiune la clusterul EMR. Pentru fiecare opțiune, implementăm o stivă unică de Formarea AWS Cloud template-uri.

Șablonul CloudFormation efectuează următoarele acțiuni atunci când fiecare opțiune este selectată:

Creează un domeniu Studio în modul numai VPC, împreună cu un profil de utilizator numit studio-user.
Creează blocuri de construcție, inclusiv VPC, puncte finale, subrețele, grupuri de securitate, cluster EMR și alte resurse necesare pentru a rula cu succes exemplele.
Pentru clusterul EMR, conectează Catalogul de date AWS Glue ca metamagazin pentru EMR Hive și Presto, creează un tabel Hive în EMR și îl completează cu date dintr-un set de date de aeroport din SUA.
Pentru șablonul LDAP CloudFormation, creează un Amazon Elastic Compute Cloud (Amazon EC2) instanță pentru a găzdui serverul LDAP pentru a autentifica utilizatorul Hive și Presto LDAP.

Opțiunea 1: Protocol de director de acces ușor

Pentru șablonul CloudFormation de autentificare LDAP, punem la dispoziție o instanță Amazon EC2 cu un server LDAP și configuram clusterul EMR pentru a utiliza acest server pentru autentificare. Acesta este activat TLS.

Opțiunea 2: Fără autorizare

În șablonul CloudFormation de autentificare fără autentificare, folosim un cluster EMR standard fără autentificare activată.

Implementați resursele cu AWS CloudFormation

Parcurgeți următorii pași pentru a implementa mediul:

Conectați-vă la Consola de administrare AWS ca o AWS Identity and Access Management (IAM) utilizator, de preferință un utilizator admin.
Alege Lansați Stack pentru a lansa șablonul CloudFormation pentru scenariul de autentificare adecvat. Asigurați-vă că Regiunea folosită pentru a implementa stiva CloudFormation nu are un domeniu Studio existent. Dacă aveți deja un domeniu Studio într-o regiune, puteți alege o altă regiune.
- Stiva de lansare LDAP
- Stivă de lansare fără autentificare
Alege Pagina Următoare →.
Pentru Numele stivei, introduceți un nume pentru stivă (de exemplu, dw-emr-blog).
Lăsați celelalte valori ca implicite.
Pentru a continua, alege Pagina Următoare → din pagina cu detaliile stivei și din opțiunile stivei. Stiva LDAP utilizează următoarele acreditări:
- Nume utilizator: david
- parola: welcome123
Pe pagina de examinare, bifați caseta de validare pentru a confirma că AWS CloudFormation ar putea crea resurse.
Alege Creați stivă. Așteptați până când starea stivei se schimbă de la CREATE_IN_PROGRESS la CREATE_COMPLETE. Procesul durează de obicei 10-15 minute.

Notă: Dacă doriți să încercați mai multe stive, urmați pașii din secțiunea Curățare. Amintește-ți că trebuie ștergeți domeniul SageMaker Studio înainte ca următoarea stivă să poată fi lansată cu succes.

Configurați Amazon EMR ca sursă de date în Data Wrangler

În această secțiune, vom acoperi conectarea la clusterul Amazon EMR existent creat prin șablonul CloudFormation ca sursă de date în Data Wrangler.

Creați un nou flux de date

Pentru a crea fluxul de date, parcurgeți următorii pași:

Pe consola SageMaker, alegeți Amazon SageMaker Studio în panoul de navigare.
Alege Studio deschis.
În Lansatorul, alegeți Flux de date nou. Alternativ, pe Fișier meniul drop-down, alegeți Nou, apoi alegeți Fluxul Data Wrangler.
Crearea unui flux nou poate dura câteva minute. După ce fluxul a fost creat, vedeți Date de import .

Adăugați Amazon EMR ca sursă de date în Data Wrangler

În meniul Adăugare sursă de date, alegeți Amazon EMR.

Puteți răsfoi toate clusterele EMR pe care rolul dvs. de execuție Studio are permisiuni de a le vedea. Aveți două opțiuni pentru a vă conecta la un cluster; unul este prin interfața de utilizare interactivă, iar celălalt este primul creați un secret utilizând AWS Secrets Manager cu adresa URL JDBC, inclusiv informațiile cluster EMR și apoi furnizați ARN-ul secret AWS stocat în interfața de utilizare pentru a vă conecta la Presto. În acest blog, urmărim prima opțiune. Selectați unul dintre următoarele grupuri pe care doriți să le utilizați. Click pe Pagina Următoare →Și selectați Obiective.

Selectați Presto, conectează la Amazon EMR, creați un nume pentru a vă identifica conexiunea și faceți clic Următorul.

Selectați Autentificare tastați, fie LDAP, fie Fără autentificare și faceți clic Conectați.

Pentru protocolul LDAP (Lightweight Directory Access Protocol), furnizați numele de utilizator și parola pentru a fi autentificate.

Pentru Fără autentificare, veți fi conectat la EMR Presto fără a furniza acreditări de utilizator în VPC. Accesați pagina de explorare SQL a Data Wrangler pentru EMR.

Odată conectat, puteți vizualiza interactiv un arbore de bază de date și o previzualizare sau o schemă de tabel. De asemenea, puteți interoga, explora și vizualiza date din EMR. Pentru previzualizare, veți vedea o limită de 100 de înregistrări în mod implicit. Pentru interogare personalizată, puteți furniza instrucțiuni SQL în caseta editorului de interogări și odată ce faceți clic pe Alerga butonul, interogarea va fi executată pe motorul Presto al EMR.

Anulați interogarea butonul permite anularea interogărilor în curs dacă durează o perioadă neobișnuit de lungă.

Ultimul pas este importul. Odată ce sunteți gata cu datele interogate, aveți opțiuni pentru a actualiza setările de eșantionare pentru selecția datelor în funcție de tipul de eșantionare (FirstK, Random sau Stratified) și dimensiunea de eșantionare pentru importarea datelor în Data Wrangler.

Clic Import. Pagina de pregătire va fi încărcată, permițându-vă să adăugați diverse transformări și analize esențiale la setul de date.

Navigați la DataFlow din ecranul de sus și adăugați mai mulți pași fluxului după cum este necesar pentru transformări și analize. Puteți rula un raport de analiză a datelor pentru a identifica problemele legate de calitatea datelor și pentru a obține recomandări pentru a remedia aceste probleme. Să ne uităm la câteva exemple de transformări.

Accesați fluxul de date și acesta este ecranul pe care ar trebui să-l vedeți. Ne arată că folosim EMR ca sursă de date folosind conectorul Presto.

Să facem clic pe butonul + din dreapta Tipurilor de date și să selectăm Adăugați transformare. Când faceți asta, ar trebui să apară următorul ecran:

Să explorăm datele. Vedem că are multiple caracteristici precum iata_code, aeroport, oraș, de stat, ţară, latitudine, și longitudine. Putem vedea că întregul set de date se bazează într-o singură țară, care este SUA, și lipsesc valori pentru Latitudine și Longitudine. Lipsa datelor poate cauza distorsiuni în estimarea parametrilor și poate reduce reprezentativitatea eșantioanelor, așa că trebuie să realizăm unele imputare și gestionați valorile lipsă din setul nostru de date.

Să facem clic pe Adăugați Pasul butonul din bara de navigare din dreapta. Selectați Mânerul lipsește. Configurațiile pot fi văzute în următoarele capturi de ecran. Sub Transforma, selecta Impute. Selectați tipul de coloană ca Numeric și numele coloanelor Latitudine și Longitudine. Vom imputa valorile lipsă folosind o valoare mediană aproximativă. Previzualizează și adaugă transformarea.

Să ne uităm acum la un alt exemplu de transformare. Când construiți un model de învățare automată, coloanele sunt eliminate dacă sunt redundante sau nu vă ajută modelul. Cel mai comun mod de a elimina o coloană este să o aruncați. În setul nostru de date, caracteristica ţară poate fi abandonat, deoarece setul de date este special pentru datele aeroporturilor din SUA. Să vedem cum putem gestiona coloanele. Să facem clic pe Adăugați pasul butonul din bara de navigare din dreapta. Selectați Gestionați coloanele. Configurațiile pot fi văzute în următoarele capturi de ecran. Sub Transforma, Selectați Aruncați coloanași sub Coloane de aruncat, Selectați Țară.

Puteți continua să adăugați pași pe baza diferitelor transformări necesare pentru setul dvs. de date. Să revenim la fluxul nostru de date. Veți vedea acum încă două blocuri care arată transformările pe care le-am efectuat. În scenariul nostru, puteți vedea Impute și Aruncați coloana.

Practicanții ML petrec mult timp creând codul de inginerie a caracteristicilor, aplicându-l la seturile lor de date inițiale, antrenând modele pe seturile de date proiectate și evaluând acuratețea modelului. Având în vedere natura experimentală a acestei lucrări, chiar și cel mai mic proiect va duce la mai multe iterații. Același cod de inginerie a caracteristicilor este adesea rulat din nou și din nou, pierzând timp și resurse de calcul repetarea acelorași operațiuni. În organizațiile mari, acest lucru poate provoca o pierdere și mai mare a productivității, deoarece echipele diferite execută adesea lucrări identice sau chiar scriu coduri de inginerie a caracteristicilor duplicat, deoarece nu au cunoștințe despre munca anterioară. Pentru a evita reprocesarea caracteristicilor, acum vom exporta caracteristicile noastre transformate în Magazin de funcții Amazon. Să facem clic pe + buton din dreapta Aruncați coloana. Selecta Export către Și alegeți Magazin de funcții Sagemaker (prin notebook-ul Jupyter).

Puteți exporta cu ușurință caracteristicile dvs. generate în Magazin de caracteristici SageMaker selectând-o ca destinație. Puteți salva caracteristicile într-un grup de caracteristici existent sau puteți crea unul nou.

Acum am creat funcții cu Data Wrangler și le-am stocat cu ușurință în Feature Store. Am arătat un exemplu de flux de lucru pentru ingineria caracteristicilor în interfața de utilizare Data Wrangler. Apoi am salvat acele caracteristici în Magazinul de funcții direct din Data Wrangler prin crearea unui nou grup de caracteristici. În cele din urmă, am desfășurat o lucrare de procesare pentru a ingera aceste funcții în Feature Store. Data Wrangler și Feature Store împreună ne-au ajutat să construim procese automate și repetabile pentru a ne simplifica sarcinile de pregătire a datelor cu codificare minimă necesară. Data Wrangler ne oferă, de asemenea, ﬂexibilitatea de a automatiza același flux de pregătire a datelor folosind locuri de muncă programate. De asemenea, putem automatiza instruirea sau ingineria de caracteristici cu SageMaker Pipelines (prin Jupyter Notebook) și implementăm la punctul final de inferență cu pipeline de inferență SageMaker (prin Jupyter Notebook).

A curăța

Dacă munca dvs. cu Data Wrangler este completă, selectați stiva creată din pagina CloudFormation și ștergeți-o pentru a evita costurile suplimentare.

Concluzie

În această postare, am analizat cum să configurați Amazon EMR ca sursă de date în Data Wrangler, cum să transformăm și să analizăm un set de date și cum să exportăm rezultatele într-un flux de date pentru a fi utilizate într-un notebook Jupyter. După ce ne-am vizualizat setul de date folosind caracteristicile analitice încorporate ale Data Wrangler, ne-am îmbunătățit și mai mult fluxul de date. Faptul că am creat o conductă de pregătire a datelor fără a scrie o singură linie de cod este semnificativ.

Pentru a începe cu Data Wrangler, consultați Pregătiți datele ML cu Amazon SageMaker Data Wrangler, și vedeți cele mai recente informații despre Pagina de produs Data Wrangler.

Despre autori

Ajjay Govindaram este arhitect senior de soluții la AWS. Lucrează cu clienți strategici care folosesc AI/ML pentru a rezolva probleme complexe de afaceri. Experiența sa constă în furnizarea de direcție tehnică, precum și asistență de proiectare pentru implementări de aplicații AI/ML la scară mică sau mare. Cunoștințele sale variază de la arhitectura aplicațiilor la big data, analiză și învățarea automată. Îi place să asculte muzică în timp ce se odihnește, să experimenteze în aer liber și să petreacă timpul cu cei dragi.

Isha Dua este un arhitect senior de soluții cu sediul în San Francisco Bay Area. Ea îi ajută pe clienții întreprinderilor AWS să se dezvolte prin înțelegerea obiectivelor și provocărilor lor și îi îndrumă asupra modului în care își pot arhitectura aplicațiile într-o manieră nativă în cloud, asigurându-se în același timp că sunt rezistente și scalabile. Este pasionată de tehnologiile de învățare automată și de sustenabilitatea mediului.

Rui Jiang este inginer de dezvoltare software la AWS cu sediul în zona New York City. Ea este membră a echipei SageMaker Data Wrangler, ajutând la dezvoltarea de soluții de inginerie pentru clienții întreprinderilor AWS pentru a-și îndeplini nevoile de afaceri. În afara serviciului, îi place să exploreze alimente noi, fitness, activități în aer liber și călătorii.

Timestamp-ul: December 8, 2022December 8, 2022

Timestamp-ul: 30 Mai, 2023

Procesare paralelă a datelor cu RStudio pe Amazon SageMaker

Cluster sursă:

Învățare automată AWS

Nodul sursă: 1671065

Timestamp-ul: Septembrie 19, 2022

Pregătiți date din Databricks pentru învățarea automată folosind Amazon SageMaker Data Wrangler

Cluster sursă:

Învățare automată AWS

Nodul sursă: 1243552

Timestamp-ul: Mar 31, 2022

Accelerați inferența Amazon SageMaker cu instanțe Amazon EC6 C2i bazate pe Intel

Cluster sursă:

Învățare automată AWS

Nodul sursă: 1816297

Timestamp-ul: Mar 20, 2023

Pregătiți date de la Amazon EMR pentru învățarea automată folosind Amazon SageMaker Data Wrangler

Republicat de Platon

Prezentare generală a soluțiilor

Opțiunea 1: Protocol de director de acces ușor

Opțiunea 2: Fără autorizare

Implementați resursele cu AWS CloudFormation

Configurați Amazon EMR ca sursă de date în Data Wrangler

Creați un nou flux de date

Adăugați Amazon EMR ca sursă de date în Data Wrangler

A curăța

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

Conectați Amazon EMR și RStudio pe Amazon SageMaker

Conectați fără probleme Amazon Athena cu Amazon Lookout for Metrics pentru a detecta anomaliile

Cum VistaPrint oferă recomandări personalizate de produse cu Amazon Personalize | Amazon Web Services

Detectarea anomaliilor cu Amazon SageMaker Edge Manager folosind AWS IoT Greengrass V2

Căutați inteligent conținut Adobe Experience Manager folosind Amazon Kendra | Amazon Web Services

Utilizați o adresă URL presemnată pentru a oferi analiștilor dvs. de afaceri acces securizat la Amazon SageMaker Canvas

Procesare paralelă a datelor cu RStudio pe Amazon SageMaker

Pregătiți date din Databricks pentru învățarea automată folosind Amazon SageMaker Data Wrangler

Accelerați inferența Amazon SageMaker cu instanțe Amazon EC6 C2i bazate pe Intel

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont