Identifying And Avoiding Common Data Issues While Building No Code ML Models With Amazon SageMaker Canvas

Republicat de Platon

Urmaritori: 0

Analiștii de afaceri lucrează cu date și le place să analizeze, să exploreze și să înțeleagă datele pentru a obține rezultate eficiente de afaceri. Pentru a rezolva problemele de afaceri, ei se bazează adesea pe practicieni de învățare automată (ML), cum ar fi oamenii de știință în date, pentru a ajuta cu tehnici precum utilizarea ML pentru a construi modele folosind datele existente și pentru a genera predicții. Cu toate acestea, nu este întotdeauna posibil, deoarece oamenii de știință de date sunt de obicei legați de sarcinile lor și nu au lățimea de bandă pentru a-i ajuta pe analiști.

Pentru a fi independent și a-ți atinge obiectivele ca analist de afaceri, ar fi ideal să lucrezi cu instrumente ușor de utilizat, intuitive și vizuale care utilizează ML fără a fi nevoie să cunoști detaliile și să folosești codul. Utilizarea acestor instrumente vă va ajuta să vă rezolvați problemele de afaceri și să obțineți rezultatele dorite.

Cu scopul de a vă ajuta pe dvs. și organizația dvs. să deveniți mai eficienți și să utilizați ML fără a scrie cod, noi a introdus Amazon SageMaker Canvas. Aceasta este o soluție ML fără cod, care vă ajută să construiți modele ML precise, fără a fi nevoie să aflați despre detalii tehnice, cum ar fi algoritmii ML și valorile de evaluare. SageMaker Canvas oferă o interfață vizuală, intuitivă, care vă permite să importați date, să antrenați modele ML, să efectuați analize de model și să generați predicții ML, totul fără a scrie o singură linie de cod.

Când utilizați SageMaker Canvas pentru a experimenta, este posibil să întâmpinați probleme de calitate a datelor, cum ar fi valori lipsă sau tipul de problemă greșit. Este posibil ca aceste probleme să nu fie descoperite decât destul de târziu în proces, după antrenarea unui model ML. Pentru a atenua această provocare, SageMaker Canvas acceptă acum validarea datelor. Această funcție verifică în mod proactiv problemele din datele dvs. și oferă îndrumări cu privire la soluții.

În această postare, vom demonstra cum puteți utiliza capacitatea de validare a datelor din SageMaker Canvas înainte de construirea modelului. După cum sugerează și numele, această funcție vă validează setul de date, raportează probleme și oferă indicații utile pentru a le remedia. Folosind date de mai bună calitate, veți ajunge la un model ML mai performant.

Validați datele în SageMaker Canvas

Validarea datelor este o funcție nouă în SageMaker Canvas pentru a verifica în mod proactiv eventualele probleme de calitate a datelor. După ce importați datele și selectați o coloană țintă, vi se oferă posibilitatea de a vă valida datele, așa cum se arată aici:

Dacă alegeți să vă validați datele, Canvas vă analizează datele pentru numeroase condiții, inclusiv:

Prea multe etichete unice în coloana țintă – pentru tipul de model de predicție de categorie
Prea multe etichete unice în coloana țintă pentru numărul de rânduri din date – pentru tipul de model de predicție de categorie
Tip de model greșit pentru datele dvs – tipul de model nu se potrivește cu datele pe care le preziceți în coloana Țintă
Prea multe rânduri nevalide – valori lipsă în coloana țintă
Toate coloanele caracteristice sunt coloane text - vor fi abandonate pentru versiunile standard
Prea puține coloane - prea puține coloane în datele dvs
Nu există rânduri complete – toate rândurile din datele dvs. conțin valori lipsă
Una sau mai multe nume de coloane conțin liniuțe de subliniere duble – SageMaker nu poate gestiona (__) în antetul coloanei

Detaliile pentru fiecare criteriu de validare vor fi furnizate în secțiunile ulterioare ale acestei postări.

Dacă toate verificările sunt trecute, atunci veți primi următoarea confirmare: „Nu au fost găsite probleme în setul dvs. de date”.

Dacă se găsește vreo problemă, veți primi o notificare pentru a vedea și înțelege. Acest lucru scoate la suprafață problemele de calitate a datelor devreme și vă permite să le rezolvați imediat înainte de a pierde timp și resurse în continuare în proces.

Puteți face ajustări și vă puteți continua validarea setului de date până când toate problemele sunt rezolvate.

Validați coloana țintă și tipurile de model

Când construiți un model ML în SageMaker Canvas, mai multe probleme de calitate a datelor legate de coloana țintă poate duce la eșecul construcției modelului dvs. SageMaker Canvas verifică diferite tipuri de probleme care vă pot afecta coloana țintă.

Pentru coloana țintă, verificați Tip de model greșit pentru datele dvs. De exemplu, dacă este selectat un model de predicție cu 2 categorii, dar coloana țintă are mai mult de 2 etichete unice, atunci SageMaker Canvas va furniza următorul avertisment de validare.
Dacă tipul de model este predicție de 2 sau 3+ categorii, atunci trebuie să validați prea multe etichete unice pentru coloana țintă. Numărul maxim de clase unice este 2000. Dacă selectați o coloană cu mai mult de 2000 de valori unice în coloana țintă, atunci Canvas va furniza următorul avertisment de validare.
Pe lângă prea multe etichete țintă unice, ar trebui să fiți atenți și la acestea multe etichete țintă unice pentru numărul de rânduri din datele dvs. SageMaker Canvas impune ca raportul dintre eticheta țintă și numărul total de rânduri să fie mai mic de 10%. Acest lucru vă asigură că aveți suficientă reprezentare pentru fiecare categorie pentru un model de înaltă calitate și reduceți potențialul de supraadaptare. Modelul dvs. este considerat supraadaptat atunci când prezice bine pe datele de antrenament, dar nu pe date noi pe care nu le-a văzut înainte. Consultați aici pentru a afla mai multe.
În cele din urmă, ultima verificare pentru coloana țintă este prea multe rânduri nevalide. Dacă coloana țintă are mai mult de 10% din date lipsă sau invalide, atunci aceasta va afecta performanța modelului și, în unele cazuri, va duce la eșecul construcției modelului. Următorul exemplu are multe valori lipsă (>90% lipsesc) în coloana țintă și obțineți următorul avertisment de validare.

Dacă primiți oricare dintre avertismentele de mai sus pentru coloana țintă, atunci utilizați următorii pași pentru a atenua problemele:

Folosiți coloana țintă din dreapta?
Ai selectat tipul corect de model?
Puteți crește numărul de rânduri din setul de date pentru fiecare etichetă țintă?
Puteți consolida/grupa etichete similare împreună?
Puteți completa valorile lipsă/invalide?
Aveți suficiente date pentru a putea elimina valorile lipsă/invalide?
Dacă toate opțiunile de mai sus nu șterg avertismentul, atunci ar trebui să luați în considerare utilizarea unui set de date diferit.

Consultați Documentația de transformare a datelor SageMaker Canvas pentru a efectua etapele de imputare mai sus mentionate.

Validați toate coloanele

În afară de coloana țintă, este posibil să întâmpinați probleme de calitate a datelor și cu alte coloane de date (coloane cu caracteristici). Coloanele de caracteristici sunt date de intrare utilizate pentru a face o predicție ML.

Fiecare set de date trebuie să aibă cel puțin 1 coloană caracteristică și 1 coloană țintă (2 coloane în total). În caz contrar, SageMaker Canvas vă va oferi un Prea puține coloane în datele dvs avertizare. Trebuie să îndepliniți această cerință înainte de a putea continua cu construirea unui model.
După aceea, trebuie să vă asigurați că datele dvs. au cel puțin o coloană numerică. Dacă nu, atunci vei primi toate coloanele caracteristice sunt coloane text avertizare. Acest lucru se datorează faptului că coloanele de text sunt de obicei eliminate în timpul versiunilor standard, lăsând astfel modelul fără caracteristici de antrenat. Prin urmare, acest lucru va duce la eșecul construcției dvs. de model. Puteți folosi SageMaker Canvas pentru a codifica unele dintre coloanele de text în numere sau puteți utiliza construcția rapidă în loc de compilarea standard.
Al treilea tip de avertizare pe care îl puteți primi pentru coloanele de caracteristici este Nu există rânduri complete. Această validare verifică dacă aveți cel puțin un rând fără valori lipsă. SageMaker Canvas necesită cel puțin un rând complet, altfel dvs construcție rapidă va eșua. Încercați să completați valorile lipsă înainte de a construi modelul.
Ultimul tip de validare este Una sau mai multe nume de coloane conțin liniuțe de subliniere duble. Aceasta este o cerință specifică pentru SageMaker Canvas. Dacă aveți liniuțe de subliniere duble (__) în anteturile de coloană, atunci acest lucru vă va provoca construcție rapidă a esua. Redenumiți coloanele pentru a elimina orice caractere de subliniere duble, apoi încercați din nou.

A curăța

Pentru a evita riscul viitor taxe de sesiune, deconectați-vă de la SageMaker Canvas.

Concluzie

SageMaker Canvas este o soluție ML fără cod, care permite analiștilor de afaceri să creeze modele ML precise și să genereze predicții printr-o interfață vizuală, punct-and-click. V-am arătat cum SageMaker Canvas vă ajută să vă asigurați de calitatea datelor și să reduceți problemele de date prin validarea proactivă a setului de date. Prin identificarea timpurie a problemelor, SageMaker Canvas vă ajută să construiți modele ML de calitate și să reduceți iterațiile de construcție fără expertiză în știința datelor și programare. Pentru a afla mai multe despre această nouă caracteristică, consultați Documentația SageMaker Canvas.

Pentru a începe și pentru a afla mai multe despre SageMaker Canvas, consultați următoarele resurse:

Despre autori

Hariharan Suresh este arhitect senior de soluții la AWS. Este pasionat de baze de date, de învățare automată și de proiectarea de soluții inovatoare. Înainte de a se alătura AWS, Hariharan a fost arhitect de produs, specialist principal în implementare bancară și dezvoltator și a lucrat cu organizații BFSI timp de peste 11 ani. În afara tehnologiei, îi plac parapanta și ciclismul.

Sainath Miriyala este Senior Technical Account Manager la AWS, care lucrează pentru clienții auto din SUA. Sainath este pasionat de proiectarea și construirea de aplicații distribuite la scară largă folosind AI/ML. În timpul liber, Sainath își petrece timpul cu familia și prietenii.

James Wu este arhitect senior de soluții de specialitate AI/ML la AWS. ajutând clienții să proiecteze și să construiască soluții AI/ML. Munca lui James acoperă o gamă largă de cazuri de utilizare ML, cu un interes principal în viziunea computerizată, învățarea profundă și scalarea ML în întreaga întreprindere. Înainte de a se alătura AWS, James a fost arhitect, dezvoltator și lider tehnologic timp de peste 10 ani, inclusiv 6 ani în inginerie și 4 ani în industriile de marketing și publicitate.

Timestamp-ul: Noiembrie 10, 2022Noiembrie 11, 2022

Timestamp-ul: 5 Mai, 2022

Identificarea și evitarea problemelor comune de date în timp ce construiți modele ML fără cod cu Amazon SageMaker Canvas

Republicat de Platon

Validați datele în SageMaker Canvas

Validați coloana țintă și tipurile de model

Validați toate coloanele

A curăța

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

Anunțarea de noi instrumente și capabilități pentru a permite inovarea responsabilă în inteligența artificială | Amazon Web Services

Activați CI/CD pentru punctele finale Amazon SageMaker cu mai multe regiuni

Procesarea inteligentă a documentelor cu servicii AWS AI și Analytics în industria asigurărilor: Partea 2

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont