Refit Trained Parameters On Large Datasets Using Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

Amazon SageMaker Data Wrangler vă ajută să înțelegeți, să agregați, să transformați și să pregătiți datele pentru învățarea automată (ML) dintr-o singură interfață vizuală. Conține peste 300 de transformări de date încorporate, astfel încât să puteți normaliza, transforma și combina rapid funcții fără a fi nevoie să scrieți niciun cod.

Practicienii în știința datelor generează, observă și procesează date pentru a rezolva problemele de afaceri acolo unde trebuie să transforme și să extragă caracteristici din seturile de date. Transformările, cum ar fi codificarea ordinală sau codificarea one-hot, învață codificări din setul dvs. de date. Aceste ieșiri codificate sunt denumite parametri antrenați. Pe măsură ce seturile de date se modifică de-a lungul timpului, poate fi necesar să reajustați codificări pe date nevăzute anterior pentru a menține fluxul de transformare relevant pentru datele dvs.

Suntem încântați să anunțăm funcția de reinstalare a parametrilor antrenați, care vă permite să utilizați parametrii antrenați anterior și să-i remontați după cum doriți. În această postare, demonstrăm cum să folosiți această funcție.

Prezentare generală a funcției de reinstalare a Data Wrangler

Ilustram modul în care funcționează această caracteristică cu următorul exemplu, înainte de a ne aprofunda în specificul caracteristicii parametrului antrenat de refit.

Să presupunem că setul de date despre clienți are o caracteristică categorică pentru country reprezentate ca şiruri ca Australia și Singapore. Algoritmii ML necesită intrări numerice; prin urmare, aceste valori categoriale trebuie să fie codificate în valori numerice. Codificarea datelor categorice este procesul de creare a unei reprezentări numerice pentru categorii. De exemplu, dacă țara din categoria dvs. are valori Australia și Singapore, puteți codifica aceste informații în doi vectori: [1, 0] pentru a reprezenta Australia și [0, 1] pentru a reprezenta Singapore. Transformarea folosită aici este o codificare one-hot, iar noua ieșire codificată reflectă parametrii antrenați.

După antrenamentul modelului, cu timpul clienții dvs. pot crește și aveți valori mai distincte în lista de țări. Noul set de date ar putea conține o altă categorie, India, care nu făcea parte din setul de date original, ceea ce poate afecta acuratețea modelului. Prin urmare, este necesar să vă reantrenați modelul cu noile date care au fost colectate de-a lungul timpului.

Pentru a depăși această problemă, trebuie să reîmprospătați codificarea pentru a include noua categorie și să actualizați reprezentarea vectorială conform celui mai recent set de date. În exemplul nostru, codificarea ar trebui să reflecte noua categorie pentru country, Care este India. Ne referim în mod obișnuit la acest proces de reîmprospătare a unei codări ca la o operație de reajustare. După ce efectuați operația de reinstalare, obțineți noua codificare: Australia: [1, 0, 0], Singapore: [0, 1, 0] și India: [0, 0, 1]. Reajustarea codificării one-hot și apoi reantrenarea modelului pe noul set de date are ca rezultat predicții de mai bună calitate.

Caracteristica parametrului antrenat de reajustare a lui Data Wrangler este utilă în următoarele cazuri:

Date noi sunt adăugate la setul de date – Reantrenarea modelului ML este necesară atunci când setul de date este îmbogățit cu date noi. Pentru a obține rezultate optime, trebuie să reajustăm parametrii antrenați pe noul set de date.
Antrenament pe un set de date complet după efectuarea ingineriei caracteristicilor pe date eșantion – Pentru un set de date mare, se ia în considerare un eșantion al setului de date pentru a învăța parametrii instruiți, care este posibil să nu reprezinte întregul set de date. Trebuie să reînvățăm parametrii antrenați pe setul de date complet.

Următoarele sunt unele dintre cele mai comune transformări Data Wrangler efectuate pe setul de date care beneficiază de opțiunea de parametru antrenat de refit:

Pentru mai multe informații despre transformări în Data Wrangler, consultați Transformarea datelor.

În această postare, arătăm cum să procesăm acești parametri antrenați pe seturi de date folosind Data Wrangler. Puteți utiliza fluxurile Data Wrangler în joburile de producție pentru a vă reprocesa datele pe măsură ce acestea cresc și se modifică.

Prezentare generală a soluțiilor

Pentru această postare, demonstrăm cum să folosiți funcția de parametri antrenați de refit a Data Wrangler cu setul de date disponibil public pe Kaggle: Date despre locuințe din SUA de la Zillow, Proprietăți de vânzare în Statele Unite. Are prețurile de vânzare a caselor în diverse geo-distribuții de case.

Următoarea diagramă ilustrează arhitectura de nivel înalt a Data Wrangler folosind caracteristica parametrilor antrenați de refit. De asemenea, arătăm efectul asupra calității datelor fără parametrul antrenat de refit și contrastăm rezultatele la sfârșit.

Fluxul de lucru include următorii pași:

Efectuați o analiză exploratorie a datelor – Creați un nou flux pe Data Wrangler pentru a începe analiza exploratorie a datelor (EDA). Importați date de afaceri pentru a înțelege, curăța, agrega, transforma și pregăti datele pentru instruire. A se referi la Explorați capabilitățile Amazon SageMaker Data Wrangler cu mostre de seturi de date pentru mai multe detalii despre efectuarea EDA cu Data Wrangler.
Creați un job de procesare a datelor – Acest pas exportă toate transformările pe care le-ați făcut pe setul de date ca fișier flux stocat în configurat Serviciul Amazon de stocare simplă (Amazon S3) locație. Lucrarea de procesare a datelor cu fișierul flux generat de Data Wrangler aplică transformările și parametrii antrenați învățați pe setul dvs. de date. Când lucrarea de procesare a datelor este finalizată, fișierele de ieșire sunt încărcate în locația Amazon S3 configurată în nodul de destinație. Rețineți că opțiunea de reinstalare este dezactivată în mod implicit. Ca alternativă la executarea instantanee a sarcinii de procesare, puteți, de asemenea programați o lucrare de procesare în câteva clicuri folosind Data Wrangler – Create Job pentru a rula la anumite momente.
Creați o lucrare de procesare a datelor cu caracteristica parametrului antrenat de refit – Selectați noua caracteristică a parametrilor antrenați de reajustare în timp ce creați jobul pentru a impune reînvățarea parametrilor antrenați pe setul de date complet sau consolidat. Conform configurației locației Amazon S3 pentru stocarea fișierului de flux, jobul de procesare a datelor creează sau actualizează noul fișier de flux. Dacă configurați aceeași locație Amazon S3 ca la Pasul 2, sarcina de procesare a datelor actualizează fișierul flux generat la Pasul 2, care poate fi folosit pentru a menține fluxul relevant pentru datele dvs. La finalizarea lucrării de procesare, fișierele de ieșire sunt încărcate în compartimentul S3 configurat pentru nodul de destinație. Puteți utiliza fluxul actualizat pe întregul set de date pentru un flux de lucru de producție.

Cerințe preliminare

Înainte de a începe, încărcați setul de date într-un bucket S3, apoi importați-l în Data Wrangler. Pentru instrucțiuni, consultați Importați date de pe Amazon S3.

Să parcurgem acum pașii menționați în diagrama arhitecturii.

Efectuați EDA în Data Wrangler

Pentru a încerca caracteristica parametrilor instruiți pentru reajustare, configurați următoarea analiză și transformare în Data Wrangler. La sfârșitul configurării EDA, Data Wrangler creează un fișier de flux capturat cu parametri antrenați din setul de date.

Creați un nou flux în Amazon SageMaker Data Wrangler pentru analiza exploratorie a datelor.
Importați datele comerciale pe care le-ați încărcat pe Amazon S3.
Puteți previzualiza datele și opțiunile pentru alegerea tipului de fișier, a delimitatorului, a eșantionării și așa mai departe. Pentru acest exemplu, folosim În primul rând K opțiunea de eșantionare oferită de Data Wrangler pentru a importa primele 50,000 de înregistrări din setul de date.
Alege Import.