Optimizați pregătirea datelor cu funcții noi în Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

Pregătirea datelor este un pas critic în orice proiect bazat pe date, iar deținerea instrumentelor potrivite poate spori considerabil eficiența operațională. Amazon SageMaker Data Wrangler reduce timpul necesar pentru agregarea și pregătirea datelor tabelare și imagini pentru învățarea automată (ML) de la săptămâni la minute. Cu SageMaker Data Wrangler, puteți simplifica procesul de pregătire a datelor și de inginerie a caracteristicilor și puteți finaliza fiecare pas al fluxului de lucru de pregătire a datelor, inclusiv selecția datelor, curățarea, explorarea și vizualizarea dintr-o singură interfață vizuală.

În această postare, explorăm cele mai recente caracteristici ale SageMaker Data Wrangler care sunt concepute special pentru a îmbunătăți experiența operațională. Aprofundăm în sprijinul lui Serviciu simplu de depozitare (Amazon S3) manifesta fișiere, artefacte de inferență într-un flux de date interactiv și integrarea perfectă cu JSON (JavaScript Object Notation) format pentru inferență, evidențiind modul în care aceste îmbunătățiri fac pregătirea datelor mai ușoară și mai eficientă.

Introducerea de noi funcții

În această secțiune, discutăm noile caracteristici ale SageMaker Data Wrangler pentru pregătirea optimă a datelor.

Suport fișier S3 manifest cu SageMaker Autopilot pentru inferența ML

SageMaker Data Wrangler permite a pregătirea unificată a datelor și formarea modelului experiență cu Pilot automat cu Amazon SageMaker în doar câteva clicuri. Puteți utiliza SageMaker Autopilot pentru a antrena, regla și implementa automat modele pe datele pe care le-ați transformat în fluxul dvs. de date.

Această experiență este acum simplificată și mai mult cu suportul pentru fișierele manifest S3. Un fișier manifest S3 este un fișier text care listează obiectele (fișierele) stocate într-o găleată S3. Dacă setul de date exportat în SageMaker Data Wrangler este destul de mare și împărțit în fișiere de date cu mai multe părți în Amazon S3, acum SageMaker Data Wrangler va crea automat un fișier manifest în S3 reprezentând toate aceste fișiere de date. Acest fișier manifest generat poate fi utilizat acum cu SageMaker Autopilot UI în SageMaker Data Wrangler pentru a prelua toate datele partiționate pentru antrenament.

Înainte de lansarea acestei caracteristici, atunci când utilizați modele SageMaker Autopilot instruite pe date pregătite din SageMaker Data Wrangler, puteți alege un singur fișier de date, care ar putea să nu reprezinte întregul set de date, mai ales dacă setul de date este foarte mare. Cu această nouă experiență de fișier manifest, nu vă limitați la un subset al setului de date. Puteți construi un model ML cu SageMaker Autopilot reprezentând toate datele dvs. folosind fișierul manifest și să îl utilizați pentru inferența ML și implementarea în producție. Această caracteristică îmbunătățește eficiența operațională prin simplificarea antrenării modelelor ML cu SageMaker Autopilot și eficientizarea fluxurilor de lucru de procesare a datelor.

S-a adăugat suport pentru fluxul de inferență în artefactele generate

Clienții doresc să preia transformările de date pe care le-au aplicat datelor de antrenament ale modelului, cum ar fi codificarea one-hot, PCA și să impute valorile lipsă și să aplice acele transformări de date la inferența în timp real sau la inferența în lot în producție. Pentru a face acest lucru, trebuie să aveți un artefact de inferență SageMaker Data Wrangler, care este consumat de un model SageMaker.

Anterior, artefactele de inferență puteau fi generate numai din interfața de utilizare atunci când se exporta la antrenamentul SageMaker Autopilot sau se exporta un blocnotes cu pipeline de inferență. Acest lucru nu a oferit flexibilitate dacă ați vrut să vă duceți fluxurile SageMaker Data Wrangler în afara Amazon SageMaker Studio mediu inconjurator. Acum, puteți genera un artefact de inferență pentru orice fișier de flux compatibil printr-o lucrare de procesare SageMaker Data Wrangler. Acest lucru permite MLOp-uri programatice, end-to-end, cu fluxuri SageMaker Data Wrangler pentru personaje MLOps care primesc cod, precum și o cale intuitivă, fără cod, pentru a obține un artefact de inferență prin crearea unui job din interfața de utilizare.

Raționalizarea pregătirii datelor

JSON a devenit un format adoptat pe scară largă pentru schimbul de date în ecosistemele moderne de date. Integrarea SageMaker Data Wrangler cu formatul JSON vă permite să gestionați fără probleme datele JSON pentru transformare și curățare. Oferind suport nativ pentru JSON, SageMaker Data Wrangler simplifică procesul de lucru cu date structurate și semi-structurate, permițându-vă să extrageți informații valoroase și să pregătiți datele în mod eficient. SageMaker Data Wrangler acceptă acum formatul JSON atât pentru implementarea în lot, cât și pentru implementarea punctelor finale de inferență în timp real.

Prezentare generală a soluțiilor

Pentru cazul nostru de utilizare, folosim eșantionul Setul de date privind recenziile clienților Amazon pentru a arăta cum SageMaker Data Wrangler poate simplifica efortul operațional de a construi un nou model ML folosind SageMaker Autopilot. Setul de date privind recenziile clienților Amazon conține recenzii despre produse și metadate de la Amazon, inclusiv 142.8 milioane de recenzii din mai 1996 până în iulie 2014.

La un nivel înalt, folosim SageMaker Data Wrangler pentru a gestiona acest set mare de date și pentru a efectua următoarele acțiuni:

Dezvoltați un model ML în SageMaker Autopilot folosind tot setul de date, nu doar un eșantion.
Construiți o conductă de inferență în timp real cu artefactul de inferență generat de SageMaker Data Wrangler și utilizați formatarea JSON pentru intrare și ieșire.

Suport fișier S3 manifest cu SageMaker Autopilot

Când creați un experiment SageMaker Autopilot utilizând SageMaker Data Wrangler, anterior puteați specifica doar un singur fișier CSV sau Parquet. Acum puteți utiliza și un fișier manifest S3, permițându-vă să utilizați cantități mari de date pentru experimentele SageMaker Autopilot. SageMaker Data Wrangler va partiționa automat fișierele de date de intrare în mai multe fișiere mai mici și va genera un manifest care poate fi utilizat într-un experiment SageMaker Autopilot pentru a extrage toate datele din sesiunea interactivă, nu doar o mică mostră.

Urmați pașii următori:

Importați datele recenziilor clienților Amazon dintr-un fișier CSV în SageMaker Data Wrangler. Asigurați-vă că dezactivați eșantionarea atunci când importați datele.
Specificați transformările care normalizează datele. Pentru acest exemplu, eliminați simbolurile și transformați totul în litere mici folosind transformările încorporate ale SageMaker Data Wrangler.
Alege Model de tren pentru a începe antrenamentul.

Flux de date - Model de tren

Pentru a antrena un model cu SageMaker Autopilot, SageMaker exportă automat datele într-o găleată S3. Pentru seturi de date mari, precum acesta, va împărți automat fișierul în fișiere mai mici și va genera un manifest care include locația fișierelor mai mici.

Flux de date - Pilot automat

Mai întâi, selectați datele de intrare.

Anterior, SageMaker Data Wrangler nu avea opțiunea de a genera un fișier manifest pentru a fi utilizat cu SageMaker Autopilot. Astăzi, odată cu lansarea suportului pentru fișierele manifest, SageMaker Data Wrangler va exporta automat un fișier manifest în Amazon S3, va completa în prealabil locația S3 a antrenamentului SageMaker Autopilot cu locația fișierului manifest S3 și va comuta opțiunea fișierului manifest la Da. Nu este necesară nicio muncă pentru a genera sau utiliza fișierul manifest.

Experiment cu pilot automat

Configurați experimentul selectând ținta pe care modelul trebuie să o prezică.
Apoi, selectați o metodă de antrenament. În acest caz, selectăm Auto și lăsați SageMaker Autopilot să decidă cea mai bună metodă de antrenament pe baza dimensiunii setului de date.

Creați un experiment cu pilot automat

Specificați setările de implementare.
În cele din urmă, examinați configurația jobului și trimiteți experimentul SageMaker Autopilot pentru instruire. Când SageMaker Autopilot finalizează experimentul, puteți vizualiza rezultatele antrenamentului și puteți explora cel mai bun model.

Experiment cu pilot automat - Finalizat

Datorită suportului pentru fișierele manifest, puteți utiliza întregul set de date pentru experimentul SageMaker Autopilot, nu doar un subset al datelor dvs.

Pentru mai multe informații despre utilizarea SageMaker Autopilot cu SageMaker Data Wrangler, consultați Pregătirea unificată a datelor și formarea modelelor cu Amazon SageMaker Data Wrangler și Amazon SageMaker Autopilot.

Generați artefacte de inferență din joburile de procesare SageMaker

Acum, să vedem cum putem genera artefacte de inferență atât prin interfața de utilizare SageMaker Data Wrangler, cât și prin blocnotesurile SageMaker Data Wrangler.

SageMaker Data Wrangler UI

Pentru cazul nostru de utilizare, dorim să ne procesăm datele prin interfața de utilizare și apoi să folosim datele rezultate pentru a antrena și a implementa un model prin consola SageMaker. Parcurgeți următorii pași:

Deschideți fluxul de date creat de dvs. în secțiunea anterioară.
Alegeți semnul plus de lângă ultima transformare, alegeți Adăugați destinațiași alegeți Amazon S3. Aici vor fi stocate datele prelucrate.
Alege Creați loc de muncă.
Selectați Generați artefacte de inferență în secțiunea Parametri de inferență pentru a genera un artefact de inferență.
Pentru Nume artefact de inferență, introduceți numele artefactului de inferență (cu .tar.gz ca extensie de fișier).
Pentru nodul de ieșire Inferență, introduceți nodul de destinație corespunzător transformărilor aplicate datelor dvs. de antrenament.
Alege Configurați job.
În Configurarea jobului, introduceți o cale pentru Locația fișierului flux S3. Un folder numit data_wrangler_flows va fi creat în această locație, iar artefactul de inferență va fi încărcat în acest folder. Pentru a schimba locația de încărcare, setați o altă locație S3.
Lăsați valorile implicite pentru toate celelalte opțiuni și alegeți Crea pentru a crea jobul de procesare.

Lucrarea de procesare va crea un tarball (.tar.gz) care conține un fișier de flux de date modificat cu o secțiune de inferență nou adăugată care vă permite să-l utilizați pentru inferență. Aveți nevoie de identificatorul uniform de resurse (URI) S3 al artefactului de inferență pentru a furniza artefactul unui model SageMaker atunci când implementați soluția de inferență. URI-ul va fi sub formă {Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz.
Dacă nu ați notat aceste valori mai devreme, puteți alege linkul către jobul de procesare pentru a găsi detaliile relevante. În exemplul nostru, URI-ul este s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
Copiați valoarea lui Procesarea imaginii; avem nevoie și de acest URI atunci când ne creăm modelul.
Acum putem folosi acest URI pentru a crea un model SageMaker pe consola SageMaker, pe care îl putem implementa ulterior într-un punct final sau într-un job de transformare în lot.
În Setările modelului¸ introduceți un nume de model și specificați rolul dvs. IAM.
Pentru Opțiuni de introducere a containerului, Selectați Furnizați artefactele modelului și locația imaginii de inferență.
Pentru Locația imaginii codului de inferență, introduceți URI-ul imaginii de procesare.
Pentru Localizarea artefactelor modelului, introduceți URI-ul artefactului de inferență.
În plus, dacă datele dvs. au o coloană țintă care va fi prezisă de un model ML antrenat, specificați numele acelei coloane sub Variabile de mediu, Cu INFERENCE_TARGET_COLUMN_NAME as Cheie iar numele coloanei ca Valoare.
Finalizați crearea modelului dvs. alegând Creați model.

Acum avem un model pe care îl putem implementa într-un punct final sau într-un job de transformare în lot.

Caiete SageMaker Data Wrangler

Pentru o abordare bazată pe cod pentru a genera artefactul de inferență dintr-un job de procesare, putem găsi codul exemplu alegând Export către în meniul nodului și alegând oricare dintre ele Amazon S3, Conducte SageMaker, Sau SageMaker Inference Pipeline. Noi alegem SageMaker Inference Pipeline în acest exemplu.

SageMaker Inference Pipeline

În acest caiet, există o secțiune intitulată Creați procesor (acest lucru este identic în notebook-ul SageMaker Pipelines, dar în notebook-ul Amazon S3, codul echivalent va fi sub Configurații job secțiune). În partea de jos a acestei secțiuni este o configurație pentru artefactul nostru de inferență numită inference_params. Conține aceleași informații pe care le-am văzut în UI, și anume numele artefactului de inferență și nodul de ieșire a inferenței. Aceste valori vor fi prepopulate, dar pot fi modificate. În plus, există un parametru numit use_inference_params, care trebuie setat la True pentru a utiliza această configurație în jobul de procesare.

Configurare inferență

Mai jos este o secțiune intitulată Definiți pașii conductei, În cazul în care inference_params configurația este atașată la o listă de argumente de job și trecută în definiția pentru un pas de procesare SageMaker Data Wrangler. În notebook-ul Amazon S3, job_arguments este definit imediat după Configurații job secţiune.

Creați pipeline SageMaker

Cu aceste configurații simple, jobul de procesare creat de acest notebook va genera un artefact de inferență în aceeași locație S3 ca fișierul nostru flux (definit mai devreme în blocnotes). Putem determina programatic această locație S3 și putem folosi acest artefact pentru a crea un model SageMaker folosind SageMaker Python SDK, care este demonstrat în SageMaker Inference Pipeline notebook.

Aceeași abordare poate fi aplicată oricărui cod Python care creează un job de procesare SageMaker Data Wrangler.

Suport format de fișier JSON pentru intrare și ieșire în timpul inferenței

Este destul de comun ca site-urile web și aplicațiile să folosească JSON ca cerere/răspuns pentru API-uri, astfel încât informațiile să fie ușor de analizat prin diferite limbaje de programare.

Anterior, după ce aveai un model antrenat, puteai interacționa cu acesta doar prin CSV ca format de intrare într-o conductă de inferență SageMaker Data Wrangler. Astăzi, puteți utiliza JSON ca format de intrare și ieșire, oferind mai multă flexibilitate atunci când interacționați cu containerele de inferență SageMaker Data Wrangler.

Pentru a începe să utilizați JSON pentru intrare și ieșire în blocnotesul conductei de inferență, parcurgeți următorii pași:

Definiți o sarcină utilă.

Pentru fiecare sarcină utilă, modelul așteaptă o cheie numită instanțe. Valoarea este o listă de obiecte, fiecare fiind propriul punct de date. Obiectele necesită o cheie numită caracteristici, iar valorile ar trebui să fie caracteristicile unui singur punct de date care sunt destinate să fie transmise modelului. Pot fi trimise mai multe puncte de date într-o singură cerere, până la o dimensiune totală de 6 MB per cerere.

Consultați următorul cod:

sample_record_payload = json.dumps
( { "instances":[ {"features":["This is the best", "I'd use this product twice a day every day if I could. it's the best ever"] } ] }
)

Se specifică ContentType as application/json.
Furnizați date modelului și primiți inferențe în format JSON.

Vedea Formate comune de date pentru inferență pentru exemple de intrare și ieșire JSON.

A curăța

Când ați terminat de utilizat SageMaker Data Wrangler, vă recomandăm să închideți instanța pe care rulează pentru a evita costurile suplimentare. Pentru instrucțiuni despre cum să închideți aplicația SageMaker Data Wrangler și instanța asociată, consultați Închideți Data Wrangler.

Concluzie

Noile caracteristici ale SageMaker Data Wrangler, inclusiv suportul pentru fișierele manifest S3, capabilitățile de inferență și integrarea formatului JSON, transformă experiența operațională de pregătire a datelor. Aceste îmbunătățiri simplifică importul de date, automatizează transformările datelor și simplifică lucrul cu datele JSON. Cu aceste caracteristici, vă puteți îmbunătăți eficiența operațională, puteți reduce efortul manual și puteți extrage cu ușurință informații valoroase din datele dvs. Îmbrățișați puterea noilor caracteristici ale SageMaker Data Wrangler și deblocați întregul potențial al fluxurilor dvs. de lucru de pregătire a datelor.

Pentru a începe să utilizați SageMaker Data Wrangler, consultați cele mai recente informații despre Pagina de produs SageMaker Data Wrangler.

Despre autori

Munish Dabra este arhitect principal de soluții la Amazon Web Services (AWS). Domeniile sale actuale de focalizare sunt AI/ML și Observabilitate. Are o experiență solidă în proiectarea și construirea de sisteme distribuite scalabile. Îi place să ajute clienții să inoveze și să-și transforme afacerea în AWS. LinkedIn: /mdabra

Optimizați pregătirea datelor cu funcții noi în Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Patrick Lin este inginer de dezvoltare software cu Amazon SageMaker Data Wrangler. El se angajează să facă din Amazon SageMaker Data Wrangler instrumentul numărul unu de pregătire a datelor pentru fluxurile de lucru ML în producție. În afara serviciului, îl puteți găsi citind, ascultând muzică, având conversații cu prietenii și slujind la biserica lui.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. Automobile/VE-uri, carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
BlockOffsets. Modernizarea proprietății de compensare a mediului. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/

Timestamp-ul: August 4, 2023

Timestamp-ul: 19 Mai, 2023

AWS Deep Learning Challenge vede utilizarea inovatoare și de impact a instanțelor Amazon EC2 DL1

Cluster sursă:

Învățare automată AWS

Nodul sursă: 1637640

Timestamp-ul: August 24, 2022

Republicat de Platon

Configurați o locație personalizată de ieșire a interogării Amazon S3 și o politică de păstrare a datelor pentru sursele de date Amazon Athena în Amazon SageMaker Data Wrangler

Automatizați procesul de schimbare a fundalurilor imaginilor folosind Amazon Bedrock și AWS Step Functions | Amazon Web Services

White paper: Machine Learning Best Practices in Healthcare and Life Sciences

Utilizați Amazon Lex pentru a captura adresele străzilor

Pregătiți datele serii cronologice cu Amazon SageMaker Data Wrangler

Citiți pagini web și evidențiați conținut folosind Amazon Polly

AWS Deep Learning Challenge vede utilizarea inovatoare și de impact a instanțelor Amazon EC2 DL1

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont