Utilizați Amazon SageMaker Data Wrangler în Amazon SageMaker Studio cu o configurație implicită a ciclului de viață

Republicat de Platon

Urmaritori: 0

Dacă utilizați configurația implicită a ciclului de viață pentru domeniul sau profilul dvs. de utilizator în Amazon SageMaker Studio Și utilizarea Amazon SageMaker Data Wrangler pentru pregătirea datelor, atunci această postare este pentru tine. În această postare, arătăm cum puteți crea un flux Data Wrangler și îl puteți utiliza pentru pregătirea datelor într-un mediu Studio cu o configurație implicită a ciclului de viață.

Data Wrangler este o capacitate de Amazon SageMaker ceea ce face ca oamenii de știință și inginerii de date să pregătească mai rapid datele pentru aplicații de învățare automată (ML) printr-o interfață vizuală. Pregătirea datelor este un pas crucial al ciclului de viață ML, iar Data Wrangler oferă o soluție end-to-end pentru a importa, explora, transforma, prezenta și procesa date pentru ML într-o experiență vizuală, low-code. Vă permite să vă conectați ușor și rapid la componente AWS, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, și Formația lacului AWSși surse externe precum Snowflake și DataBricks DeltaLake. Data Wrangler acceptă tipuri de date standard, cum ar fi CSV, JSON, ORC și Parquet.

Aplicațiile Studio sunt aplicații interactive care permit interfața vizuală Studio, crearea de coduri și experiența de rulare. Tipurile de aplicații pot fi fie Jupyter Server, fie Kernel Gateway:

Server Jupyter – Permite accesul la interfața vizuală pentru Studio. Fiecare utilizator din Studio primește propria aplicație Jupyter Server.
Kernel Gateway – Permite accesul la mediul de rulare a codului și la nuclee pentru notebook-urile și terminalele Studio. Pentru mai multe informații, vezi Jupyter Kernel Gateway.

Configurări ale ciclului de viață (LCC) sunt scripturi shell pentru a automatiza personalizarea pentru mediile dvs. Studio, cum ar fi instalarea extensiilor JupyterLab, preîncărcarea seturilor de date și configurarea depozitelor de cod sursă. Scripturile LCC sunt declanșate de evenimentele ciclului de viață Studio, cum ar fi pornirea unui nou notebook Studio. Pentru a seta o configurație ciclului de viață ca implicită pentru domeniul sau profilul dvs. de utilizator în mod programatic, puteți crea o resursă nouă sau puteți actualiza o resursă existentă. Pentru a asocia o configurație ciclului de viață ca implicită, mai întâi trebuie să creați o configurație ciclului de viață urmând pașii din Crearea și Asocierea unei configurații ciclului de viață

Notă: Configurațiile implicite ale ciclului de viață stabilite la nivel de domeniu sunt moștenite de toți utilizatorii, în timp ce cele configurate la nivel de utilizator sunt aplicate unui anumit utilizator. Dacă aplicați atât configurațiile ciclului de viață la nivel de domeniu, cât și la nivel de profil utilizator în același timp, configurația ciclului de viață la nivel de profil de utilizator are prioritate și se aplică aplicației, indiferent de configurația ciclului de viață aplicată la nivel de domeniu. Pentru mai multe informații, vezi Setarea configurațiilor implicite ale ciclului de viață.

Data Wrangler acceptă configurația implicită a ciclului de viață Kernel Gateway, dar unele dintre comenzile definite în configurația implicită a ciclului de viață Kernel Gateway nu sunt aplicabile pentru Data Wrangler, ceea ce poate face ca Data Wrangler să nu pornească. Următoarea captură de ecran arată un exemplu de mesaj de eroare pe care l-ați putea primi la lansarea fluxului Data Wrangler. Acest lucru se poate întâmpla numai cu configurațiile implicite ale ciclului de viață și nu cu configurațiile ciclului de viață.

Eroare Data Wrangler

Prezentare generală a soluțiilor

Clienții care folosesc configurația implicită a ciclului de viață în Studio pot urma această postare și pot folosi blocul de cod furnizat în scriptul de configurare a ciclului de viață pentru a lansa o aplicație Data Wrangler fără erori.

Configurați configurația implicită a ciclului de viață

Pentru a configura o configurație implicită a ciclului de viață, trebuie să o adăugați la DefaultResourceSpec de tipul de aplicație adecvat. Comportamentul configurației ciclului de viață depinde dacă este adăugată la DefaultResourceSpec a unei aplicații Jupyter Server sau Kernel Gateway:

Aplicații Jupyter Server – Când se adaugă la DefaultResourceSpec a unei aplicații Jupyter Server, scriptul implicit de configurare a ciclului de viață rulează automat atunci când utilizatorul se conectează la Studio pentru prima dată sau repornește Studio. Puteți utiliza acest lucru pentru a automatiza acțiunile de configurare unice pentru mediul de dezvoltator Studio, cum ar fi instalarea extensiilor pentru notebook sau configurarea unui depozit GitHub. Pentru un exemplu în acest sens, vezi Personalizați Amazon SageMaker Studio folosind Configurații ciclului de viață.
Aplicații Kernel Gateway – Când se adaugă la DefaultResourceSpec a unei aplicații Kernel Gateway, Studio selectează implicit scriptul de configurare a ciclului de viață din lansatorul Studio. Puteți lansa un notebook sau un terminal cu scriptul implicit sau puteți alege unul diferit din lista de configurații ale ciclului de viață.

O configurație implicită a ciclului de viață Kernel Gateway specificată în DefaultResourceSpec se aplică tuturor imaginilor Kernel Gateway din domeniul Studio, cu excepția cazului în care alegeți un script diferit din lista prezentată în lansatorul Studio.

Când lucrați cu configurații ciclului de viață pentru Studio, creați o configurație ciclului de viață și o atașați fie la domeniul dvs. Studio, fie la profilul de utilizator. Apoi puteți lansa o aplicație Jupyter Server sau Kernel Gateway pentru a utiliza configurația ciclului de viață.

Următorul tabel rezumă aceste erori pe care le puteți întâlni la lansarea unei aplicații Data Wrangler cu configurații implicite ale ciclului de viață.

Nivelul la care configurația ciclului de viață Este aplicat	Creați flux de date Wrangler Funcționează (sau) Eroare	Soluție
domeniu	Eroare de solicitare greșită	Aplicați scriptul (vezi mai jos)
Profil utilizator	Eroare de solicitare greșită	Aplicați scriptul (vezi mai jos)
aplicație	Funcționează - Nicio problemă	Nu este necesar

Când utilizați configurația implicită a ciclului de viață asociată cu Studio și Data Wrangler (aplicația Kernel Gateway), este posibil să întâlniți o defecțiune a aplicației Kernel Gateway. În această postare, demonstrăm cum să setați în mod corespunzător configurația implicită a ciclului de viață pentru a exclude comenzile care rulează într-o aplicație Data Wrangler, astfel încât să nu întâlniți eșecul aplicației Kernel Gateway.

Să presupunem că doriți să instalați un git-clone-repo script-ul ca configurație implicită a ciclului de viață care verifică automat un depozit Git din folderul de pornire al utilizatorului atunci când serverul Jupyter pornește. Să ne uităm la fiecare scenariu de aplicare a unei configurații ciclului de viață (domeniu Studio, profil de utilizator sau nivel de aplicație).

Aplicați configurația ciclului de viață la nivelul domeniului Studio sau al profilului de utilizator

Pentru a aplica configurația implicită a ciclului de viață Kernel Gateway la nivelul domeniului Studio sau al profilului de utilizator, parcurgeți pașii din această secțiune. Începem cu instrucțiuni pentru nivelul de profil de utilizator.

În scriptul de configurare a ciclului de viață, trebuie să includeți următorul bloc de cod care verifică și omite aplicația Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

De exemplu, să folosim urmând scriptul ca original (rețineți că folderul pentru a clona depozitul este schimbat în /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Noul script modificat arată astfel:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Puteți salva acest script ca git_command_test.sh.

Acum rulați o serie de comenzi în terminalul sau promptul de comandă. Ar trebui să configurați Interfața liniei de comandă AWS (AWS CLI) pentru a interacționa cu AWS. Dacă nu ați configurat AWS CLI, consultați Configurarea AWS CLI.

Transformă-ți git_command_test.sh fișier în format Base64. Această cerință previne erorile datorate codificării spațierilor și întreruperilor de linie.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Creați o configurație pentru ciclul de viață Studio. Următoarea comandă creează o configurație ciclului de viață care rulează la lansarea unei aplicații Kernel Gateway asociate:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Utilizați următorul apel API pentru a crea un nou profil de utilizator cu o configurație asociată ciclului de viață:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Ca alternativă, dacă doriți să creați un domeniu Studio pentru a asocia configurația ciclului de viață la nivel de domeniu sau să actualizați profilul de utilizator sau domeniul, puteți urma pașii din Setarea configurațiilor implicite ale ciclului de viață.

Acum puteți lansa aplicația Studio din Panoul de control SageMaker.
În mediul dvs. Studio, pe Fișier meniu, alegeți Nou și Fluxul de date Wrangler.Noul flux Data Wrangler ar trebui să se deschidă fără probleme.
Pentru a valida clona Git, puteți deschide un nou Lansator în Studio.
În Caiete și resurse de calcul, alegeți blocnotesul Python 3 și Știința datelor Imagine SageMaker pentru a începe scriptul ca script-ul implicit de configurare a ciclului de viață.

Puteți vedea Git-ul clonat /root în următoarea captură de ecran.

Git clonat în /root

Am aplicat cu succes configurația implicită a ciclului de viață Kernel la nivel de profil de utilizator și am creat un flux Data Wrangler. Pentru a configura la nivel de domeniu Studio, singura modificare este, în loc de a crea un profil de utilizator, treceți ARN-ul configurației ciclului de viață într-un crea-domeniu apel.

Aplicați configurația ciclului de viață la nivel de aplicație

Dacă aplicați configurația implicită a ciclului de viață Kernel Gateway la nivel de aplicație, nu veți avea probleme deoarece Data Wrangler omite configurația ciclului de viață aplicată la nivel de aplicație.

Concluzie

În această postare, am arătat cum să configurați corect configurația implicită a ciclului de viață pentru Studio atunci când utilizați Data Wrangler pentru cerințele de pregătire și vizualizare a datelor.

Pentru a rezuma, dacă trebuie să utilizați implicit configurarea ciclului de viață pentru Studio pentru a automatiza personalizarea pentru mediile dvs. Studio și pentru a utiliza Data Wrangler pentru pregătirea datelor, puteți aplica configurația implicită a ciclului de viață Kernel Gateway la nivelul profilului de utilizator sau al domeniului Studio cu blocul de cod corespunzător inclus în configurația ciclului de viață, astfel încât configurația implicită a ciclului de viață să o verifice. și omite aplicația Data Wrangler Kernel Gateway.

Pentru mai multe informații, consultați următoarele resurse:

Despre Autori

Rajakumar Sampathkumar este manager principal de cont tehnic la AWS, oferind clienților îndrumări cu privire la alinierea tehnologiei de afaceri și sprijinind reinventarea modelelor și proceselor lor de operare în cloud. Este pasionat de cloud și machine learning. Raj este, de asemenea, un specialist în învățarea automată și lucrează cu clienții AWS pentru a proiecta, implementa și gestiona sarcinile de lucru și arhitecturile lor AWS.

Vicky Zhang este inginer de dezvoltare software la Amazon SageMaker. Este pasionată de rezolvarea problemelor. În timpul liber, îi place să se uite la filme cu detectivi și să joace badminton.

Rahul Nabera este consultant de analiză a datelor în AWS Professional Services. Activitatea sa actuală se concentrează pe a permite clienților să-și construiască sarcinile de lucru de date și de învățare automată pe AWS. În timpul liber, îi place să joace cricket și volei.

Timestamp-ul: Iulie 5, 2022

Timestamp-ul: Iunie 27, 2022

Utilizați Amazon SageMaker Data Wrangler în Amazon SageMaker Studio cu o configurație implicită a ciclului de viață

Republicat de Platon

Prezentare generală a soluțiilor

Configurați configurația implicită a ciclului de viață

Aplicați configurația ciclului de viață la nivelul domeniului Studio sau al profilului de utilizator

Aplicați configurația ciclului de viață la nivel de aplicație

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Reduceți costul inferenței Amazon SageMaker cu AWS Graviton

Reglare fină LLaMA 2 rapidă și rentabilă cu AWS Trainium | Amazon Web Services

Îmbunătățiți experiența apelantului cu sugestii în Amazon Lex

Aplicați mascarea vulgară în Amazon Translate

Automatizați preetichetarea PDF pentru Amazon Comprehend | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont