Dacă utilizați configurația implicită a ciclului de viață pentru domeniul sau profilul dvs. de utilizator în Amazon SageMaker Studio Și utilizarea Amazon SageMaker Data Wrangler pentru pregătirea datelor, atunci această postare este pentru tine. În această postare, arătăm cum puteți crea un flux Data Wrangler și îl puteți utiliza pentru pregătirea datelor într-un mediu Studio cu o configurație implicită a ciclului de viață.
Data Wrangler este o capacitate de Amazon SageMaker ceea ce face ca oamenii de știință și inginerii de date să pregătească mai rapid datele pentru aplicații de învățare automată (ML) printr-o interfață vizuală. Pregătirea datelor este un pas crucial al ciclului de viață ML, iar Data Wrangler oferă o soluție end-to-end pentru a importa, explora, transforma, prezenta și procesa date pentru ML într-o experiență vizuală, low-code. Vă permite să vă conectați ușor și rapid la componente AWS, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, și Formația lacului AWSși surse externe precum Snowflake și DataBricks DeltaLake. Data Wrangler acceptă tipuri de date standard, cum ar fi CSV, JSON, ORC și Parquet.
Aplicațiile Studio sunt aplicații interactive care permit interfața vizuală Studio, crearea de coduri și experiența de rulare. Tipurile de aplicații pot fi fie Jupyter Server, fie Kernel Gateway:
- Server Jupyter – Permite accesul la interfața vizuală pentru Studio. Fiecare utilizator din Studio primește propria aplicație Jupyter Server.
- Kernel Gateway – Permite accesul la mediul de rulare a codului și la nuclee pentru notebook-urile și terminalele Studio. Pentru mai multe informații, vezi Jupyter Kernel Gateway.
Configurări ale ciclului de viață (LCC) sunt scripturi shell pentru a automatiza personalizarea pentru mediile dvs. Studio, cum ar fi instalarea extensiilor JupyterLab, preîncărcarea seturilor de date și configurarea depozitelor de cod sursă. Scripturile LCC sunt declanșate de evenimentele ciclului de viață Studio, cum ar fi pornirea unui nou notebook Studio. Pentru a seta o configurație ciclului de viață ca implicită pentru domeniul sau profilul dvs. de utilizator în mod programatic, puteți crea o resursă nouă sau puteți actualiza o resursă existentă. Pentru a asocia o configurație ciclului de viață ca implicită, mai întâi trebuie să creați o configurație ciclului de viață urmând pașii din Crearea și Asocierea unei configurații ciclului de viață
Notă: Configurațiile implicite ale ciclului de viață stabilite la nivel de domeniu sunt moștenite de toți utilizatorii, în timp ce cele configurate la nivel de utilizator sunt aplicate unui anumit utilizator. Dacă aplicați atât configurațiile ciclului de viață la nivel de domeniu, cât și la nivel de profil utilizator în același timp, configurația ciclului de viață la nivel de profil de utilizator are prioritate și se aplică aplicației, indiferent de configurația ciclului de viață aplicată la nivel de domeniu. Pentru mai multe informații, vezi Setarea configurațiilor implicite ale ciclului de viață.
Data Wrangler acceptă configurația implicită a ciclului de viață Kernel Gateway, dar unele dintre comenzile definite în configurația implicită a ciclului de viață Kernel Gateway nu sunt aplicabile pentru Data Wrangler, ceea ce poate face ca Data Wrangler să nu pornească. Următoarea captură de ecran arată un exemplu de mesaj de eroare pe care l-ați putea primi la lansarea fluxului Data Wrangler. Acest lucru se poate întâmpla numai cu configurațiile implicite ale ciclului de viață și nu cu configurațiile ciclului de viață.
Prezentare generală a soluțiilor
Clienții care folosesc configurația implicită a ciclului de viață în Studio pot urma această postare și pot folosi blocul de cod furnizat în scriptul de configurare a ciclului de viață pentru a lansa o aplicație Data Wrangler fără erori.
Configurați configurația implicită a ciclului de viață
Pentru a configura o configurație implicită a ciclului de viață, trebuie să o adăugați la DefaultResourceSpec
de tipul de aplicație adecvat. Comportamentul configurației ciclului de viață depinde dacă este adăugată la DefaultResourceSpec
a unei aplicații Jupyter Server sau Kernel Gateway:
- Aplicații Jupyter Server – Când se adaugă la
DefaultResourceSpec
a unei aplicații Jupyter Server, scriptul implicit de configurare a ciclului de viață rulează automat atunci când utilizatorul se conectează la Studio pentru prima dată sau repornește Studio. Puteți utiliza acest lucru pentru a automatiza acțiunile de configurare unice pentru mediul de dezvoltator Studio, cum ar fi instalarea extensiilor pentru notebook sau configurarea unui depozit GitHub. Pentru un exemplu în acest sens, vezi Personalizați Amazon SageMaker Studio folosind Configurații ciclului de viață. - Aplicații Kernel Gateway – Când se adaugă la
DefaultResourceSpec
a unei aplicații Kernel Gateway, Studio selectează implicit scriptul de configurare a ciclului de viață din lansatorul Studio. Puteți lansa un notebook sau un terminal cu scriptul implicit sau puteți alege unul diferit din lista de configurații ale ciclului de viață.
O configurație implicită a ciclului de viață Kernel Gateway specificată în DefaultResourceSpec
se aplică tuturor imaginilor Kernel Gateway din domeniul Studio, cu excepția cazului în care alegeți un script diferit din lista prezentată în lansatorul Studio.
Când lucrați cu configurații ciclului de viață pentru Studio, creați o configurație ciclului de viață și o atașați fie la domeniul dvs. Studio, fie la profilul de utilizator. Apoi puteți lansa o aplicație Jupyter Server sau Kernel Gateway pentru a utiliza configurația ciclului de viață.
Următorul tabel rezumă aceste erori pe care le puteți întâlni la lansarea unei aplicații Data Wrangler cu configurații implicite ale ciclului de viață.
Nivelul la care configurația ciclului de viață Este aplicat |
Creați flux de date Wrangler Funcționează (sau) Eroare |
Soluție |
domeniu | Eroare de solicitare greșită | Aplicați scriptul (vezi mai jos) |
Profil utilizator | Eroare de solicitare greșită | Aplicați scriptul (vezi mai jos) |
aplicație | Funcționează - Nicio problemă | Nu este necesar |
Când utilizați configurația implicită a ciclului de viață asociată cu Studio și Data Wrangler (aplicația Kernel Gateway), este posibil să întâlniți o defecțiune a aplicației Kernel Gateway. În această postare, demonstrăm cum să setați în mod corespunzător configurația implicită a ciclului de viață pentru a exclude comenzile care rulează într-o aplicație Data Wrangler, astfel încât să nu întâlniți eșecul aplicației Kernel Gateway.
Să presupunem că doriți să instalați un git-clone-repo script-ul ca configurație implicită a ciclului de viață care verifică automat un depozit Git din folderul de pornire al utilizatorului atunci când serverul Jupyter pornește. Să ne uităm la fiecare scenariu de aplicare a unei configurații ciclului de viață (domeniu Studio, profil de utilizator sau nivel de aplicație).
Aplicați configurația ciclului de viață la nivelul domeniului Studio sau al profilului de utilizator
Pentru a aplica configurația implicită a ciclului de viață Kernel Gateway la nivelul domeniului Studio sau al profilului de utilizator, parcurgeți pașii din această secțiune. Începem cu instrucțiuni pentru nivelul de profil de utilizator.
În scriptul de configurare a ciclului de viață, trebuie să includeți următorul bloc de cod care verifică și omite aplicația Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
De exemplu, să folosim urmând scriptul ca original (rețineți că folderul pentru a clona depozitul este schimbat în /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Noul script modificat arată astfel:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Puteți salva acest script ca git_command_test.sh
.
Acum rulați o serie de comenzi în terminalul sau promptul de comandă. Ar trebui să configurați Interfața liniei de comandă AWS (AWS CLI) pentru a interacționa cu AWS. Dacă nu ați configurat AWS CLI, consultați Configurarea AWS CLI.
- Transformă-ți
git_command_test.sh
fișier în format Base64. Această cerință previne erorile datorate codificării spațierilor și întreruperilor de linie. - Creați o configurație pentru ciclul de viață Studio. Următoarea comandă creează o configurație ciclului de viață care rulează la lansarea unei aplicații Kernel Gateway asociate:
- Utilizați următorul apel API pentru a crea un nou profil de utilizator cu o configurație asociată ciclului de viață:
Ca alternativă, dacă doriți să creați un domeniu Studio pentru a asocia configurația ciclului de viață la nivel de domeniu sau să actualizați profilul de utilizator sau domeniul, puteți urma pașii din Setarea configurațiilor implicite ale ciclului de viață.
- Acum puteți lansa aplicația Studio din Panoul de control SageMaker.
- În mediul dvs. Studio, pe Fișier meniu, alegeți Nou și Fluxul de date Wrangler.Noul flux Data Wrangler ar trebui să se deschidă fără probleme.
- Pentru a valida clona Git, puteți deschide un nou Lansator în Studio.
- În Caiete și resurse de calcul, alegeți blocnotesul Python 3 și Știința datelor Imagine SageMaker pentru a începe scriptul ca script-ul implicit de configurare a ciclului de viață.
Puteți vedea Git-ul clonat /root
în următoarea captură de ecran.
Am aplicat cu succes configurația implicită a ciclului de viață Kernel la nivel de profil de utilizator și am creat un flux Data Wrangler. Pentru a configura la nivel de domeniu Studio, singura modificare este, în loc de a crea un profil de utilizator, treceți ARN-ul configurației ciclului de viață într-un crea-domeniu apel.
Aplicați configurația ciclului de viață la nivel de aplicație
Dacă aplicați configurația implicită a ciclului de viață Kernel Gateway la nivel de aplicație, nu veți avea probleme deoarece Data Wrangler omite configurația ciclului de viață aplicată la nivel de aplicație.
Concluzie
În această postare, am arătat cum să configurați corect configurația implicită a ciclului de viață pentru Studio atunci când utilizați Data Wrangler pentru cerințele de pregătire și vizualizare a datelor.
Pentru a rezuma, dacă trebuie să utilizați implicit configurarea ciclului de viață pentru Studio pentru a automatiza personalizarea pentru mediile dvs. Studio și pentru a utiliza Data Wrangler pentru pregătirea datelor, puteți aplica configurația implicită a ciclului de viață Kernel Gateway la nivelul profilului de utilizator sau al domeniului Studio cu blocul de cod corespunzător inclus în configurația ciclului de viață, astfel încât configurația implicită a ciclului de viață să o verifice. și omite aplicația Data Wrangler Kernel Gateway.
Pentru mai multe informații, consultați următoarele resurse:
- Documentația de configurare a ciclului de viață Amazon SageMaker Studio
- Amazon SageMaker Studio
- Depozitul de exemple de scripturi de configurare a ciclului de viață
- Depanarea Configurațiilor ciclului de viață
Despre Autori
Rajakumar Sampathkumar este manager principal de cont tehnic la AWS, oferind clienților îndrumări cu privire la alinierea tehnologiei de afaceri și sprijinind reinventarea modelelor și proceselor lor de operare în cloud. Este pasionat de cloud și machine learning. Raj este, de asemenea, un specialist în învățarea automată și lucrează cu clienții AWS pentru a proiecta, implementa și gestiona sarcinile de lucru și arhitecturile lor AWS.
Vicky Zhang este inginer de dezvoltare software la Amazon SageMaker. Este pasionată de rezolvarea problemelor. În timpul liber, îi place să se uite la filme cu detectivi și să joace badminton.
Rahul Nabera este consultant de analiză a datelor în AWS Professional Services. Activitatea sa actuală se concentrează pe a permite clienților să-și construiască sarcinile de lucru de date și de învățare automată pe AWS. În timpul liber, îi place să joace cricket și volei.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Sursa: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Despre Noi
- acces
- Cont
- acțiuni
- adăugat
- TOATE
- Amazon
- Google Analytics
- api
- aplicaţia
- aplicabil
- aplicație
- aplicatii
- aplicat
- Aplică
- Aplicarea
- adecvat
- Apps
- Avocat Colaborator
- asociate
- automatizarea
- în mod automat
- AWS
- deoarece
- de mai jos
- Bloca
- frontieră
- pauze
- construi
- apel
- Provoca
- Schimbare
- Verificări
- Alege
- Cloud
- cod
- Completă
- componente
- Calcula
- Configuraţie
- Conectați
- consultant
- conține
- Control
- crea
- a creat
- creează
- Crearea
- crichet
- crucial
- Curent
- clienţii care
- de date
- Analiza datelor
- demonstra
- depinde de
- implementa
- Amenajări
- Dezvoltator
- Dezvoltare
- diferit
- domeniu
- fiecare
- cu ușurință
- ecou
- permite
- permite
- permițând
- un capăt la altul
- inginer
- inginerii
- Mediu inconjurator
- evenimente
- exemplu
- existent
- experienţă
- explora
- extensii
- Eșec
- mai repede
- First
- prima dată
- debit
- se concentrează
- urma
- următor
- format
- din
- poartă
- merge
- GitHub
- întâmpla
- înălțime
- aici
- Acasă
- Cum
- Cum Pentru a
- HTTPS
- imagine
- imagini
- include
- inclus
- informații
- instala
- instanță
- interactiv
- interfaţă
- probleme de
- IT
- lansa
- lansare
- învăţare
- Nivel
- Linie
- Listă
- Uite
- maşină
- masina de învățare
- FACE
- administra
- manager
- ar putea
- ML
- Modele
- mai mult
- Filme
- caiet
- deschide
- operaţie
- original
- propriu
- panou
- pasionat
- joc
- Pregăti
- Principal
- Problemă
- proces
- procese
- profesional
- Profil
- furnizează
- furnizarea
- repede
- depozit
- solicita
- Cerinţe
- resursă
- Resurse
- Alerga
- funcţionare
- acelaşi
- Economisiți
- Ştiinţă
- oamenii de stiinta
- serie
- Servicii
- set
- instalare
- configurarea
- Coajă
- Arăta
- simplu
- So
- Software
- de dezvoltare de software
- solid
- soluţie
- Rezolvarea
- unele
- cod sursă
- specialist
- specific
- standard
- Începe
- începe
- depozitare
- studio
- Reușit
- De sprijin
- Sprijină
- Tehnic
- Terminal
- test
- timp
- Transforma
- a declanșat
- Tipuri
- în
- Actualizează
- utilizare
- utilizatorii
- vizualizare
- Ce
- dacă
- în
- fără
- Apartamente
- fabrică
- Ta