Uporabite Amazon SageMaker Data Wrangler v Amazon SageMaker Studio s privzeto konfiguracijo življenjskega cikla

Ponovno objavil Platon

Spremljevalci: 0

Če uporabljate privzeto konfiguracijo življenjskega cikla za svojo domeno ali uporabniški profil v Amazon SageMaker Studio in uporaba Amazon SageMaker Data Wrangler za pripravo podatkov, potem je ta objava za vas. V tej objavi prikazujemo, kako lahko ustvarite tok Data Wrangler in ga uporabite za pripravo podatkov v okolju Studio s privzeto konfiguracijo življenjskega cikla.

Data Wrangler je zmožnost Amazon SageMaker ki podatkovnim znanstvenikom in inženirjem omogoča hitrejšo pripravo podatkov za aplikacije strojnega učenja (ML) prek vizualnega vmesnika. Priprava podatkov je ključni korak v življenjskem ciklu ML in Data Wrangler zagotavlja celovito rešitev za uvoz, raziskovanje, preoblikovanje, prikazovanje in obdelavo podatkov za ML v vizualni izkušnji z nizko kodo. Omogoča enostavno in hitro povezavo s komponentami AWS, kot je Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShiftin Oblikovanje jezera AWS, in zunanji viri, kot sta Snowflake in DataBricks DeltaLake. Data Wrangler podpira standardne vrste podatkov, kot so CSV, JSON, ORC in Parquet.

Aplikacije Studio so interaktivne aplikacije, ki omogočajo vizualni vmesnik Studia, avtorsko kodo in izkušnjo izvajanja. Vrste aplikacij so lahko Jupyter Server ali Kernel Gateway:

strežnik Jupyter – Omogoča dostop do vizualnega vmesnika za Studio. Vsak uporabnik v Studiu dobi svojo lastno aplikacijo Jupyter Server.
Prehod jedra – Omogoča dostop do okolja za izvajanje kode in jeder za vaše prenosnike in terminale Studio. Za več informacij glejte Jupyter Kernel Gateway.

Konfiguracije življenjskega cikla (LCC) so lupinski skripti za avtomatizacijo prilagajanja za vaša okolja Studio, kot je namestitev razširitev JupyterLab, vnaprejšnje nalaganje naborov podatkov in nastavitev repozitorijev izvorne kode. Skripte LCC sprožijo dogodki življenjskega cikla Studio, kot je zagon novega prenosnega računalnika Studio. Če želite programsko nastaviti konfiguracijo življenjskega cikla kot privzeto za svojo domeno ali uporabniški profil, lahko ustvarite nov vir ali posodobite obstoječi vir. Če želite konfiguracijo življenjskega cikla povezati kot privzeto, morate najprej ustvariti konfiguracijo življenjskega cikla po korakih v Ustvarjanje in povezovanje konfiguracije življenjskega cikla

Opomba: privzete konfiguracije življenjskega cikla, nastavljene na ravni domene, podedujejo vsi uporabniki, tiste, ki so nastavljene na ravni uporabnika, pa se nanašajo na določenega uporabnika. Če hkrati uporabite konfiguracije življenjskega cikla na ravni domene in na ravni uporabniškega profila, ima konfiguracija življenjskega cikla na ravni uporabniškega profila prednost in se uporabi za aplikacijo, ne glede na to, katera konfiguracija življenjskega cikla je uporabljena na ravni domene. Za več informacij glejte Nastavitev privzetih konfiguracij življenjskega cikla.

Data Wrangler sprejema privzeto konfiguracijo življenjskega cikla prehoda jedra, vendar nekateri ukazi, definirani v privzeti konfiguraciji življenjskega cikla prehoda jedra, niso uporabni za Data Wrangler, kar lahko povzroči, da se Data Wrangler ne zažene. Naslednji posnetek zaslona prikazuje primer sporočila o napaki, ki ga lahko dobite pri zagonu toka Data Wrangler. To se lahko zgodi samo s privzetimi konfiguracijami življenjskega cikla in ne s konfiguracijami življenjskega cikla.

Napaka Data Wrangler

Pregled rešitev

Stranke, ki uporabljajo privzeto konfiguracijo življenjskega cikla v Studiu, lahko spremljajo to objavo in uporabijo priloženi blok kode v konfiguracijskem skriptu življenjskega cikla za zagon aplikacije Data Wrangler brez napak.

Nastavite privzeto konfiguracijo življenjskega cikla

Če želite nastaviti privzeto konfiguracijo življenjskega cikla, jo morate dodati v DefaultResourceSpec ustrezne vrste aplikacije. Vedenje vaše konfiguracije življenjskega cikla je odvisno od tega, ali je dodana v DefaultResourceSpec strežnika Jupyter ali aplikacije Kernel Gateway:

Aplikacije Jupyter Server – Ko je dodan v DefaultResourceSpec aplikacije Jupyter Server se privzeti konfiguracijski skript življenjskega cikla samodejno zažene, ko se uporabnik prvič prijavi v Studio ali znova zažene Studio. To lahko uporabite za avtomatizacijo enkratnih namestitvenih dejanj za razvijalsko okolje Studio, kot je namestitev razširitev prenosnega računalnika ali nastavitev repoja GitHub. Za primer tega glejte Prilagodite Amazon SageMaker Studio s konfiguracijami življenjskega cikla.
Aplikacije prehoda jedra – Ko je dodan v DefaultResourceSpec aplikacije Kernel Gateway, Studio privzeto izbere konfiguracijski skript življenjskega cikla v zaganjalniku Studio. Prenosni računalnik ali terminal lahko zaženete s privzetim skriptom ali izberete drugega s seznama konfiguracij življenjskega cikla.

Privzeta konfiguracija življenjskega cikla prehoda jedra, navedena v DefaultResourceSpec velja za vse slike prehoda jedra v domeni Studio, razen če izberete drug skript s seznama, predstavljenega v zaganjalniku Studio.

Ko delate s konfiguracijami življenjskega cikla za Studio, ustvarite konfiguracijo življenjskega cikla in jo priložite svoji domeni Studio ali uporabniškemu profilu. Nato lahko zaženete Jupyter Server ali aplikacijo Kernel Gateway za uporabo konfiguracije življenjskega cikla.

Naslednja tabela povzema te napake, na katere lahko naletite, ko zaženete aplikacijo Data Wrangler s privzetimi konfiguracijami življenjskega cikla.

Raven, na kateri je konfiguracija življenjskega cikla Je uporabljeno	Ustvari Data Wrangler Flow Deluje (ali) Napaka	Rešitev
Domena	Napaka slabe zahteve	Uporabite skript (glejte spodaj)
uporabnik	Napaka slabe zahteve	Uporabite skript (glejte spodaj)
uporaba	Deluje - Ni problema	Ni potrebna

Ko uporabljate privzeto konfiguracijo življenjskega cikla, povezano s Studio in Data Wrangler (aplikacija Kernel Gateway), lahko naletite na napako aplikacije Kernel Gateway. V tej objavi prikazujemo, kako pravilno nastaviti privzeto konfiguracijo življenjskega cikla, da izključite izvajanje ukazov v aplikaciji Data Wrangler, tako da ne naletite na napako aplikacije Kernel Gateway.

Recimo, da želite namestiti a git-clone-repo skript kot privzeto konfiguracijo življenjskega cikla, ki samodejno preveri repozitorij Git v domači mapi uporabnika, ko se zažene strežnik Jupyter. Oglejmo si vsak scenarij uporabe konfiguracije življenjskega cikla (domena Studia, uporabniški profil ali raven aplikacije).

Uporabite konfiguracijo življenjskega cikla na ravni domene ali uporabniškega profila Studio

Če želite uporabiti privzeto konfiguracijo življenjskega cikla prehoda jedra na ravni domene ali uporabniškega profila Studio, dokončajte korake v tem razdelku. Začnemo z navodili za raven uporabniškega profila.

V konfiguracijski skript življenjskega cikla morate vključiti naslednji blok kode, ki preveri in preskoči aplikacijo Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Na primer, uporabimo naslednji scenarij kot naš izvirnik (upoštevajte, da je mapa za kloniranje repo spremenjena v /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Nov spremenjeni skript izgleda takole:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Ta skript lahko shranite kot git_command_test.sh.

Zdaj zaženete vrsto ukazov v terminalu ali ukaznem pozivu. Moral bi konfigurirati Vmesnik ukazne vrstice AWS (AWS CLI) za interakcijo z AWS. Če še niste nastavili AWS CLI, glejte Konfiguriranje CLI AWS.

Pretvorite svoje git_command_test.sh datoteko v format Base64. Ta zahteva preprečuje napake zaradi kodiranja presledkov in prelomov vrstic.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Ustvarite konfiguracijo življenjskega cikla Studio. Naslednji ukaz ustvari konfiguracijo življenjskega cikla, ki se zažene ob zagonu povezane aplikacije Kernel Gateway:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Za ustvarjanje novega uporabniškega profila s povezano konfiguracijo življenjskega cikla uporabite naslednji klic API-ja:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Če pa želite ustvariti domeno Studio za povezavo vaše konfiguracije življenjskega cikla na ravni domene, ali posodobiti uporabniški profil ali domeno, lahko sledite korakom v Nastavitev privzetih konfiguracij življenjskega cikla.

Zdaj lahko zaženete svojo aplikacijo Studio z nadzorne plošče SageMaker.
V vašem okolju Studio, na file izberite meni Novo in Data Wrangler Flow.Novi tok Data Wrangler bi se moral odpreti brez težav.
Če želite potrditi klon Git, lahko odprete nov zaganjalnik v Studiu.
Pod Prenosni računalniki in računalniški viri, izberite prenosni računalnik Python 3 in Znanost podatki Slika SageMaker za zagon skripta kot privzetega konfiguracijskega skripta življenjskega cikla.

Vidite lahko Git kloniran v /root na naslednjem posnetku zaslona.

Git je kloniran v /root

Uspešno smo uporabili privzeto konfiguracijo življenjskega cikla jedra na ravni uporabniškega profila in ustvarili tok Data Wrangler. Za konfiguracijo na ravni domene Studio je edina sprememba ta, da namesto ustvarjanja uporabniškega profila posredujete ARN konfiguracije življenjskega cikla v ustvari domeno klic.

Uporabite konfiguracijo življenjskega cikla na ravni aplikacije

Če uporabite privzeto konfiguracijo življenjskega cikla prehoda jedra na ravni aplikacije, ne boste imeli težav, ker Data Wrangler preskoči konfiguracijo življenjskega cikla, uporabljeno na ravni aplikacije.

zaključek

V tej objavi smo pokazali, kako pravilno konfigurirati privzeto konfiguracijo življenjskega cikla za Studio, ko uporabljate Data Wrangler za zahteve po pripravi podatkov in vizualizaciji.

Če povzamem, če morate uporabiti privzeto konfiguracijo življenjskega cikla za Studio za avtomatizacijo prilagajanja za vaša okolja Studio in uporabo Data Wranglerja za pripravo podatkov lahko uporabite privzeto konfiguracijo življenjskega cikla prehoda jedra na ravni uporabniškega profila ali domene Studio z ustreznim blokom kode, vključenim v konfiguracijo življenjskega cikla, tako da ga privzeta konfiguracija življenjskega cikla preveri in preskoči aplikacijo Data Wrangler Kernel Gateway.

Za več informacij glejte naslednje vire:

O avtorjih

Rajakumar Sampathkumar je glavni tehnični vodja računa pri AWS, ki strankam zagotavlja smernice glede usklajevanja poslovne tehnologije in podpira preoblikovanje njihovih modelov in procesov delovanja v oblaku. Navdušen je nad oblakom in strojnim učenjem. Raj je tudi specialist za strojno učenje in sodeluje s strankami AWS pri načrtovanju, uvajanju in upravljanju njihovih delovnih obremenitev in arhitektur AWS.

Vicky Zhang je inženir za razvoj programske opreme pri Amazon SageMaker. Navdušena je nad reševanjem problemov. V prostem času rada gleda detektivske filme in igra badminton.

Rahul Nabera je svetovalec za podatkovno analizo v AWS Professional Services. Njegovo trenutno delo se osredotoča na omogočanje strankam, da svoje delovne obremenitve s podatki in strojnim učenjem gradijo na AWS. V prostem času rad igra kriket in odbojko.

Časovni žig: Julij 5, 2022

Časovni žig: Februar 6, 2024

Uporabite Amazon SageMaker Data Wrangler v Amazon SageMaker Studio s privzeto konfiguracijo življenjskega cikla

Ponovno objavil Platon

Pregled rešitev

Nastavite privzeto konfiguracijo življenjskega cikla

Uporabite konfiguracijo življenjskega cikla na ravni domene ali uporabniškega profila Studio

Uporabite konfiguracijo življenjskega cikla na ravni aplikacije

zaključek

O avtorjih

Več od Strojno učenje AWS

Izvedite analize kaj če z Amazon Forecast, do 80 % hitreje kot prej

Organizirajte razvoj strojnega učenja z uporabo skupnih prostorov v SageMaker Studio za sodelovanje v realnem času

Zmanjšajte čas in stroške usposabljanja za globoko učenje z MosaicML Composer na AWS

Kako urediti podatke PII v prepisih pogovorov

Vzporedna knjižnica modela Amazon SageMaker zdaj pospeši delovne obremenitve PyTorch FSDP za do 20 % | Spletne storitve Amazon

AWS Inferentia in AWS Trainium zagotavljata najnižje stroške za uvajanje modelov Llama 3 v Amazon SageMaker JumpStart | Spletne storitve Amazon

Napovedujemo nova orodja in zmogljivosti za omogočanje odgovornih inovacij AI | Spletne storitve Amazon

Accenture ustvari rešitev za avtorstvo regulativnih dokumentov z uporabo generativnih storitev umetne inteligence AWS | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun