Če uporabljate privzeto konfiguracijo življenjskega cikla za svojo domeno ali uporabniški profil v Amazon SageMaker Studio in uporaba Amazon SageMaker Data Wrangler za pripravo podatkov, potem je ta objava za vas. V tej objavi prikazujemo, kako lahko ustvarite tok Data Wrangler in ga uporabite za pripravo podatkov v okolju Studio s privzeto konfiguracijo življenjskega cikla.
Data Wrangler je zmožnost Amazon SageMaker ki podatkovnim znanstvenikom in inženirjem omogoča hitrejšo pripravo podatkov za aplikacije strojnega učenja (ML) prek vizualnega vmesnika. Priprava podatkov je ključni korak v življenjskem ciklu ML in Data Wrangler zagotavlja celovito rešitev za uvoz, raziskovanje, preoblikovanje, prikazovanje in obdelavo podatkov za ML v vizualni izkušnji z nizko kodo. Omogoča enostavno in hitro povezavo s komponentami AWS, kot je Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShiftin Oblikovanje jezera AWS, in zunanji viri, kot sta Snowflake in DataBricks DeltaLake. Data Wrangler podpira standardne vrste podatkov, kot so CSV, JSON, ORC in Parquet.
Aplikacije Studio so interaktivne aplikacije, ki omogočajo vizualni vmesnik Studia, avtorsko kodo in izkušnjo izvajanja. Vrste aplikacij so lahko Jupyter Server ali Kernel Gateway:
- strežnik Jupyter – Omogoča dostop do vizualnega vmesnika za Studio. Vsak uporabnik v Studiu dobi svojo lastno aplikacijo Jupyter Server.
- Prehod jedra – Omogoča dostop do okolja za izvajanje kode in jeder za vaše prenosnike in terminale Studio. Za več informacij glejte Jupyter Kernel Gateway.
Konfiguracije življenjskega cikla (LCC) so lupinski skripti za avtomatizacijo prilagajanja za vaša okolja Studio, kot je namestitev razširitev JupyterLab, vnaprejšnje nalaganje naborov podatkov in nastavitev repozitorijev izvorne kode. Skripte LCC sprožijo dogodki življenjskega cikla Studio, kot je zagon novega prenosnega računalnika Studio. Če želite programsko nastaviti konfiguracijo življenjskega cikla kot privzeto za svojo domeno ali uporabniški profil, lahko ustvarite nov vir ali posodobite obstoječi vir. Če želite konfiguracijo življenjskega cikla povezati kot privzeto, morate najprej ustvariti konfiguracijo življenjskega cikla po korakih v Ustvarjanje in povezovanje konfiguracije življenjskega cikla
Opomba: privzete konfiguracije življenjskega cikla, nastavljene na ravni domene, podedujejo vsi uporabniki, tiste, ki so nastavljene na ravni uporabnika, pa se nanašajo na določenega uporabnika. Če hkrati uporabite konfiguracije življenjskega cikla na ravni domene in na ravni uporabniškega profila, ima konfiguracija življenjskega cikla na ravni uporabniškega profila prednost in se uporabi za aplikacijo, ne glede na to, katera konfiguracija življenjskega cikla je uporabljena na ravni domene. Za več informacij glejte Nastavitev privzetih konfiguracij življenjskega cikla.
Data Wrangler sprejema privzeto konfiguracijo življenjskega cikla prehoda jedra, vendar nekateri ukazi, definirani v privzeti konfiguraciji življenjskega cikla prehoda jedra, niso uporabni za Data Wrangler, kar lahko povzroči, da se Data Wrangler ne zažene. Naslednji posnetek zaslona prikazuje primer sporočila o napaki, ki ga lahko dobite pri zagonu toka Data Wrangler. To se lahko zgodi samo s privzetimi konfiguracijami življenjskega cikla in ne s konfiguracijami življenjskega cikla.
Pregled rešitev
Stranke, ki uporabljajo privzeto konfiguracijo življenjskega cikla v Studiu, lahko spremljajo to objavo in uporabijo priloženi blok kode v konfiguracijskem skriptu življenjskega cikla za zagon aplikacije Data Wrangler brez napak.
Nastavite privzeto konfiguracijo življenjskega cikla
Če želite nastaviti privzeto konfiguracijo življenjskega cikla, jo morate dodati v DefaultResourceSpec
ustrezne vrste aplikacije. Vedenje vaše konfiguracije življenjskega cikla je odvisno od tega, ali je dodana v DefaultResourceSpec
strežnika Jupyter ali aplikacije Kernel Gateway:
- Aplikacije Jupyter Server – Ko je dodan v
DefaultResourceSpec
aplikacije Jupyter Server se privzeti konfiguracijski skript življenjskega cikla samodejno zažene, ko se uporabnik prvič prijavi v Studio ali znova zažene Studio. To lahko uporabite za avtomatizacijo enkratnih namestitvenih dejanj za razvijalsko okolje Studio, kot je namestitev razširitev prenosnega računalnika ali nastavitev repoja GitHub. Za primer tega glejte Prilagodite Amazon SageMaker Studio s konfiguracijami življenjskega cikla. - Aplikacije prehoda jedra – Ko je dodan v
DefaultResourceSpec
aplikacije Kernel Gateway, Studio privzeto izbere konfiguracijski skript življenjskega cikla v zaganjalniku Studio. Prenosni računalnik ali terminal lahko zaženete s privzetim skriptom ali izberete drugega s seznama konfiguracij življenjskega cikla.
Privzeta konfiguracija življenjskega cikla prehoda jedra, navedena v DefaultResourceSpec
velja za vse slike prehoda jedra v domeni Studio, razen če izberete drug skript s seznama, predstavljenega v zaganjalniku Studio.
Ko delate s konfiguracijami življenjskega cikla za Studio, ustvarite konfiguracijo življenjskega cikla in jo priložite svoji domeni Studio ali uporabniškemu profilu. Nato lahko zaženete Jupyter Server ali aplikacijo Kernel Gateway za uporabo konfiguracije življenjskega cikla.
Naslednja tabela povzema te napake, na katere lahko naletite, ko zaženete aplikacijo Data Wrangler s privzetimi konfiguracijami življenjskega cikla.
Raven, na kateri je konfiguracija življenjskega cikla Je uporabljeno |
Ustvari Data Wrangler Flow Deluje (ali) Napaka |
Rešitev |
Domena | Napaka slabe zahteve | Uporabite skript (glejte spodaj) |
uporabnik | Napaka slabe zahteve | Uporabite skript (glejte spodaj) |
uporaba | Deluje - Ni problema | Ni potrebna |
Ko uporabljate privzeto konfiguracijo življenjskega cikla, povezano s Studio in Data Wrangler (aplikacija Kernel Gateway), lahko naletite na napako aplikacije Kernel Gateway. V tej objavi prikazujemo, kako pravilno nastaviti privzeto konfiguracijo življenjskega cikla, da izključite izvajanje ukazov v aplikaciji Data Wrangler, tako da ne naletite na napako aplikacije Kernel Gateway.
Recimo, da želite namestiti a git-clone-repo skript kot privzeto konfiguracijo življenjskega cikla, ki samodejno preveri repozitorij Git v domači mapi uporabnika, ko se zažene strežnik Jupyter. Oglejmo si vsak scenarij uporabe konfiguracije življenjskega cikla (domena Studia, uporabniški profil ali raven aplikacije).
Uporabite konfiguracijo življenjskega cikla na ravni domene ali uporabniškega profila Studio
Če želite uporabiti privzeto konfiguracijo življenjskega cikla prehoda jedra na ravni domene ali uporabniškega profila Studio, dokončajte korake v tem razdelku. Začnemo z navodili za raven uporabniškega profila.
V konfiguracijski skript življenjskega cikla morate vključiti naslednji blok kode, ki preveri in preskoči aplikacijo Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Na primer, uporabimo naslednji scenarij kot naš izvirnik (upoštevajte, da je mapa za kloniranje repo spremenjena v /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Nov spremenjeni skript izgleda takole:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Ta skript lahko shranite kot git_command_test.sh
.
Zdaj zaženete vrsto ukazov v terminalu ali ukaznem pozivu. Moral bi konfigurirati Vmesnik ukazne vrstice AWS (AWS CLI) za interakcijo z AWS. Če še niste nastavili AWS CLI, glejte Konfiguriranje CLI AWS.
- Pretvorite svoje
git_command_test.sh
datoteko v format Base64. Ta zahteva preprečuje napake zaradi kodiranja presledkov in prelomov vrstic. - Ustvarite konfiguracijo življenjskega cikla Studio. Naslednji ukaz ustvari konfiguracijo življenjskega cikla, ki se zažene ob zagonu povezane aplikacije Kernel Gateway:
- Za ustvarjanje novega uporabniškega profila s povezano konfiguracijo življenjskega cikla uporabite naslednji klic API-ja:
Če pa želite ustvariti domeno Studio za povezavo vaše konfiguracije življenjskega cikla na ravni domene, ali posodobiti uporabniški profil ali domeno, lahko sledite korakom v Nastavitev privzetih konfiguracij življenjskega cikla.
- Zdaj lahko zaženete svojo aplikacijo Studio z nadzorne plošče SageMaker.
- V vašem okolju Studio, na file izberite meni Novo in Data Wrangler Flow.Novi tok Data Wrangler bi se moral odpreti brez težav.
- Če želite potrditi klon Git, lahko odprete nov zaganjalnik v Studiu.
- Pod Prenosni računalniki in računalniški viri, izberite prenosni računalnik Python 3 in Znanost podatki Slika SageMaker za zagon skripta kot privzetega konfiguracijskega skripta življenjskega cikla.
Vidite lahko Git kloniran v /root
na naslednjem posnetku zaslona.
Uspešno smo uporabili privzeto konfiguracijo življenjskega cikla jedra na ravni uporabniškega profila in ustvarili tok Data Wrangler. Za konfiguracijo na ravni domene Studio je edina sprememba ta, da namesto ustvarjanja uporabniškega profila posredujete ARN konfiguracije življenjskega cikla v ustvari domeno klic.
Uporabite konfiguracijo življenjskega cikla na ravni aplikacije
Če uporabite privzeto konfiguracijo življenjskega cikla prehoda jedra na ravni aplikacije, ne boste imeli težav, ker Data Wrangler preskoči konfiguracijo življenjskega cikla, uporabljeno na ravni aplikacije.
zaključek
V tej objavi smo pokazali, kako pravilno konfigurirati privzeto konfiguracijo življenjskega cikla za Studio, ko uporabljate Data Wrangler za zahteve po pripravi podatkov in vizualizaciji.
Če povzamem, če morate uporabiti privzeto konfiguracijo življenjskega cikla za Studio za avtomatizacijo prilagajanja za vaša okolja Studio in uporabo Data Wranglerja za pripravo podatkov lahko uporabite privzeto konfiguracijo življenjskega cikla prehoda jedra na ravni uporabniškega profila ali domene Studio z ustreznim blokom kode, vključenim v konfiguracijo življenjskega cikla, tako da ga privzeta konfiguracija življenjskega cikla preveri in preskoči aplikacijo Data Wrangler Kernel Gateway.
Za več informacij glejte naslednje vire:
- Dokumentacija o konfiguraciji življenjskega cikla Amazon SageMaker Studio
- Amazon SageMaker Studio
- Repozitorij primerov konfiguracijskih skriptov življenjskega cikla
- Odpravljanje napak v konfiguracijah življenjskega cikla
O avtorjih
Rajakumar Sampathkumar je glavni tehnični vodja računa pri AWS, ki strankam zagotavlja smernice glede usklajevanja poslovne tehnologije in podpira preoblikovanje njihovih modelov in procesov delovanja v oblaku. Navdušen je nad oblakom in strojnim učenjem. Raj je tudi specialist za strojno učenje in sodeluje s strankami AWS pri načrtovanju, uvajanju in upravljanju njihovih delovnih obremenitev in arhitektur AWS.
Vicky Zhang je inženir za razvoj programske opreme pri Amazon SageMaker. Navdušena je nad reševanjem problemov. V prostem času rada gleda detektivske filme in igra badminton.
Rahul Nabera je svetovalec za podatkovno analizo v AWS Professional Services. Njegovo trenutno delo se osredotoča na omogočanje strankam, da svoje delovne obremenitve s podatki in strojnim učenjem gradijo na AWS. V prostem času rad igra kriket in odbojko.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- O meni
- dostop
- Račun
- dejavnosti
- dodano
- vsi
- Amazon
- analitika
- API
- aplikacija
- primerno
- uporaba
- aplikacije
- uporabna
- Uporabi
- Uporaba
- primerno
- aplikacije
- Sodelavec
- povezan
- avtomatizirati
- samodejno
- AWS
- ker
- spodaj
- Block
- meja
- odmori
- izgradnjo
- klic
- Vzrok
- spremenite
- Pregledi
- Izberite
- Cloud
- Koda
- dokončanje
- deli
- Izračunajte
- konfiguracija
- Connect
- svetovalec
- Vsebuje
- nadzor
- ustvarjajo
- ustvaril
- ustvari
- Ustvarjanje
- kriket
- ključnega pomena
- Trenutna
- Stranke, ki so
- datum
- Podatkovna analiza
- izkazati
- odvisno
- razporedi
- Oblikovanje
- Razvojni
- Razvoj
- drugačen
- domena
- vsak
- enostavno
- echo
- omogočajo
- omogoča
- omogočanje
- konec koncev
- inženir
- Inženirji
- okolje
- dogodki
- Primer
- obstoječih
- izkušnje
- raziskuje
- razširitve
- Napaka
- hitreje
- prva
- prvič
- Pretok
- Osredotoča
- sledi
- po
- format
- iz
- Prehod
- git
- GitHub
- se zgodi
- višina
- tukaj
- Domov
- Kako
- Kako
- HTTPS
- slika
- slike
- vključujejo
- vključeno
- Podatki
- namestitev
- primer
- interaktivno
- vmesnik
- Vprašanja
- IT
- kosilo
- začetek
- učenje
- Stopnja
- vrstica
- Seznam
- Poglej
- stroj
- strojno učenje
- IZDELA
- upravljanje
- upravitelj
- morda
- ML
- modeli
- več
- filmi
- prenosnik
- odprite
- Delovanje
- izvirno
- lastne
- plošča
- strastno
- igranje
- Pripravimo
- , ravnateljica
- problem
- Postopek
- Procesi
- strokovni
- profil
- zagotavlja
- zagotavljanje
- hitro
- Skladišče
- zahteva
- Zahteve
- vir
- viri
- Run
- tek
- Enako
- Shrani
- Znanost
- Znanstveniki
- Serija
- Storitve
- nastavite
- nastavitev
- nastavitev
- Shell
- Prikaži
- Enostavno
- So
- Software
- Razvoj programske opreme
- trdna
- Rešitev
- Reševanje
- nekaj
- Izvorna koda
- specialist
- specifična
- standardna
- Začetek
- začne
- shranjevanje
- studio
- Uspešno
- Podpora
- Podpira
- tehnični
- terminal
- Test
- O
- čas
- Transform
- sprožilo
- Vrste
- pod
- Nadgradnja
- uporaba
- Uporabniki
- vizualizacija
- Kaj
- ali
- v
- brez
- delo
- deluje
- Vaša rutina za