Jos käytät verkkotunnuksesi tai käyttäjäprofiilisi oletuselinkaarimäärityksiä Amazon SageMaker Studio Ja käyttää Amazon SageMaker Data Wrangler tietojen valmistelua varten, tämä viesti on sinua varten. Tässä viestissä näytämme, kuinka voit luoda Data Wrangler -kulun ja käyttää sitä tietojen valmisteluun Studio-ympäristössä oletuselinkaarikokoonpanolla.
Data Wrangler on kyky Amazon Sage Maker Tämä tekee datatieteilijöille ja insinööreille nopeampaa valmistella dataa koneoppimissovelluksiin (ML) visuaalisen käyttöliittymän kautta. Tietojen valmistelu on ratkaiseva vaihe ML-elinkaaressa, ja Data Wrangler tarjoaa päästä päähän -ratkaisun ML-tietojen tuomiseen, tutkimiseen, muuntamiseen, esittelyyn ja käsittelyyn visuaalisessa, matalakoodikokemuksessa. Sen avulla voit helposti ja nopeasti muodostaa yhteyden AWS-komponentteihin, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirtoja AWS-järvien muodostuminenja ulkoiset lähteet, kuten Snowflake ja DataBricks DeltaLake. Data Wrangler tukee vakiotietotyyppejä, kuten CSV, JSON, ORC ja Parquet.
Studio-sovellukset ovat interaktiivisia sovelluksia, jotka mahdollistavat Studion visuaalisen käyttöliittymän, koodin luomisen ja käyttökokemuksen. Sovellustyypit voivat olla joko Jupyter Server tai Kernel Gateway:
- Jupyter-palvelin – Mahdollistaa pääsyn Studion visuaaliseen käyttöliittymään. Jokainen Studion käyttäjä saa oman Jupyter Server -sovelluksensa.
- Ytimen yhdyskäytävä – Mahdollistaa pääsyn Studio-kannettavien ja päätteiden koodinkäyttöympäristöön ja ytimiin. Katso lisätietoja Jupyter Kernel Gateway.
Elinkaarimääritykset (LCC:t) ovat komentotulkkikomentosarjat, jotka automatisoivat Studio-ympäristöjesi mukauttamisen, kuten JupyterLab-laajennusten asennuksen, tietojoukkojen esilatauksen ja lähdekoodivarastojen määrittämisen. LCC-komentosarjat laukaisevat Studion elinkaaritapahtumat, kuten uuden Studio-muistikirjan käynnistäminen. Jos haluat asettaa elinkaarimäärityksen oletusarvoksi verkkotunnuksellesi tai käyttäjäprofiilille ohjelmallisesti, voit luoda uuden resurssin tai päivittää olemassa olevan resurssin. Jos haluat liittää elinkaarimäärityksen oletusasetukseksi, sinun on ensin luotava elinkaarikonfiguraatio seuraavien vaiheiden mukaisesti Elinkaarimääritysten luominen ja yhdistäminen
Huomautus: Toimialuetasolla määritetyt elinkaaren oletusmääritykset perivät kaikki käyttäjät, kun taas käyttäjätasolla määritetyt oletusarvot on rajattu tietylle käyttäjälle. Jos käytät sekä toimialue- että käyttäjäprofiilitason elinkaarimäärityksiä samanaikaisesti, käyttäjäprofiilitason elinkaarimääritykset ovat ensisijaisia ja niitä sovelletaan sovellukseen riippumatta siitä, mitä elinkaarimäärityksiä käytetään toimialuetasolla. Katso lisätietoja Elinkaariasetusten oletusasetusten määrittäminen.
Data Wrangler hyväksyy oletusytimen yhdyskäytävän elinkaaren määrityksen, mutta jotkin oletusytimen yhdyskäytävän elinkaaren kokoonpanossa määritetyt komennot eivät sovellu Data Wrangleriin, mikä voi aiheuttaa sen, että Data Wrangler ei käynnisty. Seuraavassa kuvakaappauksessa on esimerkki virheilmoituksesta, jonka saatat saada käynnistäessäsi Data Wrangler -kulkua. Tämä voi tapahtua vain oletuselinkaarikokoonpanoissa, ei elinkaarikokoonpanoissa.
Ratkaisun yleiskatsaus
Asiakkaat, jotka käyttävät Studion oletuselinkaarimäärityksiä, voivat seurata tätä viestiä ja käyttää toimitettua koodilohkoa elinkaarimääritysskriptissä käynnistääkseen Data Wrangler -sovelluksen ilman virheitä.
Määritä oletuselinkaarikokoonpano
Jos haluat määrittää oletuselinkaarikokoonpanon, sinun on lisättävä se DefaultResourceSpec
sopivasta sovellustyypistä. Elinkaarikokoonpanosi käyttäytyminen riippuu siitä, onko se lisätty DefaultResourceSpec
Jupyter Server- tai Kernel Gateway -sovelluksesta:
- Jupyter Server -sovellukset – Kun lisätään
DefaultResourceSpec
Jupyter Server -sovelluksessa oletuselinkaarimääritysskripti suoritetaan automaattisesti, kun käyttäjä kirjautuu Studioon ensimmäisen kerran tai käynnistää Studion uudelleen. Tämän avulla voit automatisoida kertaluonteisia määritystoimia Studio-kehittäjäympäristössä, kuten muistikirjan laajennusten asentaminen tai GitHub-repon määrittäminen. Katso esimerkki tästä Räätälöi Amazon SageMaker Studio käyttämällä Lifecycle Configurations -asetuksia. - Kernel Gateway -sovellukset – Kun lisätään
DefaultResourceSpec
Kernel Gateway -sovelluksessa Studio valitsee oletuksena elinkaarimääritysskriptin Studion käynnistysohjelmasta. Voit käynnistää muistikirjan tai päätteen oletusskriptillä tai valita toisen elinkaarikokoonpanojen luettelosta.
Oletusytimen yhdyskäytävän elinkaaren kokoonpano, joka on määritetty kohdassa DefaultResourceSpec
koskee kaikkia Studio-toimialueen Kernel Gateway -kuvia, ellet valitse toista komentosarjaa Studion käynnistysohjelman luettelosta.
Kun käsittelet Studion elinkaarimäärityksiä, luot elinkaarimääritykset ja liität sen joko Studio-verkkotunnukseesi tai käyttäjäprofiiliisi. Voit sitten käynnistää Jupyter Server- tai Kernel Gateway -sovelluksen käyttääksesi elinkaarikokoonpanoa.
Seuraavassa taulukossa on yhteenveto näistä virheistä, joita saatat kohdata käynnistäessäsi Data Wrangler -sovelluksen oletuselinkaarikokoonpanoilla.
Taso, jolla elinkaaren kokoonpano Sovelletaan |
Luo Data Wrangler Flow Toimii (tai) Virhe |
Workaround |
Domain | Huono pyyntövirhe | Käytä komentosarjaa (katso alla) |
Käyttäjäprofiili | Huono pyyntövirhe | Käytä komentosarjaa (katso alla) |
Hakemus | Toimii - Ei ongelmia | Ei tarvita |
Kun käytät Studioon ja Data Wrangleriin (Kernel Gateway -sovellus) liittyvää oletuselinkaarikokoonpanoa, saatat kohdata Kernel Gateway -sovelluksen virheen. Tässä viestissä osoitamme, kuinka oletuselinkaarikokoonpano määritetään oikein, jotta Data Wrangler -sovelluksen käynnissä olevat komennot voidaan sulkea pois, jotta et kohtaa Kernel Gateway -sovelluksen vikaa.
Oletetaan, että haluat asentaa a git-clone-repo komentosarja oletusarvoisena elinkaaren kokoonpanona, joka tarkistaa Git-varaston käyttäjän kotikansiossa automaattisesti, kun Jupyter-palvelin käynnistyy. Tarkastellaan jokaista elinkaarimäärityksen soveltamisskenaariota (Studion verkkotunnus, käyttäjäprofiili tai sovellustaso).
Ota elinkaarimääritykset käyttöön Studio-toimialueen tai käyttäjäprofiilin tasolla
Jos haluat ottaa oletusarvoisen ytimen yhdyskäytävän elinkaaren määrityksen Studio-toimialueen tai käyttäjäprofiilin tasolla, suorita tämän osan vaiheet. Aloitamme käyttäjäprofiilitason ohjeilla.
Sinun on sisällytettävä elinkaaren määritysskriptiisi seuraava koodilohko, joka tarkistaa ja ohittaa Data Wrangler Kernel Gateway -sovelluksen:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Käytetään esimerkiksi seuraavan käsikirjoituksen alkuperäisenä (huomaa, että repon kloonaava kansio on muutettu /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Uusi muokattu komentosarja näyttää tältä:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Voit tallentaa tämän skriptin nimellä git_command_test.sh
.
Nyt suoritat sarjan komentoja päätteessäsi tai komentokehotteessa. Sinun tulisi määrittää AWS-komentoriviliitäntä (AWS CLI) vuorovaikutukseen AWS:n kanssa. Jos et ole määrittänyt AWS CLI:tä, katso AWS CLI: n määrittäminen.
- Muunna omasi
git_command_test.sh
tiedosto Base64-muotoon. Tämä vaatimus estää välien ja rivinvaihtojen koodauksesta johtuvat virheet. - Luo Studion elinkaarimääritys. Seuraava komento luo elinkaarikokoonpanon, joka suoritetaan, kun siihen liittyvä Kernel Gateway -sovellus käynnistetään:
- Käytä seuraavaa API-kutsua luodaksesi uuden käyttäjäprofiilin ja siihen liittyvän elinkaarimäärityksen:
Vaihtoehtoisesti, jos haluat luoda Studio-verkkotunnuksen elinkaaren määrityksiä varten verkkotunnustasolla tai päivittää käyttäjäprofiilin tai verkkotunnuksen, voit seurata ohjeita Elinkaariasetusten oletusasetusten määrittäminen.
- Nyt voit käynnistää Studio-sovelluksesi SageMaker-ohjauspaneelista.
- Studio-ympäristössäsi filee valikosta, valitse Uusi ja Data Wrangler Flow.Uuden Data Wrangler -virran pitäisi avautua ilman ongelmia.
- Voit vahvistaa Git-kloonin avaamalla uuden käynnistysohjelman Studiossa.
- Alle Muistikirjat ja laskentaresurssit, valitse Python 3 -muistikirja ja data Science SageMaker-kuva käynnistääksesi skriptin oletusarvoisena elinkaarimääritysskriptinä.
Voit nähdä Gitin, johon on kloonattu /root
seuraavassa kuvakaappauksessa.
Olemme onnistuneesti soveltaneet oletusytimen elinkaaren konfiguraatiota käyttäjäprofiilitasolla ja luoneet Data Wrangler -kulun. Jos haluat määrittää Studio-verkkotunnuksen tasolla, ainoa muutos on käyttäjäprofiilin luomisen sijaan, että välität elinkaarimäärityksen ARN:n luo-verkkotunnus puhelu.
Käytä elinkaarimäärityksiä sovellustasolla
Jos käytät oletusarvoista Kernel Gatewayn elinkaarikonfiguraatiota sovellustasolla, sinulla ei ole ongelmia, koska Data Wrangler ohittaa sovellustasolla käytetyn elinkaarimäärityksen.
Yhteenveto
Tässä viestissä näytimme, kuinka Studion oletuselinkaarikokoonpano määritetään oikein, kun käytät Data Wrangleria tietojen valmisteluun ja visualisointivaatimuksiin.
Yhteenvetona, jos sinun on käytettävä oletusarvoa Studion elinkaarimääritykset Automatisoidaksesi Studio-ympäristöjesi mukauttamisen ja käyttääksesi Data Wrangleria tietojen valmisteluun, voit käyttää oletusytimen yhdyskäytävän elinkaarikonfiguraatiota käyttäjäprofiilin tai Studio-verkkotunnuksen tasolla käyttämällä elinkaarimäärityksessäsi olevaa asianmukaista koodilohkoa, jotta oletuselinkaarikonfiguraatio tarkistaa sen. ja ohittaa Data Wrangler Kernel Gateway -sovelluksen.
Lisätietoja on seuraavissa resursseissa:
- Amazon SageMaker Studion elinkaaren määritysdokumentaatio
- Amazon SageMaker Studio
- Esimerkki elinkaaren määrityskomentosarjan arkisto
- Elinkaarikokoonpanojen virheenkorjaus
Tietoja Tekijät
Rajakumar Sampathkumar on AWS:n pääasiallinen tekninen asiakaspäällikkö, joka opastaa asiakkaita liiketoiminta-teknologian yhteensovittamisessa ja tukee heidän pilvitoimintamalliensa ja -prosessiensa uudelleenkeksimistä. Hän on intohimoinen pilvi- ja koneoppimiseen. Raj on myös koneoppimisen asiantuntija ja työskentelee AWS-asiakkaiden kanssa heidän AWS-työkuormien ja -arkkitehtuurien suunnittelussa, käyttöönotossa ja hallinnassa.
Vicky Zhang on ohjelmistokehitysinsinööri Amazon SageMakerissa. Hän on intohimoinen ongelmanratkaisuun. Vapaa-ajallaan hän katselee etsiväelokuvia ja pelaa sulkapalloa.
Rahul Nabera on Data Analytics -konsultti AWS Professional Services -palvelussa. Hänen nykyinen työnsä keskittyy siihen, että asiakkaat voivat rakentaa data- ja koneoppimistyökuormituksiaan AWS:llä. Vapaa-ajallaan hän pelaa krikettiä ja lentopalloa.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Meistä
- pääsy
- Tili
- toimet
- lisä-
- Kaikki
- Amazon
- Analytics
- api
- sovelluksen
- sovelletaan
- Hakemus
- sovellukset
- sovellettu
- käyttää
- Hakeminen
- sopiva
- sovellukset
- Työtoveri
- liittyvä
- automatisoida
- automaattisesti
- AWS
- koska
- alle
- Tukkia
- reunus
- taukoja
- rakentaa
- soittaa
- Aiheuttaa
- muuttaa
- Tarkastukset
- Valita
- pilvi
- koodi
- täydellinen
- osat
- Laskea
- Konfigurointi
- kytkeä
- konsultti
- sisältää
- ohjaus
- luoda
- luotu
- luo
- Luominen
- kriketti
- ratkaiseva
- Nykyinen
- Asiakkaat
- tiedot
- Data Analytics
- osoittaa
- riippuu
- sijoittaa
- Malli
- Kehittäjä
- Kehitys
- eri
- verkkotunnuksen
- kukin
- helposti
- kaiku
- mahdollistaa
- mahdollistaa
- mahdollistaa
- päittäin
- insinööri
- Engineers
- ympäristö
- Tapahtumat
- esimerkki
- olemassa
- experience
- tutkia
- laajennukset
- Epäonnistuminen
- nopeampi
- Etunimi
- ensimmäistä kertaa
- virtaus
- keskittyy
- seurata
- jälkeen
- muoto
- alkaen
- portti
- mennä
- GitHub
- tapahtua
- korkeus
- tätä
- Koti
- Miten
- Miten
- HTTPS
- kuva
- kuvien
- sisältää
- mukana
- tiedot
- asentaa
- esimerkki
- vuorovaikutteinen
- liitäntä
- kysymykset
- IT
- käynnistää
- käynnistäminen
- oppiminen
- Taso
- linja
- Lista
- katso
- kone
- koneoppiminen
- TEE
- hoitaa
- johtaja
- ehkä
- ML
- mallit
- lisää
- Elokuvat
- muistikirja
- avata
- toiminta
- alkuperäinen
- oma
- paneeli
- intohimoinen
- pelaa
- Valmistella
- Pääasiallinen
- Ongelma
- prosessi
- Prosessit
- ammatillinen
- Profiili
- tarjoaa
- tarjoamalla
- nopeasti
- säilytyspaikka
- pyyntö
- vaatimukset
- resurssi
- Esittelymateriaalit
- ajaa
- juoksu
- sama
- Säästä
- tiede
- tutkijat
- Sarjat
- Palvelut
- setti
- asetus
- setup
- Kuori
- näyttää
- Yksinkertainen
- So
- Tuotteemme
- ohjelmistokehitys
- vankka
- ratkaisu
- Solving
- jonkin verran
- lähdekoodi
- asiantuntija
- erityinen
- standardi
- Alkaa
- alkaa
- Levytila
- studio
- Onnistuneesti
- Tukea
- Tukee
- Tekninen
- terminaali
- testi
- -
- aika
- Muuttaa
- laukeaa
- tyypit
- varten
- Päivitykset
- käyttää
- Käyttäjät
- visualisointi
- Mitä
- onko
- sisällä
- ilman
- Referenssit
- toimii
- Sinun