Kui kasutate oma domeeni või kasutajaprofiili jaoks elutsükli vaikekonfiguratsiooni Amazon SageMaker Studio ja kasutamise Amazon SageMaker Data Wrangler andmete ettevalmistamiseks, siis see postitus on teie jaoks. Selles postituses näitame, kuidas saate luua Data Wrangleri voo ja kasutada seda andmete ettevalmistamiseks Studio keskkonnas vaikeelutsükli konfiguratsiooniga.
Data Wrangler on võimeline Amazon SageMaker mis muudab andmeteadlaste ja inseneride jaoks visuaalse liidese kaudu andmete ettevalmistamise masinõppe (ML) rakenduste jaoks kiiremini. Andmete ettevalmistamine on ML-i elutsükli oluline samm ja Data Wrangler pakub täielikku lahendust ML-i jaoks mõeldud andmete importimiseks, uurimiseks, teisendamiseks, esitlemiseks ja töötlemiseks visuaalse ja madala koodiga kogemusega. See võimaldab teil hõlpsalt ja kiiresti ühendada AWS-i komponentidega, nagu Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane niheja AWS järve kihistuja välistest allikatest nagu Snowflake ja DataBricks DeltaLake. Data Wrangler toetab standardseid andmetüüpe, nagu CSV, JSON, ORC ja Parquet.
Studio rakendused on interaktiivsed rakendused, mis võimaldavad Studio visuaalset liidest, koodide loomist ja käitamiskogemust. Rakenduse tüübid võivad olla kas Jupyter Server või Kernel Gateway:
- Jupyteri server – Võimaldab juurdepääsu Studio visuaalsele liidesele. Iga Studio kasutaja saab oma Jupyter Serveri rakenduse.
- Kerneli värav – Võimaldab juurdepääsu teie Studio sülearvutite ja terminalide koodikäituskeskkonnale ja tuumadele. Lisateabe saamiseks vt Jupyteri tuuma värav.
Elutsükli konfiguratsioonid (LCC-d) on kestaskriptid, mis automatiseerivad teie Studio keskkondade kohandamist, näiteks JupyterLabi laienduste installimist, andmekogumite eellaadimist ja lähtekoodihoidlate seadistamist. LCC-skripte käivitavad Studio elutsükli sündmused, näiteks uue Studio märkmiku käivitamine. Elutsükli konfiguratsiooni määramiseks oma domeeni või kasutajaprofiili jaoks programmiliselt vaikeseadeks saate luua uue ressursi või värskendada olemasolevat ressurssi. Elutsükli konfiguratsiooni vaikeseadena seostamiseks peate esmalt looma elutsükli konfiguratsiooni, järgides juhiseid Elutsükli konfiguratsiooni loomine ja seostamine
Märkus.: Domeeni tasemel seadistatud elutsükli vaikekonfiguratsioonid pärivad kõik kasutajad, samas kui kasutaja tasemel seadistatud konfiguratsioonid kuuluvad konkreetsele kasutajale. Kui rakendate korraga nii domeenitaseme kui ka kasutajaprofiili taseme elutsükli konfiguratsiooni, on kasutajaprofiili taseme elutsükli konfiguratsioon ülimuslik ja seda rakendatakse rakendusele sõltumata sellest, millist elutsükli konfiguratsiooni domeeni tasemel rakendatakse. Lisateabe saamiseks vt Elutsükli vaikekonfiguratsioonide määramine.
Data Wrangler aktsepteerib Kernel Gateway elutsükli vaikekonfiguratsiooni, kuid mõned Kernel Gateway elutsükli vaikekonfiguratsioonis määratletud käsud ei ole Data Wrangleri jaoks rakendatavad, mis võib põhjustada Data Wrangleri käivitumise ebaõnnestumise. Järgmisel ekraanipildil on näide tõrketeatest, mis võidakse kuvada Data Wrangleri voo käivitamisel. See võib juhtuda ainult elutsükli vaikekonfiguratsioonidega, mitte elutsükli konfiguratsioonidega.
Lahenduse ülevaade
Kliendid, kes kasutavad Studios elutsükli vaikekonfiguratsiooni, saavad seda postitust jälgida ja kasutada olelustsükli konfiguratsiooniskriptis kaasasolevat koodiplokki, et käivitada Data Wrangleri rakendus ilma vigadeta.
Seadistage elutsükli vaikekonfiguratsioon
Elutsükli vaikekonfiguratsiooni seadistamiseks peate selle lisama DefaultResourceSpec
sobivat rakenduse tüüpi. Teie elutsükli konfiguratsiooni käitumine sõltub sellest, kas see on lisatud DefaultResourceSpec
Jupyteri serveri või Kernel Gateway rakendusest:
- Jupyteri serveri rakendused – Kui lisada
DefaultResourceSpec
Jupyter Serveri rakenduses käivitub elutsükli vaikekonfiguratsiooniskript automaatselt, kui kasutaja esimest korda Studiosse sisse logib või Studio taaskäivitab. Saate seda kasutada Studio arendajakeskkonna ühekordsete häälestustoimingute (nt märkmikulaiendite installimine või GitHubi repo seadistamine) automatiseerimiseks. Selle näite vaatamiseks vt Kohandage Amazon SageMaker Studio elutsükli konfiguratsioonide abil. - Kernel Gateway rakendused – Kui lisada
DefaultResourceSpec
Kernel Gateway rakenduses valib Studio vaikimisi elutsükli konfiguratsiooniskripti Studio käivitusprogrammist. Saate käivitada sülearvuti või terminali vaikeskriptiga või valida elutsükli konfiguratsioonide loendist mõne muu.
Kernel Gateway elutsükli vaikekonfiguratsioon, mis on määratletud jaotises DefaultResourceSpec
kehtib kõikidele Studio domeeni Kernel Gateway piltidele, välja arvatud juhul, kui valite Studio käivitusprogrammis esitatud loendist mõnda muud skripti.
Kui töötate Studio elutsükli konfiguratsioonidega, loote elutsükli konfiguratsiooni ja lisate selle oma Studio domeenile või kasutajaprofiilile. Seejärel saate elutsükli konfiguratsiooni kasutamiseks käivitada rakenduse Jupyter Server või Kernel Gateway.
Järgmine tabel võtab kokku need vead, mis võivad ilmneda Data Wrangleri rakenduse käivitamisel elutsükli vaikekonfiguratsioonidega.
Tase, millel elutsükli konfiguratsioon Rakendatakse |
Looge Data Wrangleri voog Töötab (või) viga |
Vahend |
Domeen | Halb päringu viga | Rakendage skript (vt allpool) |
Kasutajaprofiil | Halb päringu viga | Rakendage skript (vt allpool) |
taotlus | Töötab - pole probleemi | Pole nõutud |
Kui kasutate Studio ja Data Wrangleri (Kernel Gateway rakendus) elutsükli vaikekonfiguratsiooni, võite ilmneda Kernel Gateway rakenduse tõrge. Selles postituses demonstreerime, kuidas elutsükli vaikekonfiguratsiooni õigesti seadistada, et välistada Data Wrangleri rakenduses töötavad käsud, et te ei tekiks Kernel Gateway rakenduse tõrkeid.
Oletame, et soovite installida a git-clone-repo skript kui elutsükli vaikekonfiguratsioon, mis kontrollib Jupyteri serveri käivitumisel automaatselt kasutaja kodukausta all oleva Giti hoidla. Vaatame kõiki elutsükli konfiguratsiooni rakendamise stsenaariume (Stuudio domeen, kasutajaprofiil või rakenduse tase).
Rakendage elutsükli konfiguratsiooni Studio domeeni või kasutajaprofiili tasemel
Kernel Gateway elutsükli vaikekonfiguratsiooni rakendamiseks Studio domeeni või kasutajaprofiili tasemel täitke selles jaotises toodud juhised. Alustame kasutajaprofiili taseme juhistega.
Oma elutsükli konfiguratsiooniskripti peate lisama järgmise koodiploki, mis kontrollib ja jätab vahele rakenduse Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Näiteks kasutame järgmine skript nagu meie originaal (pange tähele, et repo kloonimiseks on muudetud kaustaks /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Uus muudetud skript näeb välja järgmine:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Saate selle skripti salvestada kui git_command_test.sh
.
Nüüd käivitate oma terminalis või käsuviibas rea käske. Peaksite konfigureerima AWS-i käsurea liides (AWS CLI) AWS-iga suhtlemiseks. Kui te pole AWS-i CLI-d seadistanud, vaadake AWS-i CLI konfigureerimine.
- Teisendage oma
git_command_test.sh
faili Base64 vormingusse. See nõue hoiab ära tühikute ja reavahede kodeerimisest tulenevad vead. - Looge Studio elutsükli konfiguratsioon. Järgmine käsk loob elutsükli konfiguratsiooni, mis käivitatakse seotud Kernel Gateway rakenduse käivitamisel:
- Kasutage järgmist API-kutset, et luua uus kasutajaprofiil koos seotud elutsükli konfiguratsiooniga:
Teise võimalusena, kui soovite luua Studio domeeni, et siduda oma elutsükli konfiguratsioon domeeni tasemel või värskendada kasutajaprofiili või domeeni, saate järgida juhiseid Elutsükli vaikekonfiguratsioonide määramine.
- Nüüd saate oma Studio rakenduse SageMakeri juhtpaneelilt käivitada.
- Teie Studio keskkonnas lehel fail menüüst valige Uus ja Data Wrangleri voog.Uus Data Wrangleri voog peaks avanema ilma probleemideta.
- Giti klooni kinnitamiseks saate Studios avada uue käivitusprogrammi.
- alla Märkmikud ja arvutusressursid, valige Python 3 märkmik ja andmed Science SageMakeri pilt, et käivitada skript elutsükli vaikekonfiguratsiooniskriptina.
Näete Giti, millesse on kloonitud /root
järgmisel ekraanipildil.
Oleme edukalt rakendanud kerneli elutsükli vaikekonfiguratsiooni kasutajaprofiili tasemel ja loonud Data Wrangleri voo. Studio domeeni tasemel seadistamiseks on ainus muudatus, et kasutajaprofiili loomise asemel edastate elutsükli konfiguratsiooni ARN-i loo-domeen helistama.
Rakendage elutsükli konfiguratsiooni rakenduse tasemel
Kui rakendate Kernel Gateway elutsükli vaikekonfiguratsiooni rakenduse tasemel, ei teki teil probleeme, kuna Data Wrangler jätab rakenduse tasemel rakendatud elutsükli konfiguratsiooni vahele.
Järeldus
Selles postituses näitasime, kuidas oma elutsükli vaikekonfiguratsiooni Studio jaoks õigesti konfigureerida, kui kasutate andmete ettevalmistamiseks ja visualiseerimisnõuete jaoks Data Wranglerit.
Kokkuvõtteks, kui peate kasutama vaikeseadet Studio elutsükli konfiguratsioon oma Studio keskkondade kohandamise automatiseerimiseks ja andmete ettevalmistamiseks Data Wrangleri kasutamiseks saate rakendada Kernel Gateway elutsükli vaikekonfiguratsiooni kasutajaprofiili või Studio domeeni tasemel koos teie elutsükli konfiguratsioonis sisalduva vastava koodiplokiga, nii et elutsükli vaikekonfiguratsioon seda kontrollib. ja jätab Data Wrangler Kernel Gateway rakenduse vahele.
Lisateabe saamiseks vaadake järgmisi ressursse:
- Amazon SageMaker Studio elutsükli konfiguratsiooni dokumentatsioon
- Amazon SageMaker Studio
- Näidiselutsükli konfiguratsiooniskriptide hoidla
- Elutsükli konfiguratsioonide silumine
Autoritest
Rajakumar Sampathkumar on AWS-i peamine tehniline kontohaldur, kes annab klientidele juhiseid äritehnoloogia kooskõlla viimiseks ning toetab nende pilveoperatsioonimudelite ja -protsesside taasleiutamist. Ta on kirglik pilve- ja masinõppe vastu. Raj on ka masinõppe spetsialist ja töötab AWS-i klientidega nende AWS-i töökoormuse ja arhitektuuri kujundamisel, juurutamisel ja haldamisel.
Vicky Zhang on Amazon SageMakeri tarkvaraarenduse insener. Ta on kirglik probleemide lahendamise vastu. Vabal ajal vaatab ta meelsasti detektiivifilme ja mängib sulgpalli.
Rahul Nabera on AWS Professional Services andmeanalüüsi konsultant. Tema praegune töö keskendub sellele, et võimaldada klientidel luua oma andmete ja masinõppe töökoormusi AWS-is. Vabal ajal mängib ta meelsasti kriketit ja võrkpalli.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- MEIST
- juurdepääs
- konto
- meetmete
- lisatud
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- analytics
- API
- app
- kohaldatav
- taotlus
- rakendused
- rakendatud
- kehtima
- Rakendades
- asjakohane
- apps
- Partner
- seotud
- automatiseerima
- automaatselt
- AWS
- sest
- alla
- Blokeerima
- piir
- puruneb
- ehitama
- helistama
- Põhjus
- muutma
- Kontroll
- Vali
- Cloud
- kood
- täitma
- komponendid
- Arvutama
- konfiguratsioon
- Võta meiega ühendust
- konsultant
- sisaldab
- kontrollida
- looma
- loodud
- loob
- loomine
- kriket
- otsustav
- Praegune
- Kliendid
- andmed
- Andmete analüüs
- näitama
- sõltub
- juurutada
- Disain
- arendaja
- & Tarkvaraarendus
- erinev
- domeen
- iga
- kergesti
- miss
- võimaldama
- võimaldab
- võimaldades
- Lõpuks-lõpuni
- insener
- Inseneride
- keskkond
- sündmused
- näide
- olemasolevate
- kogemus
- uurima
- laiendused
- ebaedu
- kiiremini
- esimene
- Esimest korda
- voog
- keskendub
- järgima
- Järel
- formaat
- Alates
- värav
- Git
- GitHub
- juhtuda
- kõrgus
- siin
- Avaleht
- Kuidas
- Kuidas
- HTTPS
- pilt
- pildid
- sisaldama
- lisatud
- info
- paigaldama
- Näiteks
- interaktiivne
- Interface
- küsimustes
- IT
- algatama
- käivitamine
- õppimine
- Tase
- joon
- nimekiri
- Vaata
- masin
- masinõpe
- TEEB
- juhtima
- juht
- võib
- ML
- mudelid
- rohkem
- Filmid
- märkmik
- avatud
- töö
- originaal
- enda
- paneel
- kirglik
- mängimine
- Valmistama
- Peamine
- Probleem
- protsess
- Protsessid
- professionaalne
- profiil
- annab
- pakkudes
- kiiresti
- Hoidla
- taotleda
- Nõuded
- ressurss
- Vahendid
- jooks
- jooksmine
- sama
- Säästa
- teadus
- teadlased
- Seeria
- Teenused
- komplekt
- kehtestamine
- seade
- Shell
- näitama
- lihtne
- So
- tarkvara
- tarkvaraarenduse
- tahke
- lahendus
- Lahendamine
- mõned
- lähtekoodi
- spetsialist
- konkreetse
- standard
- algus
- algab
- ladustamine
- stuudio
- Edukalt
- Toetamine
- Toetab
- Tehniline
- terminal
- test
- .
- aeg
- Muutma
- vallandas
- liigid
- all
- Värskendused
- kasutama
- Kasutajad
- visualiseerimine
- M
- kas
- jooksul
- ilma
- Töö
- töötab
- Sinu