Hvis du bruker standard livssykluskonfigurasjon for ditt domene eller brukerprofil i Amazon SageMaker Studio Og bruk Amazon SageMaker Data Wrangler for dataforberedelse, så er dette innlegget for deg. I dette innlegget viser vi hvordan du kan lage en Data Wrangler-flyt og bruke den til dataforberedelse i et Studio-miljø med en standard livssykluskonfigurasjon.
Data Wrangler er en evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede data for maskinlæringsapplikasjoner (ML) via et visuelt grensesnitt. Dataforberedelse er et avgjørende trinn i ML-livssyklusen, og Data Wrangler gir en ende-til-ende-løsning for å importere, utforske, transformere, presentere og behandle data for ML i en visuell opplevelse med lav kode. Den lar deg enkelt og raskt koble til AWS-komponenter som Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShiftog AWS Lake formasjon, og eksterne kilder som Snowflake og DataBricks DeltaLake. Data Wrangler støtter standard datatyper som CSV, JSON, ORC og Parkett.
Studio-apper er interaktive applikasjoner som muliggjør Studios visuelle grensesnitt, koderedigering og kjøreopplevelse. Apptyper kan være enten Jupyter Server eller Kernel Gateway:
- Jupyter server – Gir tilgang til det visuelle grensesnittet for Studio. Hver bruker i Studio får sin egen Jupyter Server-app.
- Kernel Gateway – Gir tilgang til kodekjøringsmiljøet og kjernene for Studio-notatbøkene og terminalene. For mer informasjon, se Jupyter Kernel Gateway.
Livssykluskonfigurasjoner (LCCs) er shell-skript for å automatisere tilpasning for Studio-miljøene dine, for eksempel installasjon av JupyterLab-utvidelser, forhåndsinnlasting av datasett og oppsett av kildekodelagre. LCC-skript utløses av Studio-livssyklushendelser, for eksempel å starte en ny Studio-notatbok. For å angi en livssykluskonfigurasjon som standard for ditt domene eller brukerprofil programmatisk, kan du opprette en ny ressurs eller oppdatere en eksisterende ressurs. For å knytte en livssykluskonfigurasjon som standard, må du først opprette en livssykluskonfigurasjon ved å følge trinnene i Opprette og tilknytte en livssykluskonfigurasjon
Merk: Standardkonfigurasjoner for livssyklus som er satt opp på domenenivå, arves av alle brukere, mens de som er satt opp på brukernivå, er beregnet på en spesifikk bruker. Hvis du bruker livssykluskonfigurasjoner på både domenenivå og brukerprofilnivå samtidig, har livssykluskonfigurasjonen på brukerprofilnivå forrang og brukes på applikasjonen uavhengig av hvilken livssykluskonfigurasjon som brukes på domenenivå. For mer informasjon, se Angi standard livssykluskonfigurasjoner.
Data Wrangler godtar standard Kernel Gateway-livssykluskonfigurasjon, men noen av kommandoene som er definert i standard Kernel Gateway-livssykluskonfigurasjon, er ikke aktuelt for Data Wrangler, noe som kan føre til at Data Wrangler ikke starter. Følgende skjermbilde viser et eksempel på en feilmelding du kan få når du starter Data Wrangler-flyten. Dette kan bare skje med standard livssykluskonfigurasjoner og ikke med livssykluskonfigurasjoner.
Løsningsoversikt
Kunder som bruker standard livssykluskonfigurasjon i Studio kan følge dette innlegget og bruke den medfølgende kodeblokken i livssykluskonfigurasjonsskriptet for å starte en Data Wrangler-app uten feil.
Sett opp standard livssykluskonfigurasjon
For å sette opp en standard livssykluskonfigurasjon, må du legge den til DefaultResourceSpec
av den aktuelle apptypen. Oppførselen til livssykluskonfigurasjonen din avhenger av om den er lagt til DefaultResourceSpec
av en Jupyter Server- eller Kernel Gateway-app:
- Jupyter Server-apper – Når lagt til
DefaultResourceSpec
av en Jupyter Server-app, kjører standard livssykluskonfigurasjonsskript automatisk når brukeren logger på Studio for første gang eller starter Studio på nytt. Du kan bruke dette til å automatisere engangsoppsetthandlinger for Studio-utviklermiljøet, for eksempel å installere bærbare utvidelser eller sette opp en GitHub-repo. For et eksempel på dette, se Tilpass Amazon SageMaker Studio ved å bruke livssykluskonfigurasjoner. - Kernel Gateway-apper – Når lagt til
DefaultResourceSpec
i en Kernel Gateway-app velger Studio som standard skriptet for livssykluskonfigurasjon fra Studio-starteren. Du kan starte en bærbar PC eller terminal med standardskriptet eller velge et annet fra listen over livssykluskonfigurasjoner.
En standard Kernel Gateway livssykluskonfigurasjon spesifisert i DefaultResourceSpec
gjelder for alle Kernel Gateway-bilder i Studio-domenet med mindre du velger et annet skript fra listen presentert i Studio-starteren.
Når du jobber med livssykluskonfigurasjoner for Studio, oppretter du en livssykluskonfigurasjon og knytter den til enten Studio-domenet eller brukerprofilen. Du kan deretter starte en Jupyter Server- eller Kernel Gateway-applikasjon for å bruke livssykluskonfigurasjonen.
Tabellen nedenfor oppsummerer disse feilene du kan støte på når du starter en Data Wrangler-applikasjon med standard livssykluskonfigurasjoner.
Nivå som livssykluskonfigurasjonen på Blir brukt |
Lag Data Wrangler Flow Fungerer (eller) Feil |
Løsning |
Domene | Dårlig forespørselsfeil | Bruk skriptet (se nedenfor) |
Brukerprofil | Dårlig forespørselsfeil | Bruk skriptet (se nedenfor) |
Søknad | Fungerer—ingen problem | Ikke obligatorisk |
Når du bruker standard livssykluskonfigurasjon knyttet til Studio og Data Wrangler (Kernel Gateway-appen), kan det oppstå feil i Kernel Gateway-appen. I dette innlegget viser vi hvordan du angir standard livssykluskonfigurasjon riktig for å ekskludere kjørende kommandoer i en Data Wrangler-applikasjon, slik at du ikke støter på feil i Kernel Gateway-appen.
La oss si at du vil installere en git-clone-repo script som standard livssykluskonfigurasjon som automatisk sjekker ut et Git-depot under brukerens hjemmemappe når Jupyter-serveren starter. La oss se på hvert scenario for bruk av en livssykluskonfigurasjon (Studio-domene, brukerprofil eller applikasjonsnivå).
Bruk livssykluskonfigurasjon på Studio-domene- eller brukerprofilnivå
For å bruke standard Kernel Gateway-livssykluskonfigurasjon på Studio-domene- eller brukerprofilnivå, fullfør trinnene i denne delen. Vi starter med instruksjoner for brukerprofilnivået.
I livssykluskonfigurasjonsskriptet ditt må du inkludere følgende kodeblokk som sjekker og hopper over Data Wrangler Kernel Gateway-appen:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
La oss for eksempel bruke følgende manus som vår original (merk at mappen for å klone repoen er endret til /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Det nye modifiserte skriptet ser slik ut:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Du kan lagre dette skriptet som git_command_test.sh
.
Nå kjører du en rekke kommandoer i terminalen eller ledeteksten. Du bør konfigurere AWS kommandolinjegrensesnitt (AWS CLI) for å samhandle med AWS. Hvis du ikke har satt opp AWS CLI, se Konfigurering av AWS CLI.
- Konverter din
git_command_test.sh
fil i Base64-format. Dette kravet forhindrer feil på grunn av koding av mellomrom og linjeskift. - Opprett en Studio-livssykluskonfigurasjon. Følgende kommando oppretter en livssykluskonfigurasjon som kjører ved lansering av en tilknyttet Kernel Gateway-app:
- Bruk følgende API-kall for å opprette en ny brukerprofil med en tilknyttet livssykluskonfigurasjon:
Alternativt, hvis du vil opprette et Studio-domene for å knytte livssykluskonfigurasjonen din på domenenivå, eller oppdatere brukerprofilen eller domenet, kan du følge trinnene i Angi standard livssykluskonfigurasjoner.
- Nå kan du starte Studio-appen fra SageMaker-kontrollpanelet.
- I ditt Studio-miljø, på filet meny, velg Ny og Data Wrangler Flow.Den nye Data Wrangler-flyten skal åpne uten problemer.
- For å validere Git-klonen kan du åpne en ny Launcher i Studio.
- Under Notatbøker og dataressurser, velg Python 3-notisboken og data Science SageMaker-bilde for å starte skriptet ditt som standard skript for livssykluskonfigurasjon.
Du kan se Git klonet til /root
i følgende skjermbilde.
Vi har brukt standard kjernelivssykluskonfigurasjon på brukerprofilnivå og opprettet en Data Wrangler-flyt. For å konfigurere på Studio-domenenivå, er den eneste endringen i stedet for å opprette en brukerprofil, du sender ARN for livssykluskonfigurasjonen i en opprette-domene anrop.
Bruk livssykluskonfigurasjon på applikasjonsnivå
Hvis du bruker standard Kernel Gateway-livssykluskonfigurasjon på applikasjonsnivå, vil du ikke ha noen problemer fordi Data Wrangler hopper over livssykluskonfigurasjonen som er brukt på applikasjonsnivå.
konklusjonen
I dette innlegget viste vi hvordan du konfigurerer standard livssykluskonfigurasjon riktig for Studio når du bruker Data Wrangler for dataforberedelse og visualiseringskrav.
For å oppsummere, hvis du trenger å bruke standard livssykluskonfigurasjon for Studio for å automatisere tilpasning for Studio-miljøene dine og bruke Data Wrangler for dataforberedelse, kan du bruke standard Kernel Gateway-livssykluskonfigurasjon på brukerprofil- eller Studio-domenenivå med den riktige kodeblokken inkludert i livssykluskonfigurasjonen, slik at standard livssykluskonfigurasjon sjekker den og hopper over Data Wrangler Kernel Gateway-appen.
For mer informasjon, se følgende ressurser:
- Amazon SageMaker Studio livssykluskonfigurasjonsdokumentasjon
- Amazon SageMaker Studio
- Lagring av eksempler på livssykluskonfigurasjonsskript
- Feilsøking av livssykluskonfigurasjoner
Om forfatterne
Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, og gir kundene veiledning om justering av forretningsteknologi og støtter gjenoppfinnelsen av deres skyoperasjonsmodeller og -prosesser. Han er lidenskapelig opptatt av sky og maskinlæring. Raj er også en maskinlæringsspesialist og jobber med AWS-kunder for å designe, distribuere og administrere AWS-arbeidsmengdene og -arkitekturene deres.
Vicky Zhang er programvareutviklingsingeniør hos Amazon SageMaker. Hun brenner for problemløsning. På fritiden liker hun å se detektivfilmer og spille badminton.
Rahul Nabera er en dataanalysekonsulent i AWS Professional Services. Hans nåværende arbeid fokuserer på å gjøre det mulig for kunder å bygge sine data- og maskinlæringsarbeidsmengder på AWS. På fritiden liker han å spille cricket og volleyball.
- Myntsmart. Europas beste Bitcoin og Crypto Exchange.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. FRI TILGANG.
- CryptoHawk. Altcoin Radar. Gratis prøveperiode.
- Kilde: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Om oss
- adgang
- Logg inn
- handlinger
- la til
- Alle
- Amazon
- analytics
- api
- app
- aktuelt
- Søknad
- søknader
- anvendt
- Påfør
- påføring
- hensiktsmessig
- apps
- Førsteamanuensis
- assosiert
- automatisere
- automatisk
- AWS
- fordi
- under
- Blokker
- grensen
- pauser
- bygge
- ring
- Årsak
- endring
- Sjekker
- Velg
- Cloud
- kode
- fullføre
- komponenter
- Beregn
- Konfigurasjon
- Koble
- konsulent
- inneholder
- kontroll
- skape
- opprettet
- skaper
- Opprette
- cricket
- avgjørende
- Gjeldende
- Kunder
- dato
- Data Analytics
- demonstrere
- avhenger
- utplassere
- utforming
- Utvikler
- Utvikling
- forskjellig
- domene
- hver enkelt
- lett
- savner
- muliggjøre
- muliggjør
- muliggjør
- ende til ende
- ingeniør
- Ingeniører
- Miljø
- hendelser
- eksempel
- eksisterende
- erfaring
- utforske
- utvidelser
- Failure
- raskere
- Først
- første gang
- flyten
- fokuserer
- følge
- etter
- format
- fra
- gateway
- gå
- GitHub
- skje
- høyde
- her.
- Hjemprodukt
- Hvordan
- Hvordan
- HTTPS
- bilde
- bilder
- inkludere
- inkludert
- informasjon
- installere
- f.eks
- interaktiv
- Interface
- saker
- IT
- lansere
- lansere
- læring
- Nivå
- linje
- Liste
- Se
- maskin
- maskinlæring
- GJØR AT
- administrer
- leder
- kunne
- ML
- modeller
- mer
- Filmer
- bærbare
- åpen
- drift
- original
- egen
- panel
- lidenskapelig
- spiller
- Forbered
- Principal
- Problem
- prosess
- Prosesser
- profesjonell
- Profil
- gir
- gi
- raskt
- Repository
- anmode
- Krav
- ressurs
- Ressurser
- Kjør
- rennende
- samme
- Spar
- Vitenskap
- forskere
- Serien
- Tjenester
- sett
- innstilling
- oppsett
- Shell
- Vis
- Enkelt
- So
- Software
- programvareutvikling
- solid
- løsning
- løse
- noen
- kildekoden
- spesialist
- spesifikk
- Standard
- Begynn
- starter
- lagring
- studio
- vellykket
- Støtte
- Støtter
- Teknisk
- terminal
- test
- De
- tid
- Transform
- utløst
- typer
- etter
- Oppdater
- bruke
- Brukere
- visualisering
- Hva
- om
- innenfor
- uten
- Arbeid
- virker
- Din