Brug Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en standard livscykluskonfiguration

Genudgivet af Platon

Abonnenter: 0

Hvis du bruger standard livscykluskonfigurationen for dit domæne eller brugerprofil i Amazon SageMaker Studio Og brug Amazon SageMaker Data Wrangler til dataforberedelse, så er dette indlæg noget for dig. I dette indlæg viser vi, hvordan du kan oprette et Data Wrangler-flow og bruge det til dataforberedelse i et Studio-miljø med en standard livscykluskonfiguration.

Data Wrangler er en evne til Amazon SageMaker der gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til maskinlæringsapplikationer (ML) via en visuel grænseflade. Dataforberedelse er et afgørende trin i ML-livscyklussen, og Data Wrangler leverer en end-to-end-løsning til at importere, udforske, transformere, fremhæve og behandle data til ML i en visuel oplevelse med lav kode. Det lader dig nemt og hurtigt oprette forbindelse til AWS-komponenter som f Amazon Simple Storage Service (Amazon S3), Amazonas Athena, Amazon rødforskydningog AWS søformation, og eksterne kilder som Snowflake og DataBricks DeltaLake. Data Wrangler understøtter standarddatatyper såsom CSV, JSON, ORC og Parket.

Studio-apps er interaktive applikationer, der muliggør Studios visuelle grænseflade, kodeforfattelse og kørselsoplevelse. Apptyper kan enten være Jupyter Server eller Kernel Gateway:

Jupyter server – Giver adgang til den visuelle grænseflade for Studio. Hver bruger i Studio får deres egen Jupyter Server-app.
Kernel Gateway – Giver adgang til kodekørselsmiljøet og kerner til dine Studio notebooks og terminaler. For mere information, se Jupyter Kernel Gateway.

Livscykluskonfigurationer (LCC'er) er shell-scripts til at automatisere tilpasning til dine Studio-miljøer, såsom installation af JupyterLab-udvidelser, forudindlæsning af datasæt og opsætning af kildekodelagre. LCC-scripts udløses af Studio-livscyklushændelser, såsom at starte en ny Studio-notesbog. For at indstille en livscykluskonfiguration som standard for dit domæne eller din brugerprofil programmatisk, kan du oprette en ny ressource eller opdatere en eksisterende ressource. For at tilknytte en livscykluskonfiguration som standard, skal du først oprette en livscykluskonfiguration ved at følge trinene i Oprettelse og tilknytning af en livscykluskonfiguration

Bemærk: Standardlivscykluskonfigurationer, der er konfigureret på domæneniveau, nedarves af alle brugere, hvorimod dem, der er konfigureret på brugerniveau, er beregnet til en specifik bruger. Hvis du anvender livscykluskonfigurationer på både domæneniveau og brugerprofilniveau på samme tid, har livscykluskonfigurationen på brugerprofilniveau forrang og anvendes på applikationen, uanset hvilken livscykluskonfiguration der anvendes på domæneniveau. For mere information, se Indstilling af standard livscykluskonfigurationer.

Data Wrangler accepterer standard Kernel Gateway-livscykluskonfigurationen, men nogle af kommandoerne, der er defineret i standard Kernel Gateway-livscykluskonfigurationen, er ikke gældende for Data Wrangler, hvilket kan forårsage, at Data Wrangler ikke starter. Følgende skærmbillede viser et eksempel på en fejlmeddelelse, du kan få, når du starter Data Wrangler-flowet. Dette kan kun ske med standard livscykluskonfigurationer og ikke med livscykluskonfigurationer.

Data Wrangler-fejl

Løsningsoversigt

Kunder, der bruger standardlivscykluskonfigurationen i Studio, kan følge dette indlæg og bruge den medfølgende kodeblok i livscykluskonfigurationsscriptet til at starte en Data Wrangler-app uden fejl.

Konfigurer standard livscykluskonfigurationen

For at konfigurere en standard livscykluskonfiguration skal du tilføje den til DefaultResourceSpec af den relevante app-type. Opførselen af din livscykluskonfiguration afhænger af, om den er føjet til DefaultResourceSpec af en Jupyter Server- eller Kernel Gateway-app:

Jupyter Server-apps – Når føjet til DefaultResourceSpec af en Jupyter Server-app, kører standard lifecycle-konfigurationsscriptet automatisk, når brugeren logger på Studio for første gang eller genstarter Studio. Du kan bruge dette til at automatisere engangsopsætningshandlinger for Studio-udviklermiljøet, såsom installation af notebook-udvidelser eller opsætning af en GitHub-repo. For et eksempel på dette, se Tilpas Amazon SageMaker Studio ved hjælp af livscykluskonfigurationer.
Kernel Gateway apps – Når føjet til DefaultResourceSpec i en Kernel Gateway-app, vælger Studio som standard scriptet til livscykluskonfiguration fra Studio-starteren. Du kan starte en notesbog eller terminal med standardscriptet eller vælge et andet fra listen over livscykluskonfigurationer.

En standard Kernel Gateway-livscykluskonfiguration angivet i DefaultResourceSpec gælder for alle Kernel Gateway-billeder i Studio-domænet, medmindre du vælger et andet script fra listen præsenteret i Studio-starteren.

Når du arbejder med livscykluskonfigurationer for Studio, opretter du en livscykluskonfiguration og vedhæfter den til enten dit Studio-domæne eller brugerprofil. Du kan derefter starte en Jupyter Server- eller Kernel Gateway-applikation for at bruge livscykluskonfigurationen.

Følgende tabel opsummerer disse fejl, du kan støde på, når du starter en Data Wrangler-applikation med standard livscykluskonfigurationer.

Niveau, hvorpå livscykluskonfigurationen Er anvendt	Opret data Wrangler Flow Virker (eller) Fejl	Løsning
Domæne	Dårlig anmodningsfejl	Anvend scriptet (se nedenfor)
Bruger Profil	Dårlig anmodningsfejl	Anvend scriptet (se nedenfor)
Anvendelse	Virker - Intet problem	Ikke påkrævet

Når du bruger standardlivscykluskonfigurationen forbundet med Studio og Data Wrangler (Kernel Gateway-app), kan du støde på Kernel Gateway-appfejl. I dette indlæg demonstrerer vi, hvordan du indstiller standard livscykluskonfigurationen korrekt for at udelukke kørende kommandoer i en Data Wrangler-applikation, så du ikke støder på Kernel Gateway-appfejl.

Lad os sige, at du vil installere en git-clone-repo script som standard livscykluskonfiguration, der automatisk tjekker et Git-lager ud under brugerens hjemmemappe, når Jupyter-serveren starter. Lad os se på hvert scenarie for anvendelse af en livscykluskonfiguration (Studio-domæne, brugerprofil eller applikationsniveau).

Anvend livscykluskonfiguration på Studio-domæne- eller brugerprofilniveau

For at anvende standard Kernel Gateway-livscykluskonfigurationen på Studio-domæne- eller brugerprofilniveau skal du udføre trinene i dette afsnit. Vi starter med instruktioner til brugerprofilniveauet.

I dit livscykluskonfigurationsscript skal du inkludere følgende kodeblok, der kontrollerer og springer Data Wrangler Kernel Gateway-appen over:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Lad os for eksempel bruge følgende script som vores originale (bemærk, at mappen til at klone repoen er ændret til /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Det nye ændrede script ser sådan ud:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Du kan gemme dette script som git_command_test.sh.

Nu kører du en række kommandoer i din terminal eller kommandoprompt. Du bør konfigurere AWS kommandolinjegrænseflade (AWS CLI) for at interagere med AWS. Hvis du ikke har konfigureret AWS CLI, se Konfiguration af AWS CLI.

Konverter din git_command_test.sh fil i Base64-format. Dette krav forhindrer fejl på grund af indkodning af mellemrum og linjeskift.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Opret en Studio-livscykluskonfiguration. Følgende kommando opretter en livscykluskonfiguration, der kører ved lancering af en tilknyttet Kernel Gateway-app:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Brug følgende API-kald til at oprette en ny brugerprofil med en tilknyttet livscykluskonfiguration:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Alternativt, hvis du vil oprette et Studio-domæne for at tilknytte din livscykluskonfiguration på domæneniveau eller opdatere brugerprofilen eller domænet, kan du følge trinene i Indstilling af standard livscykluskonfigurationer.

Nu kan du starte din Studio-app fra SageMaker Kontrolpanel.
I dit studiemiljø, på File (Felt) menu, vælg Ny , Data Wrangler Flow.Det nye Data Wrangler-flow skulle åbne uden problemer.
For at validere Git-klonen kan du åbne en ny Launcher i Studio.
Under Notesbøger og computerressourcer, vælg Python 3-notesbogen og data, Science SageMaker-billede for at starte dit script som dit standard-livscykluskonfigurationsscript.

Du kan se Git klonet til /root i det følgende skærmbillede.

Git klonet til /root

Vi har med succes anvendt standardkernens livscykluskonfiguration på brugerprofilniveau og oprettet et Data Wrangler-flow. For at konfigurere på Studio-domæneniveau er den eneste ændring i stedet for at oprette en brugerprofil, du videregiver ARN for livscykluskonfigurationen i en oprette-domæne opkald.

Anvend livscykluskonfiguration på applikationsniveau

Hvis du anvender standard Kernel Gateway-livscykluskonfigurationen på applikationsniveau, vil du ikke have nogen problemer, fordi Data Wrangler springer livscykluskonfigurationen over, der er anvendt på applikationsniveau.

Konklusion

I dette indlæg viste vi, hvordan du konfigurerer din standardlivscykluskonfiguration korrekt for Studio, når du bruger Data Wrangler til dataforberedelse og visualiseringskrav.

For at opsummere, hvis du skal bruge standarden livscykluskonfiguration for Studio for at automatisere tilpasningen til dine Studio-miljøer og bruge Data Wrangler til dataforberedelse, kan du anvende standard Kernel Gateway-livscykluskonfigurationen på brugerprofil- eller Studio-domæneniveauet med den passende kodeblok inkluderet i din livscykluskonfiguration, så standard-livscykluskonfigurationen kontrollerer det og springer Data Wrangler Kernel Gateway-appen over.

For mere information, se følgende ressourcer:

Om forfatterne

Rajakumar Sampathkumar er en Principal Technical Account Manager hos AWS, der giver kunderne vejledning om forretningsteknologisk tilpasning og understøtter genopfindelsen af deres cloud-driftsmodeller og -processer. Han brænder for cloud og machine learning. Raj er også maskinlæringsspecialist og arbejder med AWS-kunder for at designe, implementere og administrere deres AWS-arbejdsbelastninger og -arkitekturer.

Vicky Zhang er softwareudviklingsingeniør hos Amazon SageMaker. Hun brænder for problemløsning. I sin fritid nyder hun at se detektivfilm og spille badminton.

Rahul Nabera er dataanalysekonsulent i AWS Professional Services. Hans nuværende arbejde fokuserer på at gøre det muligt for kunder at opbygge deres data- og maskinlærings-arbejdsbelastninger på AWS. I sin fritid nyder han at spille cricket og volleyball.

Tidsstempel: Juli 5, 2022

Tidsstempel: Juni 27, 2022

Brug Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en standard livscykluskonfiguration

Genudgivet af Platon

Løsningsoversigt

Konfigurer standard livscykluskonfigurationen

Anvend livscykluskonfiguration på Studio-domæne- eller brugerprofilniveau

Anvend livscykluskonfiguration på applikationsniveau

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Reducer Amazon SageMaker-udledningsomkostningerne med AWS Graviton

Hurtig og omkostningseffektiv LLaMA 2 finjustering med AWS Trainium | Amazon Web Services

Forbedre opkaldsoplevelsen med tip i Amazon Lex

Anvend bandeordmaskering i Amazon Translate

Automatiser PDF-præ-mærkning til Amazon Comprehend | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto