Använd Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en förinställd livscykelkonfiguration

Återutgiven av Platon

anhängare: 0

Om du använder standardlivscykelkonfigurationen för din domän eller användarprofil i Amazon SageMaker Studio Och använda Amazon SageMaker Data Wrangler för dataförberedelse, då är det här inlägget för dig. I det här inlägget visar vi hur du kan skapa ett Data Wrangler-flöde och använda det för dataförberedelse i en Studio-miljö med en standardlivscykelkonfiguration.

Data Wrangler är en förmåga att Amazon SageMaker som gör det snabbare för datavetare och ingenjörer att förbereda data för applikationer för maskininlärning (ML) via ett visuellt gränssnitt. Dataförberedelse är ett avgörande steg i ML-livscykeln, och Data Wrangler tillhandahåller en helhetslösning för att importera, utforska, transformera, presentera och bearbeta data för ML i en visuell upplevelse med låg kod. Det låter dig enkelt och snabbt ansluta till AWS-komponenter som Amazon enkel lagringstjänst (Amazon S3), Amazonas Athena, Amazon RedShiftoch AWS Lake Formation, och externa källor som Snowflake och DataBricks DeltaLake. Data Wrangler stöder standarddatatyper som CSV, JSON, ORC och Parkett.

Studio-appar är interaktiva applikationer som möjliggör Studios visuella gränssnitt, kodskrivning och körupplevelse. Apptyper kan vara antingen Jupyter Server eller Kernel Gateway:

Jupyter Server – Möjliggör åtkomst till det visuella gränssnittet för Studio. Varje användare i Studio får sin egen Jupyter Server-app.
Kernel Gateway – Möjliggör åtkomst till kodkörningsmiljön och kärnor för dina Studio-datorer och terminaler. För mer information, se Jupyter Kernel Gateway.

Livscykelkonfigurationer (LCC) är skalskript för att automatisera anpassning för dina Studio-miljöer, som att installera JupyterLab-tillägg, förinläsa datauppsättningar och ställa in källkodsförråd. LCC-skript utlöses av Studio-livscykelhändelser, som att starta en ny Studio-anteckningsbok. För att ställa in en livscykelkonfiguration som standard för din domän eller användarprofil programmatiskt kan du skapa en ny resurs eller uppdatera en befintlig resurs. För att associera en livscykelkonfiguration som standard måste du först skapa en livscykelkonfiguration genom att följa stegen i Skapa och associera en livscykelkonfiguration

Obs! Standardlivscykelkonfigurationer som ställts in på domännivå ärvs av alla användare, medan de som ställs in på användarnivå är inriktade på en specifik användare. Om du tillämpar livscykelkonfigurationer på både domännivå och användarprofilnivå samtidigt, har livscykelkonfigurationen på användarprofilnivå företräde och tillämpas på applikationen oavsett vilken livscykelkonfiguration som tillämpas på domännivån. För mer information, se Ställa in förinställda livscykelkonfigurationer.

Data Wrangler accepterar den förinställda livscykelkonfigurationen för Kernel Gateway, men vissa av kommandona som definieras i standardkonfigurationen för Kernel Gateways livscykel är inte tillämpliga på Data Wrangler, vilket kan göra att Data Wrangler inte startar. Följande skärmdump visar ett exempel på ett felmeddelande som du kan få när du startar Data Wrangler-flödet. Detta kan bara hända med standardlivscykelkonfigurationer och inte med livscykelkonfigurationer.

Data Wrangler-fel

Lösningsöversikt

Kunder som använder standardlivscykelkonfigurationen i Studio kan följa det här inlägget och använda det medföljande kodblocket i livscykelkonfigurationsskriptet för att starta en Data Wrangler-app utan några fel.

Ställ in standardlivscykelkonfigurationen

För att ställa in en standardlivscykelkonfiguration måste du lägga till den i DefaultResourceSpec av lämplig apptyp. Beteendet för din livscykelkonfiguration beror på om den har lagts till i DefaultResourceSpec av en Jupyter Server- eller Kernel Gateway-app:

Jupyter Server-appar – När den läggs till DefaultResourceSpec i en Jupyter Server-app körs standardskriptet för livscykelkonfiguration automatiskt när användaren loggar in på Studio för första gången eller startar om Studio. Du kan använda detta för att automatisera engångsinstallationsåtgärder för Studios utvecklarmiljö, som att installera anteckningsboktillägg eller ställa in en GitHub-repo. För ett exempel på detta, se Anpassa Amazon SageMaker Studio med hjälp av livscykelkonfigurationer.
Kernel Gateway-appar – När den läggs till DefaultResourceSpec i en Kernel Gateway-app väljer Studio som standard skriptet för livscykelkonfiguration från Studio-startprogrammet. Du kan starta en bärbar dator eller terminal med standardskriptet eller välja ett annat från listan över livscykelkonfigurationer.

En standard livscykelkonfiguration för Kernel Gateway som anges i DefaultResourceSpec gäller alla Kernel Gateway-bilder i Studio-domänen om du inte väljer ett annat skript från listan som presenteras i Studio-startprogrammet.

När du arbetar med livscykelkonfigurationer för Studio skapar du en livscykelkonfiguration och bifogar den till antingen din Studio-domän eller användarprofil. Du kan sedan starta en Jupyter Server- eller Kernel Gateway-applikation för att använda livscykelkonfigurationen.

Följande tabell sammanfattar dessa fel som du kan stöta på när du startar ett Data Wrangler-program med standardlivscykelkonfigurationer.

Nivå på vilken livscykelkonfigurationen Tillämpas	Skapa Data Wrangler Flow Fungerar (eller) Fel	Jobba runt
Domän	Felaktig begäran fel	Använd skriptet (se nedan)
Användarprofil	Felaktig begäran fel	Använd skriptet (se nedan)
Ansökan	Fungerar – inga problem	Krävs inte

När du använder standardlivscykelkonfigurationen som är kopplad till Studio och Data Wrangler (Kernel Gateway-appen), kan du stöta på Kernel Gateway-appfel. I det här inlägget visar vi hur du ställer in standardlivscykelkonfigurationen korrekt för att utesluta körande kommandon i en Data Wrangler-applikation så att du inte stöter på Kernel Gateway-appfel.

Låt oss säga att du vill installera en git-clone-repo skript som standard livscykelkonfiguration som automatiskt checkar ut ett Git-förråd under användarens hemmapp när Jupyter-servern startar. Låt oss titta på varje scenario för att tillämpa en livscykelkonfiguration (Studio-domän, användarprofil eller applikationsnivå).

Tillämpa livscykelkonfiguration på Studio-domän- eller användarprofilnivå

Följ stegen i det här avsnittet för att tillämpa den förinställda livscykelkonfigurationen för Kernel Gateway på Studio-domän- eller användarprofilnivå. Vi börjar med instruktioner för användarprofilnivån.

I ditt livscykelkonfigurationsskript måste du inkludera följande kodblock som kontrollerar och hoppar över Data Wrangler Kernel Gateway-appen:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Låt oss till exempel använda följande skript som vårt original (observera att mappen för att klona repet ändras till /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Det nya modifierade skriptet ser ut så här:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Du kan spara detta skript som git_command_test.sh.

Nu kör du en serie kommandon i din terminal eller kommandotolk. Du bör konfigurera AWS-kommandoradsgränssnitt (AWS CLI) för att interagera med AWS. Om du inte har ställt in AWS CLI, se Konfigurera AWS CLI.

Konvertera din git_command_test.sh fil i Base64-format. Detta krav förhindrar fel på grund av kodning av mellanrum och radbrytningar.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Skapa en Studio-livscykelkonfiguration. Följande kommando skapar en livscykelkonfiguration som körs vid lansering av en associerad Kernel Gateway-app:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Använd följande API-anrop för att skapa en ny användarprofil med en tillhörande livscykelkonfiguration:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Alternativt, om du vill skapa en Studio-domän för att associera din livscykelkonfiguration på domännivå, eller uppdatera användarprofilen eller domänen, kan du följa stegen i Ställa in förinställda livscykelkonfigurationer.

Nu kan du starta din Studio-app från SageMakers kontrollpanel.
I din studiomiljö, på Fil meny, välj Nya och Data Wrangler Flow.Det nya Data Wrangler-flödet bör öppnas utan några problem.
För att validera Git-klonen kan du öppna en ny Launcher i Studio.
Enligt Anteckningsböcker och datorresurser, välj Python 3-anteckningsboken och Data Science SageMaker-bild för att starta ditt skript som ditt standardskript för livscykelkonfiguration.

Du kan se Git klonad till /root i följande skärmdump.

Git klonad till /root

Vi har framgångsrikt tillämpat standardkonfigurationen för kärnans livscykel på användarprofilnivå och skapat ett Data Wrangler-flöde. För att konfigurera på Studio-domännivå är den enda ändringen att istället för att skapa en användarprofil skickar du ARN för livscykelkonfigurationen i en skapa-domän ring upp.

Tillämpa livscykelkonfiguration på applikationsnivå

Om du använder den förinställda Kernel Gateway-livscykelkonfigurationen på applikationsnivå kommer du inte att ha några problem eftersom Data Wrangler hoppar över livscykelkonfigurationen som tillämpas på applikationsnivå.

Slutsats

I det här inlägget visade vi hur du konfigurerar din standardlivscykelkonfiguration korrekt för Studio när du använder Data Wrangler för dataförberedelse och visualiseringskrav.

För att sammanfatta, om du behöver använda standard livscykelkonfiguration för Studio för att automatisera anpassningen för dina Studio-miljöer och använda Data Wrangler för dataförberedelse, kan du tillämpa den förinställda Kernel Gateway-livscykelkonfigurationen på användarprofilen eller Studio-domännivån med lämpligt kodblock inkluderat i din livscykelkonfiguration så att standardlivscykelkonfigurationen kontrollerar det och hoppar över Data Wrangler Kernel Gateway-appen.

Mer information finns i följande resurser:

Om författarna

Rajakumar Sampathkumar är en Principal Technical Account Manager på AWS, som ger kunder vägledning om affärsteknologisk anpassning och stödjer återuppfinnandet av deras molndriftsmodeller och -processer. Han brinner för moln och maskininlärning. Raj är också en maskininlärningsspecialist och arbetar med AWS-kunder för att designa, distribuera och hantera deras AWS-arbetsbelastningar och -arkitekturer.

Vicky Zhang är en mjukvaruutvecklingsingenjör på Amazon SageMaker. Hon brinner för problemlösning. På fritiden tycker hon om att titta på detektivfilmer och spela badminton.

Rahul Nabera är en dataanalyskonsult inom AWS Professional Services. Hans nuvarande arbete fokuserar på att göra det möjligt för kunder att bygga sina arbetsbelastningar för data och maskininlärning på AWS. På fritiden spelar han cricket och volleyboll.

Tidsstämpel: Juli 5, 2022

Tidsstämpel: Juni 27, 2022

Använd Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en standardlivscykelkonfiguration

Återutgiven av Platon

Lösningsöversikt

Ställ in standardlivscykelkonfigurationen

Tillämpa livscykelkonfiguration på Studio-domän- eller användarprofilnivå

Tillämpa livscykelkonfiguration på applikationsnivå

Slutsats

Om författarna

Mer från AWS maskininlärning

Minska Amazon SageMaker slutledningskostnaden med AWS Graviton

Snabb och kostnadseffektiv LLaMA 2-finjustering med AWS Trainium | Amazon webbtjänster

Förbättra samtalsupplevelsen med tips i Amazon Lex

Använd svordomsmaskering i Amazon Translate

Automatisera PDF-företikettering för Amazon Comprehend | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto