Utilizza Amazon SageMaker Data Wrangler in Amazon SageMaker Studio con una configurazione del ciclo di vita predefinita

Ripubblicato da Platone

Seguaci: 0

Se utilizzi la configurazione del ciclo di vita predefinita per il tuo dominio o profilo utente in Amazon Sage Maker Studio E l'uso Gestore di dati di Amazon SageMaker per la preparazione dei dati, allora questo post è per te. In questo post, mostriamo come creare un flusso di Data Wrangler e usarlo per la preparazione dei dati in un ambiente Studio con una configurazione del ciclo di vita predefinita.

Data Wrangler è una capacità di Amazon Sage Maker ciò rende più veloce per data scientist e ingegneri preparare i dati per applicazioni di machine learning (ML) tramite un'interfaccia visiva. La preparazione dei dati è una fase cruciale del ciclo di vita del ML e Data Wrangler fornisce una soluzione end-to-end per importare, esplorare, trasformare, mettere in primo piano ed elaborare i dati per il ML in un'esperienza visiva a basso contenuto di codice. Ti consente di connetterti facilmente e rapidamente a componenti AWS come Servizio di archiviazione semplice Amazon (Amazon S3), Amazzone Atena, Amazon RedShifte Formazione AWS Lakee fonti esterne come Snowflake e DataBricks DeltaLake. Data Wrangler supporta tipi di dati standard come CSV, JSON, ORC e Parquet.

Le app di Studio sono applicazioni interattive che abilitano l'interfaccia visiva, la creazione di codice e l'esperienza di esecuzione di Studio. I tipi di app possono essere Jupyter Server o Kernel Gateway:

Server Giove – Consente l'accesso all'interfaccia visiva per Studio. Ogni utente in Studio ottiene la propria app Jupyter Server.
Gateway del kernel – Consente l'accesso all'ambiente di esecuzione del codice e ai kernel per i notebook e i terminali Studio. Per ulteriori informazioni, vedere Gateway del kernel di Jupyter.

Configurazioni del ciclo di vita (LCC) sono script di shell per automatizzare la personalizzazione per i tuoi ambienti Studio, come l'installazione di estensioni JupyterLab, il precaricamento di set di dati e la configurazione di repository di codice sorgente. Gli script LCC vengono attivati da eventi del ciclo di vita di Studio, come l'avvio di un nuovo notebook Studio. Per impostare una configurazione del ciclo di vita come predefinita per il tuo dominio o profilo utente a livello di codice, puoi creare una nuova risorsa o aggiornare una risorsa esistente. Per associare una configurazione del ciclo di vita come predefinita, devi prima creare una configurazione del ciclo di vita seguendo i passaggi in Creazione e associazione di una configurazione del ciclo di vita

Nota: le configurazioni predefinite del ciclo di vita impostate a livello di dominio vengono ereditate da tutti gli utenti, mentre quelle impostate a livello di utente hanno come ambito un utente specifico. Se si applicano contemporaneamente le configurazioni del ciclo di vita a livello di dominio e di profilo utente, la configurazione del ciclo di vita a livello di profilo utente ha la precedenza e viene applicata all'applicazione indipendentemente dalla configurazione del ciclo di vita applicata a livello di dominio. Per ulteriori informazioni, vedere Impostazione delle configurazioni predefinite del ciclo di vita.

Data Wrangler accetta la configurazione del ciclo di vita di Kernel Gateway predefinita, ma alcuni dei comandi definiti nella configurazione del ciclo di vita di Kernel Gateway predefinita non sono applicabili a Data Wrangler, il che può causare il mancato avvio di Data Wrangler. Lo screenshot seguente mostra un esempio di un messaggio di errore che potresti ricevere quando avvii il flusso di Data Wrangler. Ciò può verificarsi solo con le configurazioni del ciclo di vita predefinite e non con le configurazioni del ciclo di vita.

Errore di Data Wrangler

Panoramica della soluzione

I clienti che utilizzano la configurazione del ciclo di vita predefinita in Studio possono seguire questo post e utilizzare il blocco di codice fornito all'interno dello script di configurazione del ciclo di vita per avviare un'app Data Wrangler senza errori.

Configura la configurazione del ciclo di vita predefinita

Per impostare una configurazione del ciclo di vita predefinita, è necessario aggiungerla a DefaultResourceSpec del tipo di app appropriato. Il comportamento della configurazione del ciclo di vita dipende dal fatto che sia stata aggiunta a DefaultResourceSpec di un'app Jupyter Server o Kernel Gateway:

App di Jupyter Server – Quando aggiunto al DefaultResourceSpec di un'app Jupyter Server, lo script di configurazione del ciclo di vita predefinito viene eseguito automaticamente quando l'utente accede a Studio per la prima volta o riavvia Studio. Puoi usarlo per automatizzare le azioni di configurazione una tantum per l'ambiente di sviluppo di Studio, come l'installazione di estensioni per notebook o la configurazione di un repository GitHub. Per un esempio di questo, vedi Personalizza Amazon SageMaker Studio utilizzando le configurazioni del ciclo di vita.
App del gateway del kernel – Quando aggiunto al DefaultResourceSpec di un'app Kernel Gateway, Studio seleziona per impostazione predefinita lo script di configurazione del ciclo di vita dal programma di avvio di Studio. È possibile avviare un notebook o un terminale con lo script predefinito o sceglierne uno diverso dall'elenco delle configurazioni del ciclo di vita.

Una configurazione predefinita del ciclo di vita del gateway del kernel specificata in DefaultResourceSpec si applica a tutte le immagini di Kernel Gateway nel dominio Studio, a meno che tu non scelga uno script diverso dall'elenco presentato nel programma di avvio di Studio.

Quando lavori con le configurazioni del ciclo di vita per Studio, crei una configurazione del ciclo di vita e la alleghi al tuo dominio Studio o al tuo profilo utente. È quindi possibile avviare un'applicazione Jupyter Server o Kernel Gateway per utilizzare la configurazione del ciclo di vita.

La tabella seguente riassume questi errori che potresti riscontrare quando avvii un'applicazione Data Wrangler con configurazioni del ciclo di vita predefinite.

Livello al quale la configurazione del ciclo di vita Viene applicata	Crea flusso di Data Wrangler Funziona (o) Errore	Soluzione
Dominio	Errore di richiesta errata	Applicare lo script (vedi sotto)
Profilo utente	Errore di richiesta errata	Applicare lo script (vedi sotto)
Applicazioni	Funziona: nessun problema	Non richiesto

Quando utilizzi la configurazione del ciclo di vita predefinita associata a Studio e Data Wrangler (app del gateway del kernel), potresti riscontrare un errore dell'app del gateway del kernel. In questo post, dimostriamo come impostare correttamente la configurazione del ciclo di vita predefinita per escludere i comandi in esecuzione in un'applicazione Data Wrangler in modo da non riscontrare errori dell'app Kernel Gateway.

Diciamo che vuoi installare a repository git-clone script come configurazione del ciclo di vita predefinita che estrae automaticamente un repository Git nella cartella home dell'utente all'avvio del server Jupyter. Esaminiamo ogni scenario di applicazione di una configurazione del ciclo di vita (dominio Studio, profilo utente o livello di applicazione).

Applicare la configurazione del ciclo di vita a livello di dominio o profilo utente di Studio

Per applicare la configurazione predefinita del ciclo di vita del gateway del kernel a livello di dominio o profilo utente di Studio, completare i passaggi in questa sezione. Iniziamo con le istruzioni per il livello del profilo utente.

Nello script di configurazione del ciclo di vita, devi includere il seguente blocco di codice che controlla e ignora l'app Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Ad esempio, usiamo il seguente script come il nostro originale (nota che la cartella per clonare il repository è cambiata in /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Il nuovo script modificato è simile al seguente:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Puoi salvare questo script come git_command_test.sh.

Ora esegui una serie di comandi nel terminale o nel prompt dei comandi. Dovresti configurare il Interfaccia della riga di comando di AWS (AWS CLI) per interagire con AWS. Se non hai configurato l'AWS CLI, fai riferimento a Configurazione dell'AWS CLI.

Converti il tuo git_command_test.sh file in formato Base64. Questo requisito evita errori dovuti alla codifica della spaziatura e delle interruzioni di riga.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Crea una configurazione del ciclo di vita di Studio. Il comando seguente crea una configurazione del ciclo di vita che viene eseguita all'avvio di un'app Kernel Gateway associata:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Utilizzare la seguente chiamata API per creare un nuovo profilo utente con una configurazione del ciclo di vita associata:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

In alternativa, se desideri creare un dominio Studio per associare la configurazione del ciclo di vita a livello di dominio o aggiornare il profilo utente o il dominio, puoi seguire i passaggi in Impostazione delle configurazioni predefinite del ciclo di vita.

Ora puoi avviare la tua app Studio dal pannello di controllo di SageMaker.
Nel tuo ambiente Studio, sul Compila il menù, scegliere New ed Flusso di gestione dei dati.Il nuovo flusso di Data Wrangler dovrebbe aprirsi senza problemi.
Per convalidare il clone Git, puoi aprire un nuovo Launcher in Studio.
Sotto Notebook e risorse di calcolo, scegli il notebook Python 3 e il Science Data Immagine di SageMaker per avviare lo script come script di configurazione del ciclo di vita predefinito.

Puoi vedere il Git clonato /root nella schermata seguente.

Git clonato in /root

Abbiamo applicato con successo la configurazione predefinita del ciclo di vita del kernel a livello di profilo utente e creato un flusso di Data Wrangler. Per configurare a livello di dominio Studio, l'unica modifica è invece di creare un profilo utente, si passa l'ARN della configurazione del ciclo di vita in un crea-dominio chiamata.

Applicare la configurazione del ciclo di vita a livello di applicazione

Se applichi la configurazione del ciclo di vita di Kernel Gateway predefinita a livello di applicazione, non avrai problemi perché Data Wrangler ignora la configurazione del ciclo di vita applicata a livello di applicazione.

Conclusione

In questo post, abbiamo mostrato come configurare correttamente la configurazione del ciclo di vita predefinita per Studio quando utilizzi Data Wrangler per la preparazione dei dati e i requisiti di visualizzazione.

Per riassumere, se è necessario utilizzare l'impostazione predefinita configurazione del ciclo di vita per Studio per automatizzare la personalizzazione per i tuoi ambienti Studio e utilizzare Data Wrangler per la preparazione dei dati, puoi applicare la configurazione del ciclo di vita di Kernel Gateway predefinita a livello di profilo utente o di dominio Studio con il blocco di codice appropriato incluso nella configurazione del tuo ciclo di vita in modo che la configurazione del ciclo di vita predefinita lo verifichi e salta l'app Data Wrangler Kernel Gateway.

Per ulteriori informazioni, vedere le seguenti risorse:

Informazioni sugli autori

Rajakumar Sampathkumar è un Principal Technical Account Manager presso AWS, che fornisce ai clienti una guida sull'allineamento della tecnologia aziendale e supporta la reinvenzione dei loro modelli e processi operativi cloud. È appassionato di cloud e machine learning. Raj è anche uno specialista dell'apprendimento automatico e collabora con i clienti AWS per progettare, distribuire e gestire i carichi di lavoro e le architetture AWS.

Vicky Zhang è un ingegnere di sviluppo software presso Amazon SageMaker. È appassionata di problem solving. Nel tempo libero le piace guardare film polizieschi e giocare a badminton.

Raul Nabera è un consulente per l'analisi dei dati in AWS Professional Services. Il suo attuale lavoro si concentra sul consentire ai clienti di creare i propri dati e carichi di lavoro di machine learning su AWS. Nel tempo libero si diverte a giocare a cricket e pallavolo.