Use o Amazon SageMaker Data Wrangler no Amazon SageMaker Studio com uma configuração de ciclo de vida padrão

Republicado por Platão

seguidores: 0

Se você usar a configuração de ciclo de vida padrão para seu domínio ou perfil de usuário em Estúdio Amazon SageMaker E use Gerenciador de dados do Amazon SageMaker para preparação de dados, então este post é para você. Neste post, mostramos como você pode criar um fluxo do Data Wrangler e usá-lo para preparação de dados em um ambiente Studio com uma configuração de ciclo de vida padrão.

O Data Wrangler é um recurso de Amazon Sage Maker que torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de aprendizado de máquina (ML) por meio de uma interface visual. A preparação de dados é uma etapa crucial do ciclo de vida de ML, e o Data Wrangler fornece uma solução completa para importar, explorar, transformar, caracterizar e processar dados para ML em uma experiência visual e com pouco código. Ele permite que você se conecte com facilidade e rapidez a componentes da AWS, como Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift e Formação AWS Lake, e fontes externas como Snowflake e DataBricks DeltaLake. O Data Wrangler oferece suporte a tipos de dados padrão, como CSV, JSON, ORC e Parquet.

Os aplicativos do Studio são aplicativos interativos que permitem a interface visual, a criação de código e a experiência de execução do Studio. Os tipos de aplicativo podem ser Jupyter Server ou Kernel Gateway:

Servidor Jupyter – Permite o acesso à interface visual do Studio. Cada usuário no Studio obtém seu próprio aplicativo Jupyter Server.
Gateway do Kernel – Permite acesso ao ambiente de execução de código e kernels para seus notebooks e terminais Studio. Para mais informações, veja Gateway do kernel Jupyter.

Configurações de ciclo de vida (LCCs) são scripts de shell para automatizar a personalização dos ambientes do Studio, como instalar extensões do JupyterLab, pré-carregar conjuntos de dados e configurar repositórios de código-fonte. Os scripts LCC são acionados por eventos de ciclo de vida do Studio, como iniciar um novo notebook do Studio. Para definir uma configuração de ciclo de vida como padrão para seu domínio ou perfil de usuário programaticamente, você pode criar um novo recurso ou atualizar um recurso existente. Para associar uma configuração de ciclo de vida como padrão, primeiro você precisa criar uma configuração de ciclo de vida seguindo as etapas em Criando e associando uma configuração de ciclo de vida

Observação: as configurações de ciclo de vida padrão definidas no nível do domínio são herdadas por todos os usuários, enquanto as configuradas no nível do usuário têm o escopo definido para um usuário específico. Se você aplicar as configurações de ciclo de vida de nível de domínio e de perfil de usuário ao mesmo tempo, a configuração de ciclo de vida de nível de perfil de usuário terá precedência e será aplicada ao aplicativo, independentemente de qual configuração de ciclo de vida seja aplicada no nível de domínio. Para mais informações, veja Definindo configurações de ciclo de vida padrão.

O Data Wrangler aceita a configuração de ciclo de vida padrão do Kernel Gateway, mas alguns dos comandos definidos na configuração padrão do ciclo de vida do Kernel Gateway não são aplicáveis ao Data Wrangler, o que pode fazer com que o Data Wrangler falhe ao iniciar. A captura de tela a seguir mostra um exemplo de mensagem de erro que você pode receber ao iniciar o fluxo do Data Wrangler. Isso pode acontecer apenas com configurações de ciclo de vida padrão e não com configurações de ciclo de vida.

Erro do organizador de dados

Visão geral da solução

Os clientes que usam a configuração de ciclo de vida padrão no Studio podem seguir esta postagem e usar o bloco de código fornecido no script de configuração do ciclo de vida para iniciar um aplicativo Data Wrangler sem erros.

Definir a configuração de ciclo de vida padrão

Para definir uma configuração de ciclo de vida padrão, você deve adicioná-la ao DefaultResourceSpec do tipo de aplicativo apropriado. O comportamento de sua configuração de ciclo de vida depende se ela foi adicionada ao DefaultResourceSpec de um aplicativo Jupyter Server ou Kernel Gateway:

Aplicativos do servidor Jupyter – Quando adicionado ao DefaultResourceSpec de um aplicativo Jupyter Server, o script de configuração do ciclo de vida padrão é executado automaticamente quando o usuário faz login no Studio pela primeira vez ou reinicia o Studio. Você pode usar isso para automatizar ações de configuração únicas para o ambiente de desenvolvedor do Studio, como instalar extensões de notebook ou configurar um repositório do GitHub. Para um exemplo disso, veja Personalize o Amazon SageMaker Studio usando configurações de ciclo de vida.
Aplicativos de gateway de kernel – Quando adicionado ao DefaultResourceSpec de um aplicativo Kernel Gateway, o padrão do Studio é selecionar o script de configuração do ciclo de vida no inicializador do Studio. Você pode iniciar um notebook ou terminal com o script padrão ou escolher um diferente na lista de configurações de ciclo de vida.

Uma configuração de ciclo de vida padrão do Kernel Gateway especificada em DefaultResourceSpec aplica-se a todas as imagens do Kernel Gateway no domínio do Studio, a menos que você escolha um script diferente da lista apresentada no inicializador do Studio.

Ao trabalhar com configurações de ciclo de vida do Studio, você cria uma configuração de ciclo de vida e a anexa ao seu domínio ou perfil de usuário do Studio. Você pode então iniciar um aplicativo Jupyter Server ou Kernel Gateway para usar a configuração do ciclo de vida.

A tabela a seguir resume esses erros que você pode encontrar ao iniciar um aplicativo Data Wrangler com configurações de ciclo de vida padrão.

Nível em que a configuração do ciclo de vida É aplicado	Criar fluxo do organizador de dados Funciona (ou) Erro	Solução
Domínio	Erro de solicitação incorreta	Aplique o script (veja abaixo)
Perfil de usuário	Erro de solicitação incorreta	Aplique o script (veja abaixo)
Aplicação	Funciona - Sem problemas	Não é necessária

Ao usar a configuração de ciclo de vida padrão associada ao Studio e ao Data Wrangler (aplicativo Kernel Gateway), você pode encontrar uma falha no aplicativo Kernel Gateway. Nesta postagem, demonstramos como definir a configuração do ciclo de vida padrão corretamente para excluir comandos em execução em um aplicativo Data Wrangler para que você não encontre falhas no aplicativo Kernel Gateway.

Digamos que você queira instalar um repositório git-clone script como a configuração de ciclo de vida padrão que verifica um repositório Git na pasta inicial do usuário automaticamente quando o servidor Jupyter é iniciado. Vejamos cada cenário de aplicação de uma configuração de ciclo de vida (domínio do Studio, perfil de usuário ou nível de aplicativo).

Aplicar a configuração do ciclo de vida no domínio do Studio ou no nível do perfil do usuário

Para aplicar a configuração de ciclo de vida padrão do Kernel Gateway no domínio do Studio ou no nível do perfil do usuário, conclua as etapas nesta seção. Começamos com instruções para o nível do perfil do usuário.

Em seu script de configuração do ciclo de vida, você deve incluir o seguinte bloco de código que verifica e ignora o aplicativo Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Por exemplo, vamos usar o script a seguir como nosso original (observe que a pasta para clonar o repositório é alterada para /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

O novo script modificado se parece com o seguinte:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Você pode salvar este script como git_command_test.sh.

Agora você executa uma série de comandos em seu terminal ou prompt de comando. Você deve configurar o Interface de linha de comando da AWS (AWS CLI) para interagir com a AWS. Se você não configurou a AWS CLI, consulte Configurando o AWS CLI.

Converta o seu git_command_test.sh arquivo no formato Base64. Esse requisito evita erros devido à codificação de espaçamento e quebras de linha.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Crie uma configuração de ciclo de vida do Studio. O comando a seguir cria uma configuração de ciclo de vida que é executada na inicialização de um aplicativo Kernel Gateway associado:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Use a seguinte chamada de API para criar um novo perfil de usuário com uma configuração de ciclo de vida associada:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Como alternativa, se você quiser criar um domínio do Studio para associar sua configuração de ciclo de vida no nível do domínio ou atualizar o perfil de usuário ou domínio, siga as etapas em Definindo configurações de ciclo de vida padrão.

Agora você pode iniciar seu aplicativo Studio a partir do Painel de controle do SageMaker.
Em seu ambiente Studio, no Envie o menu, escolha Novo e Fluxo do Data Wrangler.O novo fluxo do Data Wrangler deve abrir sem problemas.
Para validar o clone do Git, você pode abrir um novo Launcher no Studio.
Debaixo Notebooks e recursos de computação, escolha o notebook Python 3 e o Ciência dados Imagem do SageMaker para iniciar seu script como seu script de configuração de ciclo de vida padrão.

Você pode ver o Git clonado para /root na captura de tela a seguir.

Git clonado em /root

Aplicamos com sucesso a configuração padrão do ciclo de vida do Kernel no nível do perfil do usuário e criamos um fluxo do Data Wrangler. Para configurar no nível de domínio do Studio, a única mudança é, em vez de criar um perfil de usuário, você passa o ARN da configuração do ciclo de vida em um criar-domínio ligar.

Aplicar a configuração do ciclo de vida no nível do aplicativo

Se você aplicar a configuração de ciclo de vida padrão do Kernel Gateway no nível do aplicativo, não terá problemas porque o Data Wrangler ignora a configuração do ciclo de vida aplicada no nível do aplicativo.

Conclusão

Neste post, mostramos como configurar sua configuração de ciclo de vida padrão corretamente para o Studio ao usar o Data Wrangler para preparação de dados e requisitos de visualização.

Para resumir, se você precisar usar o padrão configuração do ciclo de vida do Studio para automatizar a personalização para seus ambientes Studio e usar o Data Wrangler para preparação de dados, você pode aplicar a configuração de ciclo de vida padrão do Kernel Gateway no perfil do usuário ou nível de domínio do Studio com o bloco de código apropriado incluído em sua configuração de ciclo de vida para que a configuração de ciclo de vida padrão a verifique e ignora o aplicativo Data Wrangler Kernel Gateway.

Para obter mais informações, consulte os seguintes recursos:

Sobre os autores

Rajakumar Sampathkumar é gerente técnico principal de contas da AWS, fornecendo orientação aos clientes sobre o alinhamento de tecnologia de negócios e apoiando a reinvenção de seus modelos e processos de operação em nuvem. Ele é apaixonado por nuvem e aprendizado de máquina. Raj também é especialista em machine learning e trabalha com clientes da AWS para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS.

Vicky Zhang é engenheiro de desenvolvimento de software no Amazon SageMaker. Ela é apaixonada por resolver problemas. Em seu tempo livre, ela gosta de assistir filmes de detetive e jogar badminton.

Rahul Nabera é consultor de análise de dados nos serviços profissionais da AWS. Seu trabalho atual se concentra em permitir que os clientes criem suas cargas de trabalho de dados e machine learning na AWS. Em seu tempo livre, ele gosta de jogar críquete e vôlei.

Carimbo de hora: 5 de julho de 2022

Carimbo de hora: Junho 27, 2022

Use o Amazon SageMaker Data Wrangler no Amazon SageMaker Studio com uma configuração de ciclo de vida padrão

Republicado por Platão

Visão geral da solução

Definir a configuração de ciclo de vida padrão

Aplicar a configuração do ciclo de vida no domínio do Studio ou no nível do perfil do usuário

Aplicar a configuração do ciclo de vida no nível do aplicativo

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Reduza o custo de inferência do Amazon SageMaker com o AWS Graviton

Ajuste fino do LLaMA 2 rápido e econômico com AWS Trainium | Amazon Web Services

Aprimore a experiência do chamador com dicas no Amazon Lex

Aplicar mascaramento de palavrões no Amazon Translate

Automatize a pré-rotulagem de PDF para Amazon Comprehend | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta