Se você usar a configuração de ciclo de vida padrão para seu domínio ou perfil de usuário em Estúdio Amazon SageMaker E use Gerenciador de dados do Amazon SageMaker para preparação de dados, então este post é para você. Neste post, mostramos como você pode criar um fluxo do Data Wrangler e usá-lo para preparação de dados em um ambiente Studio com uma configuração de ciclo de vida padrão.
O Data Wrangler é um recurso de Amazon Sage Maker que torna mais rápido para cientistas e engenheiros de dados preparar dados para aplicativos de aprendizado de máquina (ML) por meio de uma interface visual. A preparação de dados é uma etapa crucial do ciclo de vida de ML, e o Data Wrangler fornece uma solução completa para importar, explorar, transformar, caracterizar e processar dados para ML em uma experiência visual e com pouco código. Ele permite que você se conecte com facilidade e rapidez a componentes da AWS, como Serviço de armazenamento simples da Amazon (Amazon S3), Amazona atena, Amazon RedShift e Formação AWS Lake, e fontes externas como Snowflake e DataBricks DeltaLake. O Data Wrangler oferece suporte a tipos de dados padrão, como CSV, JSON, ORC e Parquet.
Os aplicativos do Studio são aplicativos interativos que permitem a interface visual, a criação de código e a experiência de execução do Studio. Os tipos de aplicativo podem ser Jupyter Server ou Kernel Gateway:
- Servidor Jupyter – Permite o acesso à interface visual do Studio. Cada usuário no Studio obtém seu próprio aplicativo Jupyter Server.
- Gateway do Kernel – Permite acesso ao ambiente de execução de código e kernels para seus notebooks e terminais Studio. Para mais informações, veja Gateway do kernel Jupyter.
Configurações de ciclo de vida (LCCs) são scripts de shell para automatizar a personalização dos ambientes do Studio, como instalar extensões do JupyterLab, pré-carregar conjuntos de dados e configurar repositórios de código-fonte. Os scripts LCC são acionados por eventos de ciclo de vida do Studio, como iniciar um novo notebook do Studio. Para definir uma configuração de ciclo de vida como padrão para seu domínio ou perfil de usuário programaticamente, você pode criar um novo recurso ou atualizar um recurso existente. Para associar uma configuração de ciclo de vida como padrão, primeiro você precisa criar uma configuração de ciclo de vida seguindo as etapas em Criando e associando uma configuração de ciclo de vida
Observação: as configurações de ciclo de vida padrão definidas no nível do domínio são herdadas por todos os usuários, enquanto as configuradas no nível do usuário têm o escopo definido para um usuário específico. Se você aplicar as configurações de ciclo de vida de nível de domínio e de perfil de usuário ao mesmo tempo, a configuração de ciclo de vida de nível de perfil de usuário terá precedência e será aplicada ao aplicativo, independentemente de qual configuração de ciclo de vida seja aplicada no nível de domínio. Para mais informações, veja Definindo configurações de ciclo de vida padrão.
O Data Wrangler aceita a configuração de ciclo de vida padrão do Kernel Gateway, mas alguns dos comandos definidos na configuração padrão do ciclo de vida do Kernel Gateway não são aplicáveis ao Data Wrangler, o que pode fazer com que o Data Wrangler falhe ao iniciar. A captura de tela a seguir mostra um exemplo de mensagem de erro que você pode receber ao iniciar o fluxo do Data Wrangler. Isso pode acontecer apenas com configurações de ciclo de vida padrão e não com configurações de ciclo de vida.
Visão geral da solução
Os clientes que usam a configuração de ciclo de vida padrão no Studio podem seguir esta postagem e usar o bloco de código fornecido no script de configuração do ciclo de vida para iniciar um aplicativo Data Wrangler sem erros.
Definir a configuração de ciclo de vida padrão
Para definir uma configuração de ciclo de vida padrão, você deve adicioná-la ao DefaultResourceSpec
do tipo de aplicativo apropriado. O comportamento de sua configuração de ciclo de vida depende se ela foi adicionada ao DefaultResourceSpec
de um aplicativo Jupyter Server ou Kernel Gateway:
- Aplicativos do servidor Jupyter – Quando adicionado ao
DefaultResourceSpec
de um aplicativo Jupyter Server, o script de configuração do ciclo de vida padrão é executado automaticamente quando o usuário faz login no Studio pela primeira vez ou reinicia o Studio. Você pode usar isso para automatizar ações de configuração únicas para o ambiente de desenvolvedor do Studio, como instalar extensões de notebook ou configurar um repositório do GitHub. Para um exemplo disso, veja Personalize o Amazon SageMaker Studio usando configurações de ciclo de vida. - Aplicativos de gateway de kernel – Quando adicionado ao
DefaultResourceSpec
de um aplicativo Kernel Gateway, o padrão do Studio é selecionar o script de configuração do ciclo de vida no inicializador do Studio. Você pode iniciar um notebook ou terminal com o script padrão ou escolher um diferente na lista de configurações de ciclo de vida.
Uma configuração de ciclo de vida padrão do Kernel Gateway especificada em DefaultResourceSpec
aplica-se a todas as imagens do Kernel Gateway no domínio do Studio, a menos que você escolha um script diferente da lista apresentada no inicializador do Studio.
Ao trabalhar com configurações de ciclo de vida do Studio, você cria uma configuração de ciclo de vida e a anexa ao seu domínio ou perfil de usuário do Studio. Você pode então iniciar um aplicativo Jupyter Server ou Kernel Gateway para usar a configuração do ciclo de vida.
A tabela a seguir resume esses erros que você pode encontrar ao iniciar um aplicativo Data Wrangler com configurações de ciclo de vida padrão.
Nível em que a configuração do ciclo de vida É aplicado |
Criar fluxo do organizador de dados Funciona (ou) Erro |
Solução |
Domínio | Erro de solicitação incorreta | Aplique o script (veja abaixo) |
Perfil de usuário | Erro de solicitação incorreta | Aplique o script (veja abaixo) |
Aplicação | Funciona - Sem problemas | Não é necessária |
Ao usar a configuração de ciclo de vida padrão associada ao Studio e ao Data Wrangler (aplicativo Kernel Gateway), você pode encontrar uma falha no aplicativo Kernel Gateway. Nesta postagem, demonstramos como definir a configuração do ciclo de vida padrão corretamente para excluir comandos em execução em um aplicativo Data Wrangler para que você não encontre falhas no aplicativo Kernel Gateway.
Digamos que você queira instalar um repositório git-clone script como a configuração de ciclo de vida padrão que verifica um repositório Git na pasta inicial do usuário automaticamente quando o servidor Jupyter é iniciado. Vejamos cada cenário de aplicação de uma configuração de ciclo de vida (domínio do Studio, perfil de usuário ou nível de aplicativo).
Aplicar a configuração do ciclo de vida no domínio do Studio ou no nível do perfil do usuário
Para aplicar a configuração de ciclo de vida padrão do Kernel Gateway no domínio do Studio ou no nível do perfil do usuário, conclua as etapas nesta seção. Começamos com instruções para o nível do perfil do usuário.
Em seu script de configuração do ciclo de vida, você deve incluir o seguinte bloco de código que verifica e ignora o aplicativo Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Por exemplo, vamos usar o script a seguir como nosso original (observe que a pasta para clonar o repositório é alterada para /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
O novo script modificado se parece com o seguinte:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Você pode salvar este script como git_command_test.sh
.
Agora você executa uma série de comandos em seu terminal ou prompt de comando. Você deve configurar o Interface de linha de comando da AWS (AWS CLI) para interagir com a AWS. Se você não configurou a AWS CLI, consulte Configurando o AWS CLI.
- Converta o seu
git_command_test.sh
arquivo no formato Base64. Esse requisito evita erros devido à codificação de espaçamento e quebras de linha. - Crie uma configuração de ciclo de vida do Studio. O comando a seguir cria uma configuração de ciclo de vida que é executada na inicialização de um aplicativo Kernel Gateway associado:
- Use a seguinte chamada de API para criar um novo perfil de usuário com uma configuração de ciclo de vida associada:
Como alternativa, se você quiser criar um domínio do Studio para associar sua configuração de ciclo de vida no nível do domínio ou atualizar o perfil de usuário ou domínio, siga as etapas em Definindo configurações de ciclo de vida padrão.
- Agora você pode iniciar seu aplicativo Studio a partir do Painel de controle do SageMaker.
- Em seu ambiente Studio, no Envie o menu, escolha Novo e Fluxo do Data Wrangler.O novo fluxo do Data Wrangler deve abrir sem problemas.
- Para validar o clone do Git, você pode abrir um novo Launcher no Studio.
- Debaixo Notebooks e recursos de computação, escolha o notebook Python 3 e o Ciência dados Imagem do SageMaker para iniciar seu script como seu script de configuração de ciclo de vida padrão.
Você pode ver o Git clonado para /root
na captura de tela a seguir.
Aplicamos com sucesso a configuração padrão do ciclo de vida do Kernel no nível do perfil do usuário e criamos um fluxo do Data Wrangler. Para configurar no nível de domínio do Studio, a única mudança é, em vez de criar um perfil de usuário, você passa o ARN da configuração do ciclo de vida em um criar-domínio ligar.
Aplicar a configuração do ciclo de vida no nível do aplicativo
Se você aplicar a configuração de ciclo de vida padrão do Kernel Gateway no nível do aplicativo, não terá problemas porque o Data Wrangler ignora a configuração do ciclo de vida aplicada no nível do aplicativo.
Conclusão
Neste post, mostramos como configurar sua configuração de ciclo de vida padrão corretamente para o Studio ao usar o Data Wrangler para preparação de dados e requisitos de visualização.
Para resumir, se você precisar usar o padrão configuração do ciclo de vida do Studio para automatizar a personalização para seus ambientes Studio e usar o Data Wrangler para preparação de dados, você pode aplicar a configuração de ciclo de vida padrão do Kernel Gateway no perfil do usuário ou nível de domínio do Studio com o bloco de código apropriado incluído em sua configuração de ciclo de vida para que a configuração de ciclo de vida padrão a verifique e ignora o aplicativo Data Wrangler Kernel Gateway.
Para obter mais informações, consulte os seguintes recursos:
- Documentação de configuração do ciclo de vida do Amazon SageMaker Studio
- Estúdio Amazon SageMaker
- Repositório de exemplos de scripts de configuração do ciclo de vida
- Depurando configurações do ciclo de vida
Sobre os autores
Rajakumar Sampathkumar é gerente técnico principal de contas da AWS, fornecendo orientação aos clientes sobre o alinhamento de tecnologia de negócios e apoiando a reinvenção de seus modelos e processos de operação em nuvem. Ele é apaixonado por nuvem e aprendizado de máquina. Raj também é especialista em machine learning e trabalha com clientes da AWS para projetar, implantar e gerenciar suas cargas de trabalho e arquiteturas da AWS.
Vicky Zhang é engenheiro de desenvolvimento de software no Amazon SageMaker. Ela é apaixonada por resolver problemas. Em seu tempo livre, ela gosta de assistir filmes de detetive e jogar badminton.
Rahul Nabera é consultor de análise de dados nos serviços profissionais da AWS. Seu trabalho atual se concentra em permitir que os clientes criem suas cargas de trabalho de dados e machine learning na AWS. Em seu tempo livre, ele gosta de jogar críquete e vôlei.
- Coinsmart. A melhor troca de Bitcoin e criptografia da Europa.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. ACESSO LIVRE.
- CryptoHawk. Radar Altcoin. Teste grátis.
- Fonte: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Sobre
- Acesso
- Conta
- ações
- adicionado
- Todos os Produtos
- Amazon
- analítica
- api
- app
- relevante
- Aplicação
- aplicações
- aplicado
- Aplicar
- Aplicando
- apropriado
- Aplicativos
- Jurídico
- associado
- automatizar
- automaticamente
- AWS
- Porque
- abaixo
- Bloquear
- fronteira
- quebra
- construir
- chamada
- Causar
- alterar
- Cheques
- Escolha
- Na nuvem
- código
- completar
- componentes
- Computar
- Configuração
- Contato
- consultor
- contém
- ao controle
- crio
- criado
- cria
- Criar
- Grilo
- crucial
- Atual
- Clientes
- dados,
- Análise de Dados
- demonstrar
- depende
- implantar
- Design
- Developer
- Desenvolvimento
- diferente
- domínio
- cada
- facilmente
- eco
- permitir
- permite
- permitindo
- end-to-end
- engenheiro
- Engenheiros
- Meio Ambiente
- eventos
- exemplo
- existente
- vasta experiência
- explorar
- extensões
- Falha
- mais rápido
- Primeiro nome
- primeira vez
- fluxo
- concentra-se
- seguir
- seguinte
- formato
- da
- porta de entrada
- Git
- GitHub
- acontecer
- altura
- SUA PARTICIPAÇÃO FAZ A DIFERENÇA
- Início
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- imagem
- imagens
- incluir
- incluído
- INFORMAÇÕES
- instalar
- instância
- interativo
- Interface
- questões
- IT
- lançamento
- de lançamento
- aprendizagem
- Nível
- Line
- Lista
- olhar
- máquina
- aprendizado de máquina
- FAZ
- gerencia
- Gerente
- poder
- ML
- modelos
- mais
- Filmes
- caderno
- aberto
- operação
- original
- próprio
- painel
- apaixonado
- jogar
- Preparar
- Diretor
- Problema
- processo
- processos
- profissional
- Perfil
- fornece
- fornecendo
- rapidamente
- repositório
- solicitar
- Requisitos
- recurso
- Recursos
- Execute
- corrida
- mesmo
- Salvar
- Ciência
- cientistas
- Série
- Serviços
- conjunto
- contexto
- instalação
- concha
- mostrar
- simples
- So
- Software
- desenvolvimento de software
- sólido
- solução
- Resolvendo
- alguns
- código fonte
- especialista
- específico
- padrão
- começo
- começa
- armazenamento
- estudo
- entraram com sucesso
- Apoiar
- suportes
- Dados Técnicos:
- terminal
- teste
- A
- tempo
- Transformar
- desencadeado
- tipos
- para
- Atualizar
- usar
- usuários
- visualização
- O Quê
- se
- dentro
- sem
- Atividades:
- trabalho
- investimentos