Use Snowflake como fonte de dados para treinar modelos de ML com Amazon SageMaker

Republicado por Platão

seguidores: 0

Amazon Sage Maker é um serviço de aprendizado de máquina (ML) totalmente gerenciado. Com o SageMaker, os cientistas e desenvolvedores de dados podem criar e treinar modelos de ML de forma rápida e fácil e, em seguida, implantá-los diretamente em um ambiente hospedado pronto para produção. O Sagemaker fornece uma instância de notebook de autoria Jupyter integrada para fácil acesso às suas fontes de dados para exploração e análise, para que você não precise gerenciar servidores. Ele também fornece algoritmos de ML comuns que são otimizados para serem executados com eficiência em dados extremamente grandes em um ambiente distribuído.

O SageMaker exige que os dados de treinamento para um modelo de ML estejam presentes em Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) ou Amazon FSx for Lustre (para obter mais informações, consulte Dados de treinamento de acesso). Para treinar um modelo usando dados armazenados fora dos três serviços de armazenamento com suporte, os dados primeiro precisam ser ingeridos em um desses serviços (normalmente Amazon S3). Isso requer a construção de um pipeline de dados (usando ferramentas como Gerenciador de dados do Amazon SageMaker) para mover dados para o Amazon S3. No entanto, essa abordagem pode criar um desafio de gerenciamento de dados em termos de gerenciamento do ciclo de vida desse meio de armazenamento de dados, criação de controles de acesso, auditoria de dados e assim por diante, tudo com o objetivo de organizar os dados de treinamento durante o trabalho de treinamento. Em tais situações, pode ser desejável ter os dados acessíveis ao SageMaker na mídia de armazenamento efêmera anexada às instâncias de treinamento efêmeras sem o armazenamento intermediário de dados no Amazon S3.

Este post mostra uma maneira de fazer isso usando Floco de neve como fonte de dados e baixando os dados diretamente do Snowflake para uma instância de trabalho do SageMaker Training.

Visão geral da solução

Usamos o Conjunto de dados de habitação da Califórnia como um conjunto de dados de treinamento para esta postagem e treine um modelo de ML para prever o valor médio da casa para cada distrito. Adicionamos esses dados ao Snowflake como uma nova tabela. Criamos um contêiner de treinamento personalizado que faz o download dos dados diretamente da tabela Snowflake para a instância de treinamento, em vez de primeiro fazer o download dos dados para um bucket do S3. Depois que os dados são baixados na instância de treinamento, o script de treinamento personalizado executa tarefas de preparação de dados e treina o modelo de ML usando o Estimador XGBoost. Todo o código deste post está disponível no GitHub repo.

Arquitetura do floco de neve do SageMaker

Figura 1: Arquitetura

A figura a seguir representa a arquitetura de alto nível da solução proposta para usar o Snowflake como fonte de dados para treinar modelos de ML com o SageMaker.

As etapas do fluxo de trabalho são as seguintes:

Configure um notebook SageMaker e um Gerenciamento de acesso e identidade da AWS (IAM) com as permissões apropriadas para permitir que o SageMaker acesse Registro do Amazon Elastic Container (Amazon ECR), Secrets Manager e outros serviços em sua conta da AWS.
Armazene as credenciais da sua conta do Snowflake no AWS Secrets Manager.
Ingerir os dados em uma tabela em sua conta do Snowflake.
Crie uma imagem de contêiner personalizada para treinamento de modelo de ML e envie-a para o Amazon ECR.
Inicie um trabalho de treinamento do SageMaker para treinar o modelo de ML. A instância de treinamento recupera as credenciais do Snowflake do Secrets Manager e, em seguida, usa essas credenciais para baixar o conjunto de dados diretamente do Snowflake. Essa é a etapa que elimina a necessidade de primeiro fazer o download dos dados em um bucket do S3.
O modelo de ML treinado é armazenado em um bucket S3.

Pré-requisitos

Para implementar a solução fornecida neste post, você deve ter um Conta da AWS, um conta floco de neve e familiaridade com o SageMaker.

Configurar um bloco de anotações do SageMaker e uma função IAM

Usamos o AWS CloudFormation para criar um notebook SageMaker chamado aws-aiml-blogpost-sagemaker-snowflake-example e uma função IAM chamada SageMakerSnowFlakeExample. Escolher Pilha de Lançamento para a região na qual você deseja implantar recursos.

Armazene as credenciais do Snowflake no Secrets Manager

Armazene suas credenciais do Snowflake como um segredo no Secrets Manager. Para obter instruções sobre como criar um segredo, consulte Create an AWS Secrets Manager secret.

Nomeie o segredo snowflake_credentials. Isso é necessário porque o código em snowflake-load-dataset.ipynb espera que o segredo seja chamado assim.
Crie o segredo como um par chave-valor com duas chaves:
- nome de usuário – Seu nome de usuário Snowflake.
- senha – A senha associada ao seu nome de usuário do Snowflake.

Ingerir os dados em uma tabela em sua conta do Snowflake

Para ingerir os dados, conclua as seguintes etapas:

No console SageMaker, escolha Notebooks no painel de navegação.
Selecione o notebook aws-aiml-blogpost-sagemaker-snowflake-example e escolha Abra o JupyterLab.

Figura 2: abra o JupyterLab
Escolha snowflake-load-dataset.ipynb para abri-lo no JupyterLab. Este notebook irá processar o Conjunto de dados de habitação da Califórnia para uma mesa de floco de neve.
No bloco de anotações, edite o conteúdo da célula a seguir para substituir os valores de espaço reservado por aquele correspondente à sua conta do floco de neve:
```
sf_account_id = "your-snowflake-account-id"
```
No menu Executar, escolha Executar todas as células para executar o código neste notebook. Isso fará o download do conjunto de dados localmente no bloco de anotações e o incluirá na tabela Snowflake.

Figura 3: Notebook Executar Todas as Células

O trecho de código a seguir no bloco de anotações ingere o conjunto de dados no Snowflake. Veja o snowflake-load-dataset.ipynb notebook para obter o código completo.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Feche o notebook depois que todas as células forem executadas sem nenhum erro. Seus dados agora estão disponíveis no Snowflake. A captura de tela a seguir mostra o california_housing tabela criada no Snowflake.

Figura 4: Mesa Floco de Neve

execute o `sagemaker-snowflake-example.ipynb` caderno

Este bloco de anotações cria um contêiner de treinamento personalizado com uma conexão do Snowflake, extrai dados do Snowflake para o armazenamento efêmero da instância de treinamento sem prepará-lo no Amazon S3 e executa o treinamento do modelo Distributed Data Parallel (DDP) XGBoost nos dados. O treinamento DDP não é necessário para o treinamento do modelo em um conjunto de dados tão pequeno; ele está incluído aqui para ilustração de outro recurso do SageMaker lançado recentemente.

Figura 5: Bloco de anotações de exemplo do floco de neve do SageMaker aberto

Crie um contêiner personalizado para treinamento

Agora criamos um contêiner personalizado para o trabalho de treinamento do modelo de ML. Observe que o acesso root é necessário para criar um contêiner do Docker. Este notebook SageMaker foi implantado com acesso root habilitado. Se as políticas da organização da sua empresa não permitirem acesso root aos recursos da nuvem, convém usar o seguinte arquivo Docker e scripts de shell para criar um contêiner do Docker em outro lugar (por exemplo, seu laptop) e, em seguida, enviá-lo para o Amazon ECR. Usamos o contêiner com base na imagem do contêiner SageMaker XGBoost 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 com os seguintes acréscimos:

A Conector floco de neve para Python para baixar os dados da tabela Snowflake para a instância de treinamento.
Um script Python para se conectar ao Secrets Manager para recuperar as credenciais do Snowflake.

Usar o conector Snowflake e o script Python garante que os usuários que usam essa imagem de contêiner para treinamento de modelo de ML não precisem escrever esse código como parte de seu script de treinamento e possam usar essa funcionalidade que já está disponível para eles.

A seguir está o Dockerfile para o contêiner de treinamento:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

A imagem do contêiner é criada e enviada ao Amazon ECR. Esta imagem é usada para treinar o modelo de ML.

Treine o modelo de ML usando um trabalho de treinamento do SageMaker

Depois de criar com êxito a imagem do contêiner e enviá-la para o Amazon ECR, podemos começar a usá-la para treinamento de modelo.

Criamos um conjunto de scripts Python para baixar os dados do Snowflake usando o Conector floco de neve para Python, prepare os dados e, em seguida, use o XGBoost Regressor para treinar o modelo de ML. É a etapa de baixar os dados diretamente para a instância de treinamento que evita a necessidade de usar o Amazon S3 como armazenamento intermediário para os dados de treinamento.

Facilitamos o treinamento paralelo de dados distribuídos fazendo com que o código de treinamento baixe um subconjunto aleatório dos dados, de modo que cada instância de treinamento baixe uma quantidade igual de dados do Snowflake. Por exemplo, se houver dois nós de treinamento, cada nó fará o download de uma amostra aleatória de 50% das linhas na tabela Snowflake. Veja o código a seguir:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Em seguida, fornecemos o script de treinamento para o SageMaker SDK Estimator junto com o diretório de origem para que todos os scripts que criamos possam ser fornecidos ao contêiner de treinamento quando o trabalho de treinamento for executado usando o Estimator.fit método:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

Para mais informações, consulte Preparar um script de treinamento do Scikit-Learn.

Depois que o treinamento do modelo for concluído, o modelo treinado estará disponível como um model.tar.gz arquivo no bucket padrão do SageMaker para a região:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Agora você pode implantar o modelo treinado para obter inferência em novos dados! Para obter instruções, consulte Crie seu endpoint e implante seu modelo.

limpar

Para evitar cobranças futuras, exclua os recursos. Você pode fazer isso excluindo o modelo do CloudFormation usado para criar a função IAM e o notebook SageMaker.

Use o Snowflake como fonte de dados para treinar modelos de ML com o Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Figura 6: Limpeza

Você terá que excluir os recursos do Snowflake manualmente do console do Snowflake.

Conclusão

Nesta postagem, mostramos como baixar dados armazenados em uma tabela Snowflake para uma instância de trabalho do SageMaker Training e treinar um modelo XGBoost usando um contêiner de treinamento personalizado. Essa abordagem nos permite integrar diretamente o Snowflake como uma fonte de dados com um notebook SageMaker sem ter os dados testados no Amazon S3.

Incentivamos você a aprender mais explorando o SDK do Amazon SageMaker Python e construir uma solução usando a implementação de amostra fornecida nesta postagem e um conjunto de dados relevante para o seu negócio. Se você tiver dúvidas ou sugestões, deixe um comentário.

Sobre os autores

Amit Arora é um arquiteto especialista em IA e ML na Amazon Web Services, ajudando clientes corporativos a usar serviços de aprendizado de máquina baseados em nuvem para dimensionar rapidamente suas inovações. Ele também é professor adjunto no programa de ciência e análise de dados MS na Georgetown University em Washington DC

Divya Muralidharan é arquiteto de soluções na Amazon Web Services. Ela é apaixonada por ajudar clientes corporativos a resolver problemas de negócios com tecnologia. Ela tem mestrado em Ciência da Computação pelo Rochester Institute of Technology. Fora do escritório, ela passa o tempo cozinhando, cantando e cultivando plantas.

Sergei Ermolin é Arquiteto Principal de Soluções AIML da AWS. Anteriormente, ele foi arquiteto de soluções de software para aprendizado profundo, análise e tecnologias de big data na Intel. Um veterano do Vale do Silício apaixonado por aprendizado de máquina e inteligência artificial, Sergey se interessou por redes neurais desde os dias pré-GPU, quando as usou para prever o comportamento de envelhecimento de cristais de quartzo e relógios atômicos de césio na Hewlett-Packard. Sergey possui um certificado MSEE e CS de Stanford e é bacharel em física e engenharia mecânica pela California State University, Sacramento. Fora do trabalho, Sergey gosta de fazer vinho, esquiar, andar de bicicleta, velejar e mergulhar. Sergey também é piloto voluntário da Vôo de anjo.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

Carimbo de hora: 8 de março de 2023

Mais de Aprendizado de máquina da AWS

Otimize para a sustentabilidade com Amazon CodeWhisperer | Amazon Web Services

Grupo de origem:

Aprendizado de máquina da AWS

Nó Fonte: 1911056

Carimbo de hora: 8 Novembro, 2023

Extraia dados não PHI do Amazon HealthLake, reduza a complexidade e aumente a eficiência de custos com o Amazon Athena e o Amazon SageMaker Canvas

Aprendizado de máquina da AWS

Nó Fonte: 1898108

Carimbo de hora: 4 de Outubro, 2023

Use o Snowflake como fonte de dados para treinar modelos de ML com o Amazon SageMaker

Republicado por Platão

Visão geral da solução

Pré-requisitos

Configurar um bloco de anotações do SageMaker e uma função IAM

Armazene as credenciais do Snowflake no Secrets Manager

Ingerir os dados em uma tabela em sua conta do Snowflake

execute o `sagemaker-snowflake-example.ipynb` caderno

Crie um contêiner personalizado para treinamento

Treine o modelo de ML usando um trabalho de treinamento do SageMaker

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Apresentando AWS AI Service Cards: um novo recurso para aumentar a transparência e promover a IA responsável

Detecção de fraudes em tempo real usando serviços sem servidor e machine learning da AWS

Implante modelos grandes no Amazon SageMaker usando DJLServing e inferência paralela de modelo DeepSpeed

Agilize o ciclo de vida de desenvolvimento do chatbot do Amazon Lex com o Test Workbench | Amazon Web Services

Crie um aplicativo de resumo de documentos HCLS com Falcon usando Amazon SageMaker JumpStart | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta

Visão geral da solução

Pré-requisitos

Configurar um bloco de anotações do SageMaker e uma função IAM

Armazene as credenciais do Snowflake no Secrets Manager

Ingerir os dados em uma tabela em sua conta do Snowflake

execute o sagemaker-snowflake-example.ipynb caderno

Crie um contêiner personalizado para treinamento

Treine o modelo de ML usando um trabalho de treinamento do SageMaker

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta

execute o `sagemaker-snowflake-example.ipynb` caderno