Utilizza Snowflake come origine dati per addestrare modelli ML con Amazon SageMaker

Ripubblicato da Platone

Seguaci: 0

Amazon Sage Maker è un servizio di machine learning (ML) completamente gestito. Con SageMaker, data scientist e sviluppatori possono creare e addestrare rapidamente e facilmente modelli ML, quindi distribuirli direttamente in un ambiente ospitato pronto per la produzione. Sagemaker fornisce un'istanza notebook di authoring Jupyter integrata per un facile accesso alle origini dati per l'esplorazione e l'analisi, in modo da non dover gestire i server. Fornisce inoltre algoritmi ML comuni ottimizzati per funzionare in modo efficiente su dati estremamente grandi in un ambiente distribuito.

SageMaker richiede che i dati di addestramento per un modello ML siano presenti in Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) o Amazon FSx for Lustre (per ulteriori informazioni, consulta Access Training Data). Per addestrare un modello utilizzando i dati archiviati al di fuori dei tre servizi di archiviazione supportati, i dati devono prima essere inseriti in uno di questi servizi (in genere Amazon S3). Ciò richiede la creazione di una pipeline di dati (utilizzando strumenti come Gestore di dati di Amazon SageMaker) per spostare i dati in Amazon S3. Tuttavia, questo approccio può creare una sfida di gestione dei dati in termini di gestione del ciclo di vita di questo supporto di archiviazione dei dati, creazione di controlli di accesso, verifica dei dati e così via, tutto allo scopo di mettere in scena i dati di addestramento per la durata del lavoro di addestramento. In tali situazioni, potrebbe essere auspicabile che i dati siano accessibili a SageMaker nel supporto di archiviazione temporaneo collegato alle istanze di addestramento effimere senza l'archiviazione intermedia dei dati in Amazon S3.

Questo post mostra un modo per farlo usando Fiocco di neve come origine dati e scaricando i dati direttamente da Snowflake in un'istanza lavoro SageMaker Training.

Panoramica della soluzione

Usiamo il Set di dati sull'edilizia abitativa della California come set di dati di addestramento per questo post e addestrare un modello ML per prevedere il valore medio della casa per ogni distretto. Aggiungiamo questi dati a Snowflake come nuova tabella. Creiamo un container di addestramento personalizzato che scarica i dati direttamente dalla tabella Snowflake nell'istanza di addestramento invece di scaricare prima i dati in un bucket S3. Dopo che i dati sono stati scaricati nell'istanza di addestramento, lo script di addestramento personalizzato esegue le attività di preparazione dei dati e quindi addestra il modello ML utilizzando il Stimatore XGBoost. Tutto il codice per questo post è disponibile nel file Repository GitHub.

Architettura del fiocco di neve di SageMaker

Figura 1: Architettura

La figura seguente rappresenta l'architettura di alto livello della soluzione proposta per utilizzare Snowflake come origine dati per addestrare modelli ML con SageMaker.

I passaggi del flusso di lavoro sono i seguenti:

Configura un notebook SageMaker e un Gestione dell'identità e dell'accesso di AWS (IAM) con le autorizzazioni appropriate per consentire l'accesso a SageMaker Registro dei contenitori Amazon Elastic (Amazon ECR), Secrets Manager e altri servizi all'interno del tuo account AWS.
Archivia le credenziali del tuo account Snowflake in AWS Secrets Manager.
Inserisci i dati in una tabella nel tuo account Snowflake.
Crea un'immagine di container personalizzata per l'addestramento del modello ML e inviala ad Amazon ECR.
Avvia un processo SageMaker Training per addestrare il modello ML. L'istanza di addestramento recupera le credenziali di Snowflake da Secrets Manager e quindi utilizza queste credenziali per scaricare il set di dati direttamente da Snowflake. Questo è il passaggio che elimina la necessità di scaricare prima i dati in un bucket S3.
Il modello ML addestrato viene archiviato in un bucket S3.

Prerequisiti

Per implementare la soluzione fornita in questo post, dovresti avere un file Account AWS, un Conto fiocco di neve e familiarità con SageMaker.

Imposta un ruolo SageMaker Notebook e IAM

Utilizziamo AWS CloudFormation per creare un notebook SageMaker chiamato aws-aiml-blogpost-sagemaker-snowflake-example e un ruolo IAM chiamato SageMakerSnowFlakeExample. Scegliere Avvia Stack per la regione in cui desideri distribuire le risorse.

Archivia le credenziali di Snowflake in Secrets Manager

Archivia le tue credenziali Snowflake come segreto in Secrets Manager. Per istruzioni su come creare un segreto, fare riferimento a Create an AWS Secrets Manager secret.

Dai un nome al segreto snowflake_credentials. Questo è necessario perché il codice in snowflake-load-dataset.ipynb si aspetta che il segreto si chiami così.
Crea il segreto come coppia chiave-valore con due chiavi:
- nome utente – Il tuo nome utente Snowflake.
- parola d'ordine – La password associata al tuo nome utente Snowflake.

Inserisci i dati in una tabella nel tuo account Snowflake

Per importare i dati, completare i seguenti passaggi:

Sulla console di SageMaker, scegli Notebook nel pannello di navigazione.
Seleziona il notebook aws-aiml-blogpost-sagemaker-snowflake-example e scegli Apri JupyterLab.

Figura 2: aprire JupyterLab
Scegli snowflake-load-dataset.ipynb per aprirlo in JupyterLab. Questo taccuino ingerirà il file Set di dati sull'edilizia abitativa della California a un tavolo Snowflake.
Nel taccuino, modifica il contenuto della cella seguente per sostituire i valori segnaposto con quello corrispondente al tuo account fiocco di neve:
```
sf_account_id = "your-snowflake-account-id"
```
Scegliere dal menu Esegui Esegui tutte le celle per eseguire il codice in questo notebook. Questo scaricherà il set di dati localmente nel notebook e quindi lo inserirà nella tabella Snowflake.

Figura 3: notebook eseguire tutte le celle

Il seguente frammento di codice nel notebook inserisce il set di dati in Snowflake. Vedi il snowflake-load-dataset.ipynb taccuino per il codice completo.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Chiudere il notebook dopo che tutte le celle sono state eseguite senza errori. I tuoi dati sono ora disponibili in Snowflake. Lo screenshot seguente mostra il california_housing tabella creata in Snowflake.

Figura 4: Tabella dei fiocchi di neve

Corri il `sagemaker-snowflake-example.ipynb` taccuino

Questo notebook crea un container di addestramento personalizzato con una connessione Snowflake, estrae i dati da Snowflake nello storage temporaneo dell'istanza di addestramento senza staging in Amazon S3 ed esegue l'addestramento del modello XGBoost DDP (Distributed Data Parallel) sui dati. L'addestramento DDP non è richiesto per l'addestramento del modello su un set di dati così piccolo; è incluso qui per illustrare un'altra funzionalità di SageMaker rilasciata di recente.

Figura 5: Apri SageMaker Snowflake Notebook di esempio

Crea un contenitore personalizzato per l'addestramento

Ora creiamo un contenitore personalizzato per il processo di addestramento del modello ML. Tieni presente che è necessario l'accesso root per creare un contenitore Docker. Questo notebook SageMaker è stato distribuito con l'accesso root abilitato. Se le policy della tua organizzazione aziendale non consentono l'accesso root alle risorse cloud, potresti voler utilizzare il seguente file Docker e gli script shell per creare un container Docker altrove (ad esempio, il tuo laptop) e quindi inviarlo ad Amazon ECR. Utilizziamo il contenitore basato sull'immagine del contenitore SageMaker XGBoost 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 con le seguenti aggiunte:

Il Connettore fiocco di neve per Python per scaricare i dati dalla tabella Snowflake nell'istanza di addestramento.
Uno script Python per connettersi a Secrets Manager per recuperare le credenziali di Snowflake.

L'uso del connettore Snowflake e dello script Python assicura che gli utenti che usano questa immagine del contenitore per l'addestramento del modello ML non debbano scrivere questo codice come parte dello script di addestramento e possano usare questa funzionalità già disponibile.

Di seguito è riportato il Dockerfile per il contenitore di addestramento:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

L'immagine del container viene creata e inviata ad Amazon ECR. Questa immagine viene utilizzata per addestrare il modello ML.

Addestra il modello ML utilizzando un processo di formazione SageMaker

Dopo aver creato correttamente l'immagine del container e averla inviata ad Amazon ECR, possiamo iniziare a usarla per l'addestramento del modello.

Creiamo un set di script Python per scaricare i dati da Snowflake usando il Connettore fiocco di neve per Python, preparare i dati e quindi utilizzare il file XGBoost Regressor addestrare il modello ML. È la fase di download dei dati direttamente nell'istanza di addestramento che evita di dover utilizzare Amazon S3 come storage intermedio per i dati di addestramento.

Semplifichiamo l'addestramento in parallelo dei dati distribuiti facendo in modo che il codice di addestramento scarichi un sottoinsieme casuale di dati in modo tale che ogni istanza di addestramento scarichi una quantità uguale di dati da Snowflake. Ad esempio, se sono presenti due nodi di addestramento, ogni nodo scarica un campione casuale del 50% delle righe nella tabella Snowflake.Vedi il seguente codice:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Quindi forniamo lo script di addestramento all'SDK di SageMaker Estimator insieme alla directory di origine in modo che tutti gli script che creiamo possano essere forniti al contenitore di addestramento quando il lavoro di addestramento viene eseguito utilizzando il Estimator.fit Metodo:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

Per ulteriori informazioni, fare riferimento a Prepara un copione di addestramento Scikit-Learn.

Al termine dell'addestramento del modello, il modello addestrato è disponibile come a model.tar.gz file nel bucket SageMaker predefinito per la regione:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Ora puoi distribuire il modello addestrato per ottenere inferenza su nuovi dati! Per le istruzioni, fare riferimento a Crea il tuo endpoint e distribuisci il tuo modello.

ripulire

Per evitare di incorrere in addebiti futuri, eliminare le risorse. Puoi farlo eliminando il modello CloudFormation utilizzato per creare il ruolo IAM e il notebook SageMaker.

Utilizza Snowflake come origine dati per addestrare modelli ML con Amazon SageMaker PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Figura 6: Pulizia

Dovrai eliminare manualmente le risorse Snowflake dalla console Snowflake.

Conclusione

In questo post, abbiamo mostrato come scaricare i dati archiviati in una tabella Snowflake in un'istanza di lavoro SageMaker Training e addestrare un modello XGBoost utilizzando un container di addestramento personalizzato. Questo approccio ci consente di integrare direttamente Snowflake come origine dati con un notebook SageMaker senza disporre dei dati in Amazon S3.

Ti invitiamo a saperne di più esplorando il SDK Python di Amazon SageMaker e costruire una soluzione utilizzando l'implementazione di esempio fornita in questo post e un set di dati rilevante per la tua attività. Se hai domande o suggerimenti, lascia un commento.

Circa gli autori

Amit Arora è un architetto specializzato in AI e ML presso Amazon Web Services, che aiuta i clienti aziendali a utilizzare i servizi di machine learning basati su cloud per ridimensionare rapidamente le proprie innovazioni. È anche docente a contratto nel programma MS data science and analytics presso la Georgetown University di Washington DC

Divya Muralidharan è un architetto di soluzioni presso Amazon Web Services. È appassionata di aiutare i clienti aziendali a risolvere i problemi aziendali con la tecnologia. Ha conseguito un master in informatica presso il Rochester Institute of Technology. Fuori dall'ufficio, passa il tempo a cucinare, cantare e coltivare piante.

Sergej Ermolin è Principal AIML Solutions Architect presso AWS. In precedenza, è stato architetto di soluzioni software per tecnologie di deep learning, analisi e big data presso Intel. Un veterano della Silicon Valley con una passione per l'apprendimento automatico e l'intelligenza artificiale, Sergey si è interessato alle reti neurali sin dai tempi precedenti alla GPU, quando le utilizzava per prevedere il comportamento di invecchiamento dei cristalli di quarzo e degli orologi atomici al cesio di Hewlett-Packard. Sergey ha conseguito un MSEE e un certificato CS di Stanford e una laurea in fisica e ingegneria meccanica presso la California State University, Sacramento. Al di fuori del lavoro, Sergey ama la vinificazione, lo sci, la bicicletta, la vela e le immersioni subacquee. Sergey è anche un pilota volontario per Volo d'angelo.