Använd Snowflake som datakälla för att träna ML-modeller med Amazon SageMaker

Återutgiven av Platon

anhängare: 0

Amazon SageMaker är en fullständigt hanterad maskininlärningstjänst (ML). Med SageMaker kan datavetare och utvecklare snabbt och enkelt bygga och träna ML-modeller och sedan direkt distribuera dem i en produktionsklar värdmiljö. Sagemaker tillhandahåller en integrerad Jupyter-författaranteckningsbok-instans för enkel åtkomst till dina datakällor för utforskning och analys, så att du inte behöver hantera servrar. Den tillhandahåller också vanliga ML-algoritmer som är optimerade för att köras effektivt mot extremt stora data i en distribuerad miljö.

SageMaker kräver att träningsdata för en ML-modell finns antingen i Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) eller Amazon FSx for Luster (för mer information, se Access Training Data). För att träna en modell med data som lagras utanför de tre lagringstjänsterna som stöds, måste data först tas in i en av dessa tjänster (vanligtvis Amazon S3). Detta kräver att man bygger en datapipeline (med hjälp av verktyg som t.ex Amazon SageMaker Data Wrangler) för att flytta data till Amazon S3. Detta tillvägagångssätt kan dock skapa en utmaning för datahantering när det gäller att hantera livscykeln för detta datalagringsmedium, skapa åtkomstkontroller, datagranskning och så vidare, allt i syfte att iscensätta träningsdata under utbildningsjobbets varaktighet. I sådana situationer kan det vara önskvärt att ha data tillgänglig för SageMaker i de kortvariga lagringsmedierna kopplade till de tillfälliga träningsinstanserna utan mellanlagring av data i Amazon S3.

Det här inlägget visar ett sätt att göra detta med Snöflinga som datakälla och genom att ladda ner data direkt från Snowflake till en SageMaker Training-jobbinstans.

Lösningsöversikt

Vi använder California Housing Dataset som en träningsdatauppsättning för det här inlägget och träna en ML-modell för att förutsäga husvärdet i median för varje distrikt. Vi lägger till denna data till Snowflake som en ny tabell. Vi skapar en anpassad träningsbehållare som laddar ner data direkt från Snowflake-tabellen till träningsinstansen istället för att först ladda ner data till en S3-hink. Efter att data har laddats ner till träningsinstansen utför det anpassade träningsskriptet dataförberedande uppgifter och tränar sedan ML-modellen med hjälp av XGBoost Estimator. All kod för detta inlägg finns tillgänglig i GitHub repo.

Figur 1: Arkitektur

Följande figur representerar högnivåarkitekturen för den föreslagna lösningen för att använda Snowflake som en datakälla för att träna ML-modeller med SageMaker.

Arbetsflödesstegen är följande:

Sätt upp en SageMaker-anteckningsbok och en AWS identitets- och åtkomsthantering (IAM) roll med lämpliga behörigheter för att ge SageMaker åtkomst Amazon Elastic Container Registry (Amazon ECR), Secrets Manager och andra tjänster inom ditt AWS-konto.
Lagra dina Snowflake-kontouppgifter i AWS Secrets Manager.
Ta in data i en tabell i ditt Snowflake-konto.
Skapa en anpassad containerbild för ML-modellutbildning och skjut den till Amazon ECR.
Starta ett SageMaker Training-jobb för att träna ML-modellen. Utbildningsinstansen hämtar Snowflake-uppgifter från Secrets Manager och använder sedan dessa uppgifter för att ladda ner datamängden från Snowflake direkt. Detta är steget som eliminerar behovet av att data först laddas ner till en S3-hink.
Den tränade ML-modellen förvaras i en S3 hink.

Förutsättningar

För att implementera lösningen som tillhandahålls i det här inlägget bör du ha en AWS-konto, en Snowflake konto och förtrogenhet med SageMaker.

Skapa en SageMaker Notebook- och IAM-roll

Vi använder AWS CloudFormation för att skapa en SageMaker-anteckningsbok som heter aws-aiml-blogpost-sagemaker-snowflake-example och en IAM-roll kallas SageMakerSnowFlakeExample. Välj Starta stack för den region du vill distribuera resurser till.

Lagra Snowflake-uppgifter i Secrets Manager

Lagra dina Snowflake-uppgifter som en hemlighet i Secrets Manager. För instruktioner om hur du skapar en hemlighet, se Create an AWS Secrets Manager secret.

Namnge hemligheten snowflake_credentials. Detta krävs eftersom koden i snowflake-load-dataset.ipynb förväntar sig att hemligheten ska heta så.
Skapa hemligheten som ett nyckel-värdepar med två nycklar:
- Användarnamn – Ditt Snowflake-användarnamn.
- Lösenord – Lösenordet som är kopplat till ditt Snowflake-användarnamn.

Ta in data i en tabell i ditt Snowflake-konto

Utför följande steg för att mata in data:

Välj på SageMaker-konsolen bärbara datorer i navigeringsfönstret.
Välj anteckningsboken aws-aiml-blogpost-sagemaker-snowflake-example och välj Öppna JupyterLab.

Figur 2: Öppna JupyterLab
Välja snowflake-load-dataset.ipynb för att öppna den i JupyterLab. Den här anteckningsboken kommer att äta California Housing Dataset till ett Snowflake-bord.
I anteckningsboken, redigera innehållet i följande cell för att ersätta platshållarvärdena med det som matchar ditt snöflingakonto:
```
sf_account_id = "your-snowflake-account-id"
```
Välj på Kör-menyn Kör alla celler för att köra koden i den här anteckningsboken. Detta kommer att ladda ner datasetet lokalt till anteckningsboken och sedan mata in det i Snowflake-tabellen.

Figur 3: Notebook Kör alla celler

Följande kodavsnitt i anteckningsboken matar in datasetet i Snowflake. Se den snowflake-load-dataset.ipynb anteckningsbok för hela koden.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Stäng anteckningsboken efter att alla celler körts utan fel. Din data är nu tillgänglig i Snowflake. Följande skärmdump visar california_housing bord skapat i Snowflake.

Figur 4: Snöflingabord

Kör `sagemaker-snowflake-example.ipynb` anteckningsbok

Den här anteckningsboken skapar en anpassad träningsbehållare med en Snowflake-anslutning, extraherar data från Snowflake till träningsinstansens tillfälliga lagring utan att iscensätta den i Amazon S3, och utför Distribuerad Data Parallel (DDP) XGBoost-modellträning på data. DDP-utbildning krävs inte för modellträning på en så liten datamängd; den ingår här för att illustrera ännu en nyligen släppt SageMaker-funktion.

Figur 5: Öppna SageMaker Snowflake Exempel Notebook

Skapa en anpassad behållare för utbildning

Vi skapar nu en anpassad behållare för ML-modellutbildningsjobbet. Observera att root-åtkomst krävs för att skapa en Docker-behållare. Den här SageMaker-anteckningsboken distribuerades med root-åtkomst aktiverad. Om din företagsorganisationspolicy inte tillåter root-åtkomst till molnresurser, kanske du vill använda följande Docker-fil- och skalskript för att bygga en Docker-behållare någon annanstans (till exempel din bärbara dator) och sedan skicka den till Amazon ECR. Vi använder behållaren baserad på SageMaker XGBoost-behållarebilden 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 med följande tillägg:

Smakämnen Snowflake Connector för Python för att ladda ner data från Snowflake-tabellen till träningsinstansen.
Ett Python-skript för att ansluta till Secrets Manager för att hämta Snowflake-uppgifter.

Att använda Snowflake-anslutningen och Python-skriptet säkerställer att användare som använder den här behållarbilden för ML-modellutbildning inte behöver skriva den här koden som en del av sitt träningsskript och kan använda den här funktionaliteten som redan är tillgänglig för dem.

Följande är Dockerfilen för utbildningsbehållaren:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

Behållarbilden byggs och skickas till Amazon ECR. Den här bilden används för att träna ML-modellen.

Träna ML-modellen med ett SageMaker Training-jobb

När vi har skapat behållarbilden och skickat den till Amazon ECR kan vi börja använda den för modellträning.

Vi skapar en uppsättning Python-skript för att ladda ner data från Snowflake med hjälp av Snowflake Connector för Python, förbered data och använd sedan XGBoost Regressor att träna ML-modellen. Det är steget att ladda ner data direkt till träningsinstansen som slipper använda Amazon S3 som mellanlagring för träningsdata.

Vi underlättar parallellträning med distribuerad data genom att låta träningskoden ladda ner en slumpmässig delmängd av data så att varje träningsinstans laddar ner lika mycket data från Snowflake. Till exempel, om det finns två träningsnoder, laddar varje nod ner ett slumpmässigt urval av 50 % av raderna i Snowflake-tabellen. Se följande kod:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Vi tillhandahåller sedan utbildningsskriptet till SageMaker SDK Estimator tillsammans med källkatalogen så att alla skript vi skapar kan tillhandahållas till utbildningsbehållaren när utbildningsjobbet körs med hjälp av Estimator.fit metod:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

Mer information finns i Förbered ett Scikit-Learn Training Script.

Efter att modellutbildningen är klar finns den utbildade modellen tillgänglig som en model.tar.gz fil i den förinställda SageMaker-hinken för regionen:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Du kan nu distribuera den tränade modellen för att få slutsatser om nya data! För instruktioner, se Skapa din slutpunkt och distribuera din modell.

Städa upp

Ta bort resurserna för att undvika framtida avgifter. Du kan göra detta genom att ta bort CloudFormation-mallen som används för att skapa IAM-rollen och SageMaker-anteckningsboken.

Använd Snowflake som datakälla för att träna ML-modeller med Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Figur 6: Rengöring

Du måste ta bort Snowflake-resurserna manuellt från Snowflake-konsolen.

Slutsats

I det här inlägget visade vi hur man laddar ner data lagrad i en Snowflake-tabell till en SageMaker Training-jobbinstans och tränar en XGBoost-modell med hjälp av en anpassad träningsbehållare. Detta tillvägagångssätt tillåter oss att direkt integrera Snowflake som en datakälla med en SageMaker-anteckningsbok utan att ha data iscensatt i Amazon S3.

Vi uppmuntrar dig att lära dig mer genom att utforska Amazon SageMaker Python SDK och bygga en lösning med hjälp av exempelimplementeringen som tillhandahålls i det här inlägget och en datauppsättning som är relevant för ditt företag. Om du har frågor eller förslag, lämna en kommentar.

Om författarna

Amit Arora är en AI- och ML-specialistarkitekt på Amazon Web Services, som hjälper företagskunder att använda molnbaserade maskininlärningstjänster för att snabbt skala sina innovationer. Han är också adjungerad lektor i MS datavetenskap och analysprogrammet vid Georgetown University i Washington DC

Divya Muralidharan är en lösningsarkitekt på Amazon Web Services. Hon brinner för att hjälpa företagskunder att lösa affärsproblem med teknik. Hon har en magisterexamen i datavetenskap från Rochester Institute of Technology. Utanför kontoret ägnar hon tid åt att laga mat, sjunga och odla växter.

Sergey Ermolin är Principal AIML Solutions Architect på AWS. Tidigare var han arkitekt för mjukvarulösningar för djupinlärning, analys och big data-teknik på Intel. En Silicon Valley-veteran med en passion för maskininlärning och artificiell intelligens, Sergey har varit intresserad av neurala nätverk sedan pre-GPU dagar, när han använde dem för att förutsäga åldrande beteende hos kvartskristaller och cesium atomklockor på Hewlett-Packard. Sergey har ett MSEE och ett CS-certifikat från Stanford och en BS-examen i fysik och maskinteknik från California State University, Sacramento. Utanför jobbet tycker Sergey om vintillverkning, skidåkning, cykling, segling och dykning. Sergey är också frivillig pilot för Ängelflyg.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

Tidsstämpel: Mars 8, 2023

Tidsstämpel: September 6, 2022

Använd Snowflake som datakälla för att träna ML-modeller med Amazon SageMaker

Återutgiven av Platon

Lösningsöversikt

Förutsättningar

Skapa en SageMaker Notebook- och IAM-roll

Lagra Snowflake-uppgifter i Secrets Manager

Ta in data i en tabell i ditt Snowflake-konto

Kör `sagemaker-snowflake-example.ipynb` anteckningsbok

Skapa en anpassad behållare för utbildning

Träna ML-modellen med ett SageMaker Training-jobb

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

Mätvärden för att utvärdera innehållsmoderering i Amazon Rekognition och andra innehållsmodereringstjänster

University of San Francisco Data Science Conference 2023 Datathon i samarbete med AWS och Amazon SageMaker Studio Lab | Amazon webbtjänster

Snabb och kostnadseffektiv LLaMA 2-finjustering med AWS Trainium | Amazon webbtjänster

Använd Amazon SageMaker pipeline-delning för att se eller hantera pipelines över AWS-konton

Kunskapsbaser för Amazon Bedrock stöder nu metadatafiltrering för att förbättra hämtningsnoggrannheten | Amazon webbtjänster

Analysera och visualisera händelser med flera kamera med Amazon SageMaker Studio Lab

Förbättra Amazon Connect och Lex med generativa AI-funktioner | Amazon webbtjänster

Upptäck ljudhändelser med Amazon Rekognition

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto

Lösningsöversikt

Förutsättningar

Skapa en SageMaker Notebook- och IAM-roll

Lagra Snowflake-uppgifter i Secrets Manager

Ta in data i en tabell i ditt Snowflake-konto

Kör sagemaker-snowflake-example.ipynb anteckningsbok

Skapa en anpassad behållare för utbildning

Träna ML-modellen med ett SageMaker Training-jobb

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto

Kör `sagemaker-snowflake-example.ipynb` anteckningsbok