Snowflake をデータソースとして使用して、Amazon SageMaker で ML モデルをトレーニングする

プラトン再発行

フォロワー： 0

アマゾンセージメーカーフルマネージドの機械学習 (ML) サービスです。 SageMaker を使用すると、データサイエンティストと開発者は ML モデルを迅速かつ簡単に構築してトレーニングし、本番環境でホストされている環境に直接デプロイできます。 Sagemaker は、統合された Jupyter オーサリングノートブックインスタンスを提供し、探索と分析のためにデータソースに簡単にアクセスできるようにするため、サーバーを管理する必要はありません。また、分散環境で非常に大きなデータに対して効率的に実行するように最適化された一般的な ML アルゴリズムも提供します。

SageMaker では、ML モデルのトレーニングデータが次のいずれかに存在する必要があります。 Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS)、または Amazon FSx for Lustre (詳細については、トレーニングデータへのアクセスを参照してください). サポートされている 3 つのストレージサービスの外部に保存されたデータを使用してモデルをトレーニングするには、最初にデータをこれらのサービスの XNUMX つ (通常は Amazon SXNUMX) に取り込む必要があります。これには、データパイプラインの構築が必要です (次のようなツールを使用)。 AmazonSageMakerデータラングラー) データを Amazon S3 に移動します。ただし、このアプローチでは、データストレージメディアのライフサイクルの管理、アクセス制御の作成、データ監査などの点で、データ管理の課題が生じる可能性があります。これらはすべて、トレーニングジョブ中にトレーニングデータをステージングするためのものです。このような状況では、Amazon S3 でのデータの中間ストレージなしで、一時的なトレーニングインスタンスに接続された一時的なストレージメディアで SageMaker がデータにアクセスできるようにすることが望ましい場合があります。

この投稿は、これを使用してこれを行う方法を示していますスノーフレークデータソースとして、Snowflake から直接データを SageMaker Training ジョブインスタンスにダウンロードすることによって。

ソリューションの概要

私たちは、使用カリフォルニア州住宅データセットをこの投稿のトレーニングデータセットとして使用し、ML モデルをトレーニングして、各地区の住宅価格の中央値を予測します。このデータを新しいテーブルとして Snowflake に追加します。最初にデータを S3 バケットにダウンロードするのではなく、Snowflake テーブルからトレーニングインスタンスにデータを直接ダウンロードするカスタムトレーニングコンテナを作成します。データがトレーニングインスタンスにダウンロードされた後、カスタムトレーニングスクリプトはデータ準備タスクを実行し、次に、 XGBoost 推定器. この投稿のすべてのコードは、 GitHubレポ.

図 1: アーキテクチャ

次の図は、SageMaker で ML モデルをトレーニングするためのデータソースとして Snowflake を使用するための提案されたソリューションの高レベルアーキテクチャを表しています。

ワークフローの手順は次のとおりです。

SageMaker ノートブックと AWS IDおよびアクセス管理 SageMaker がアクセスできるようにするための適切なアクセス許可を持つ (IAM) ロール Amazon エラスティックコンテナレジストリ (Amazon ECR)、Secrets Manager、および AWS アカウント内のその他のサービス。
Snowflake アカウントの認証情報を AWS Secrets Manager に保存します。
Snowflake アカウントのテーブルにデータを取り込みます。
ML モデルトレーニング用のカスタムコンテナイメージを作成し、Amazon ECR にプッシュします。
ML モデルをトレーニングするための SageMaker Training ジョブを起動します。トレーニングインスタンスは、Secrets Manager から Snowflake 資格情報を取得し、これらの資格情報を使用して Snowflake からデータセットを直接ダウンロードします。これは、データを最初に S3 バケットにダウンロードする必要をなくすステップです。
トレーニングされた ML モデルは S3 バケットに保存されます。

前提条件

この投稿で提供されているソリューションを実装するには、 AWSアカウントスノーフレークアカウント SageMaker に精通していること。

SageMaker ノートブックと IAM ロールを設定する

AWS CloudFormation を使用して、SageMaker ノートブックを作成します。 aws-aiml-blogpost-sagemaker-snowflake-example と呼ばれる IAM ロール SageMakerSnowFlakeExample。選択してください 発射スタック リソースをデプロイするリージョンの。

Secrets Manager に Snowflake 認証情報を保存する

Snowflake 認証情報を Secrets Manager にシークレットとして保存します。シークレットの作成方法については、次を参照してください。 Create an AWS Secrets Manager secret.

秘密に名前を付ける snowflake_credentials. これが必要なのは、 snowflake-load-dataset.ipynb 秘密がそれと呼ばれることを期待しています。
XNUMX つのキーを持つキーと値のペアとしてシークレットを作成します。
- ユーザ名 – Snowflake ユーザー名。
- password – Snowflake ユーザー名に関連付けられたパスワード。

Snowflake アカウントのテーブルにデータを取り込む

データを取り込むには、次の手順を実行します。

SageMakerコンソールで、 ノートブック ナビゲーションペインに表示されます。
ノートブック aws-aiml-blogpost-sagemaker-snowflake-example を選択し、 JupyterLabを開く.

図 2: JupyterLab を開く
選択する snowflake-load-dataset.ipynb JupyterLab で開きます。このノートブックは、カリフォルニア州住宅データセットスノーフレークテーブルに。
ノートブックで、次のセルの内容を編集して、プレースホルダーの値を Snowflake アカウントに一致する値に置き換えます。
```
sf_account_id = "your-snowflake-account-id"
```
[実行] メニューで、 すべてのセルを実行 このノートブックでコードを実行します。これにより、データセットがノートブックにローカルにダウンロードされ、Snowflake テーブルに取り込まれます。

図 3: Notebook Run All Cells

ノートブックの次のコードスニペットは、データセットを Snowflake に取り込みます。を参照してください snowflake-load-dataset.ipynb 完全なコードのノート。

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

すべてのセルがエラーなしで実行されたら、ノートブックを閉じます。データが Snowflake で利用できるようになりました。次のスクリーンショットは、 california_housing Snowflakeで作成されたテーブル。

図 4: スノーフレークテーブル

実行する `sagemaker-snowflake-example.ipynb` ノート

このノートブックは、Snowflake 接続を使用してカスタムトレーニングコンテナを作成し、Amazon S3 にステージングせずに Snowflake からトレーニングインスタンスの一時ストレージにデータを抽出し、データに対して分散データ並列 (DDP) XGBoost モデルトレーニングを実行します。このような小さなデータセットでのモデルトレーニングには、DDP トレーニングは必要ありません。これは、最近リリースされた別の SageMaker 機能を説明するためにここに含まれています。

図 5: SageMaker Snowflake サンプルノートブックを開く

トレーニング用のカスタムコンテナを作成する

ここで、ML モデルトレーニングジョブ用のカスタムコンテナーを作成します。 Docker コンテナーを作成するには、root アクセスが必要であることに注意してください。この SageMaker ノートブックは、ルートアクセスを有効にしてデプロイされました。企業組織のポリシーでクラウドリソースへのルートアクセスが許可されていない場合は、次の Docker ファイルとシェルスクリプトを使用して別の場所 (ラップトップなど) に Docker コンテナを構築し、それを Amazon ECR にプッシュすることができます。 SageMaker XGBoost コンテナーイメージに基づくコンテナーを使用します。 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 以下を追加します。

　 Python 用 Snowflake コネクタ Snowflake テーブルからトレーニングインスタンスにデータをダウンロードします。
Secrets Manager に接続して Snowflake 資格情報を取得するための Python スクリプト。

Snowflake コネクタと Python スクリプトを使用すると、ML モデルのトレーニングにこのコンテナーイメージを使用するユーザーは、トレーニングスクリプトの一部としてこのコードを記述する必要がなくなり、既に利用可能なこの機能を使用できるようになります。

以下は、トレーニングコンテナーの Dockerfile です。

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

コンテナイメージがビルドされ、Amazon ECR にプッシュされます。この画像は、ML モデルのトレーニングに使用されます。

SageMaker Training ジョブを使用して ML モデルをトレーニングする

コンテナイメージを正常に作成して Amazon ECR にプッシュしたら、それをモデルトレーニングに使用できるようになります。

を使用して Snowflake からデータをダウンロードするための一連の Python スクリプトを作成します。 Python 用 Snowflake コネクタ、データを準備してから、 XGBoost Regressor ML モデルをトレーニングします。トレーニングデータの中間ストレージとして Amazon S3 を使用する必要がないように、データをトレーニングインスタンスに直接ダウンロードするステップです。

各トレーニングインスタンスが Snowflake から同量のデータをダウンロードするように、トレーニングコードにデータのランダムなサブセットをダウンロードさせることで、分散データの並列トレーニングを促進します。たとえば、50 つのトレーニングノードがある場合、各ノードは Snowflake テーブルの行の XNUMX% のランダムサンプルをダウンロードします。次のコードを参照してください。

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

次に、トレーニングスクリプトを SageMaker SDK に提供します。 Estimator を使用してトレーニングジョブを実行するときに、作成するすべてのスクリプトをトレーニングコンテナに提供できるように、 Estimator.fit 方法：

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

詳細については、 Scikit-Learn トレーニングスクリプトを準備する.

モデルのトレーニングが完了すると、トレーニング済みのモデルは model.tar.gz リージョンのデフォルトの SageMaker バケット内のファイル:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

新しいデータで推論を取得するために、トレーニング済みのモデルをデプロイできるようになりました! 手順については、を参照してください。エンドポイントを作成し、モデルをデプロイします。

クリーンアップ

今後料金が発生しないようにするには、リソースを削除してください。これを行うには、IAM ロールと SageMaker ノートブックの作成に使用された CloudFormation テンプレートを削除します。

Snowflake をデータソースとして使用し、Amazon SageMaker PlatoBlockchain Data Intelligence で ML モデルをトレーニングします。垂直検索。あい。

図 6: クリーンアップ

Snowflake コンソールから Snowflake リソースを手動で削除する必要があります。

まとめ

この投稿では、Snowflake テーブルに保存されているデータを SageMaker Training ジョブインスタンスにダウンロードし、カスタムトレーニングコンテナを使用して XGBoost モデルをトレーニングする方法を示しました。このアプローチにより、データを Amazon S3 にステージングすることなく、Snowflake をデータソースとして SageMaker ノートブックに直接統合できます。

詳細については、以下をご覧ください。 Amazon SageMaker Python SDK この投稿で提供されているサンプル実装と、ビジネスに関連するデータセットを使用してソリューションを構築します。質問や提案がある場合は、コメントを残してください。

著者について

アミット・アロラ は、アマゾンウェブサービスの AI および ML スペシャリストアーキテクトであり、企業のお客様がクラウドベースの機械学習サービスを使用してイノベーションを迅速に拡大できるよう支援しています。また、ワシントン DC のジョージタウン大学で MS データサイエンスおよび分析プログラムの非常勤講師も務めています。

ディビア・ムラリダラン アマゾンウェブサービスのソリューションアーキテクトです。彼女は、企業顧客がテクノロジーを使用してビジネス上の問題を解決できるよう支援することに情熱を注いでいます。彼女はロチェスター工科大学でコンピュータサイエンスの修士号を取得しています。オフィスの外では、彼女は料理をしたり、歌ったり、植物を育てたりすることに時間を費やしています。

セルゲイ・エルモリン AWS のプリンシパル AIML ソリューションアーキテクトです。以前は、Intel でディープラーニング、分析、ビッグデータテクノロジのソフトウェアソリューションアーキテクトを務めていました。機械学習と人工知能に情熱を傾けるシリコンバレーのベテランである Sergey は、GPU が登場する前からニューラルネットワークに興味を持っていました。彼は Hewlett-Packard で水晶振動子とセシウム原子時計の経年変化を予測するためにニューラルネットワークを使用していました。 Sergey は、スタンフォード大学で MSEE と CS 証明書を取得し、カリフォルニア州立大学サクラメント校で物理学と機械工学の学士号を取得しています。仕事以外では、ワイン作り、スキー、サイクリング、セーリング、スキューバダイビングを楽しんでいます。 Sergey はボランティアのパイロットでもあります。エンジェルフライト.

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

タイムスタンプ： 2023 年 3 月 8 日

より多くの AWS機械学習

Amazon CodeWhisperer で持続可能性を最適化する | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1911056

タイムスタンプ： 2023 年 11 月 8 日

Amazon HealthLake から非 PHI データを抽出し、複雑さを軽減し、Amazon Athena と Amazon SageMaker Canvas を使用してコスト効率を高めます

AWS機械学習

ソースノード： 1898108

タイムスタンプ： 2023 年 10 月 4 日

Snowflake をデータソースとして使用して、Amazon SageMaker で ML モデルをトレーニングする

プラトン再発行

ソリューションの概要

前提条件

SageMaker ノートブックと IAM ロールを設定する

Secrets Manager に Snowflake 認証情報を保存する

Snowflake アカウントのテーブルにデータを取り込む

実行する `sagemaker-snowflake-example.ipynb` ノート

トレーニング用のカスタムコンテナを作成する

SageMaker Training ジョブを使用して ML モデルをトレーニングする

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

AWS AI サービスカードの紹介: 透明性を高め、責任ある AI を推進するための新しいリソース

AWS サーバーレスおよび機械学習サービスを使用したリアルタイムの不正検出

DJLServing と DeepSpeed モデルの並列推論を使用して、Amazon SageMaker に大規模なモデルをデプロイする

Test Workbench を使用して Amazon Lex チャットボット開発ライフサイクルを促進する | アマゾンウェブサービス

Amazon SageMaker JumpStart を使用して Falcon で HCLS ドキュメント要約アプリケーションを作成する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ソリューションの概要

前提条件

SageMaker ノートブックと IAM ロールを設定する

Secrets Manager に Snowflake 認証情報を保存する

Snowflake アカウントのテーブルにデータを取り込む

実行する sagemaker-snowflake-example.ipynb ノート

トレーニング用のカスタム コンテナを作成する

SageMaker Training ジョブを使用して ML モデルをトレーニングする

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

実行する `sagemaker-snowflake-example.ipynb` ノート

トレーニング用のカスタムコンテナを作成する