Amazon SageMaker Data Wrangler による Snowflake への直接接続でビジネス洞察までの時間を短縮する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

AmazonSageMakerデータラングラーは、コードを書かずに機械学習 (ML) ワークフローでデータの選択とクリーンアップ、特徴の作成、データ準備の自動化を行う機能により、データの準備と特徴エンジニアリングの実行に必要な時間を数週間から数分に短縮する単一のビジュアルインターフェイスです。

SageMaker Data Wrangler のサポートスノーフレーク、ML を実行したいユーザーに人気のデータソース。カスタマーエクスペリエンスを向上させるために、SageMaker Data Wrangler から Snowflake 直接接続を起動します。この機能がリリースされる前は、管理者は、Snowflake に接続して Data Wrangler で ML の機能を作成するための初期ストレージ統合をセットアップする必要がありました。これにはプロビジョニングが含まれます Amazon シンプルストレージサービス (Amazon S3) バケット、 AWS IDおよびアクセス管理 (IAM) アクセス許可、個々のユーザー向けの Snowflake ストレージ統合、Amazon S3 でデータコピーを管理またはクリーンアップする継続的なメカニズム。このプロセスは、厳格なデータアクセス制御と多数のユーザーを必要とする顧客にとっては拡張性がありません。

この投稿では、SageMaker Data Wrangler での Snowflake の直接接続が、管理者のエクスペリエンスとデータサイエンティストのデータからビジネスインサイトへの ML の取り組みをどのように簡素化するかを示します。

ソリューションの概要

このソリューションでは、SageMaker Data Wrangler を使用して、ML および Amazon SageMakerオートパイロットデータに基づいて ML モデルを自動的に構築、トレーニング、微調整します。どちらのサービスも、ML 実践者の生産性を向上させ、価値を生み出すまでの時間を短縮することを目的に設計されています。また、ML の機能をクエリおよび作成するための直接接続を使用した、SageMaker Data Wrangler から Snowflake への簡略化されたデータアクセスも示します。

Snowflake、SageMaker Data Wrangler、および SageMaker Autopilot を使用したローコード ML プロセスの概要については、以下の図を参照してください。

Amazon SageMaker Data Wrangler を Snowflake に直接接続することで、ビジネス洞察までの時間を短縮します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

ワークフローには次の手順が含まれます。

データの準備と特徴量エンジニアリングのタスクのために SageMaker Data Wrangler に移動します。
- SageMaker Data Wrangler との Snowflake 接続をセットアップします。
- SageMaker Data Wrangler で Snowflake テーブルを探索し、ML データセットを作成し、特徴量エンジニアリングを実行します。
SageMaker Data Wrangler と SageMaker Autopilot を使用してモデルをトレーニングし、テストします。
予測のために最適なモデルをリアルタイム推論エンドポイントにロードします。
Python ノートブックを使用して、起動されたリアルタイム推論エンドポイントを呼び出します。

前提条件

この投稿では、管理者は次の前提条件を満たしている必要があります。

データサイエンティストは次の前提条件を満たしている必要があります

最後に、Snowflake 用にデータを準備する必要があります。

当社は以下のクレジットカード取引データを使用します。 Kaggle 不正なクレジットカード取引を検出するための ML モデルを構築し、顧客が購入していない商品に対して請求されないようにします。このデータセットには、ヨーロッパのカード所有者によって行われた 2013 年 XNUMX 月のクレジットカード取引が含まれています。
あなたは使用する必要があります SnowSQL クライアントこれをローカルマシンにインストールすると、それを使用してデータセットを Snowflake テーブルにアップロードできるようになります。

次の手順では、データセットを準備して Snowflake データベースにロードする方法を示します。これは XNUMX 回限りのセットアップです。

スノーフレークテーブルとデータの準備

この XNUMX 回限りのセットアップでは、次の手順を実行します。

まず、管理者として、Snowflake 仮想ウェアハウス、ユーザー、ロールを作成し、データサイエンティストなどの他のユーザーにデータベースを作成して ML ユースケースのデータをステージングするためのアクセスを許可します。

-- Use the role SECURITYADMIN to create Role and User
USE ROLE SECURITYADMIN; -- Create a new role 'ML Role'
CREATE OR REPLACE ROLE ML_ROLE COMMENT='ML Role';
GRANT ROLE ML_ROLE TO ROLE SYSADMIN; -- Create a new user and password and grant the role to the user
CREATE OR REPLACE USER ML_USER PASSWORD='<REPLACE_PASSWORD>'
DEFAULT_ROLE=ML_ROLE
DEFAULT_WAREHOUSE=ML_WH
DEFAULT_NAMESPACE=ML_WORKSHOP.PUBLIC
COMMENT='ML User';
GRANT ROLE ML_ROLE TO USER ML_USER; -- Grant privliges to role
USE ROLE ACCOUNTADMIN;
GRANT CREATE DATABASE ON ACCOUNT TO ROLE ML_ROLE; --Create Warehouse for AI/ML work
USE ROLE SYSADMIN; CREATE OR REPLACE WAREHOUSE ML_WH
WITH WAREHOUSE_SIZE = 'XSMALL' AUTO_SUSPEND = 120 AUTO_RESUME = true INITIALLY_SUSPENDED = TRUE; GRANT ALL ON WAREHOUSE ML_WH TO ROLE ML_ROLE;

データサイエンティストとして、データベースを作成し、クレジットカードトランザクションを Snowflake データベースにインポートして、SageMaker Data Wrangler からデータにアクセスしましょう。説明のために、という名前の Snowflake データベースを作成します。 SF_FIN_TRANSACTION:

-- Select the role and the warehouse
USE ROLE ML_ROLE;
USE WAREHOUSE ML_WH; -- Create the DB to import the financial transactions
CREATE DATABASE IF NOT EXISTS sf_fin_transaction; -- Create CSV File Format
create or replace file format my_csv_format
type = csv
field_delimiter = ','
skip_header = 1
null_if = ('NULL', 'null')
empty_field_as_null = true
compression = gzip;

データセット CSV ファイルをローカルマシンにダウンロードし、データをデータベーステーブルにロードするステージを作成します。作成したステージにデータをインポートする PUT コマンドを実行する前に、ダウンロードしたデータセットの場所を指すようにファイルパスを更新します。
```
-- Create a Snowflake named internal stage to store the transactions csv file
CREATE OR REPLACE STAGE my_stage
FILE_FORMAT = my_csv_format; -- Import the file in to the stage
-- This command needs be run from SnowSQL client and not on WebUI
PUT file:///Users/*******/Downloads/creditcard.csv @my_stage; -- Check whether the import was successful
LIST @my_stage;
```

という名前のテーブルを作成します。 credit_card_transactions:

-- Create table and define the columns mapped to the csv transactions file
create or replace table credit_card_transaction (
Time integer,
V1 float, V2 float, V3 float,
V4 float, V5 float, V6 float,
V7 float, V8 float, V9 float,
V10 float,V11 float,V12 float,
V13 float,V14 float,V15 float,
V16 float,V17 float,V18 float,
V19 float,V20 float,V21 float,
V22 float,V23 float,V24 float,
V25 float,V26 float,V27 float,
V28 float,Amount float,
Class varchar(5)
);

作成したテーブルにステージからデータをインポートします。

-- Import the transactions in to a new table named 'credit_card_transaction'
copy into credit_card_transaction from @my_stage ON_ERROR = CONTINUE; -- Check whether the table was successfully created
select * from credit_card_transaction limit 100;

SageMaker Data Wrangler と Snowflake 接続をセットアップする

SageMaker Data Wrangler で使用するデータセットを準備したら、SageMaker Data Wrangler で新しい Snowflake 接続を作成して、 sf_fin_transaction Snowflake のデータベースとクエリ credit_card_transaction テーブル：

選択する スノーフレーク SageMaker Data Wrangler について接続ページで見やすくするために変数を解析したりすることができます。
接続を識別するための名前を入力します。
Snowflake データベースに接続するための認証方法を選択します。
- 基本認証を使用する場合は、Snowflake 管理者が共有するユーザー名とパスワードを指定します。この投稿では、基本認証を使用して、前の手順で作成したユーザー資格情報を使用して Snowflake に接続します。
- OAuth を使用している場合は、アイデンティティプロバイダーの資格情報を入力します。

SageMaker Data Wrangler はデフォルトで、S3 バケットにデータのコピーを作成せずに、Snowflake から直接データをクエリします。 SageMaker Data Wrangler の新しい使いやすさの強化では、Apache Spark を使用して Snowflake と統合し、ML ジャーニーのためのデータセットを準備してシームレスに作成します。

これまでに、Snowflake 上にデータベースを作成し、CSV ファイルを Snowflake テーブルにインポートし、Snowflake 資格情報を作成し、SageMaker Data Wrangler 上に Snowflake に接続するためのコネクタを作成しました。構成された Snowflake 接続を検証するには、作成された Snowflake テーブルに対して次のクエリを実行します。

select * from credit_card_transaction;

以前は必須であったストレージ統合オプションが、詳細設定ではオプションになったことに注意してください。

Snowflake データを探索する

クエリ結果を検証した後、選択します インポート クエリ結果をデータセットとして保存します。この抽出されたデータセットは、探索的データ分析と特徴量エンジニアリングに使用されます。

SageMaker Data Wrangler UI で Snowflake からデータをサンプリングすることを選択できます。もう XNUMX つのオプションは、SageMaker Data Wrangler 処理ジョブを使用して、ML モデルのトレーニングユースケースの完全なデータをダウンロードすることです。

SageMaker Data Wrangler で探索的データ分析を実行する

Data Wrangler 内のデータは、トレーニングする前にエンジニアリングする必要があります。このセクションでは、SageMaker Data Wrangler の組み込み機能を使用して、Snowflake からのデータに対して特徴量エンジニアリングを実行する方法を示します。

まず、使ってみましょう Data Quality and Insights Report SageMaker Data Wrangler 内の機能を使用してレポートを生成し、データ品質を自動的に検証し、Snowflake からのデータの異常を検出します。

このレポートを使用すると、データのクリーンアップと処理に役立ちます。欠損値の数や外れ値の数などの情報が得られます。ターゲットの漏洩や不均衡など、データに問題がある場合は、インサイトレポートによってそれらの問題に注意を払うことができます。レポートの詳細を理解するには、次を参照してください。 Amazon SageMakerDataWranglerのデータ品質と洞察でデータ準備を加速します.

SageMaker Data Wrangler によって適用されるデータ型の一致をチェックアウトした後、次の手順を実行します。

横のプラス記号を選択します データ型 選択して 分析を追加.
分析タイプ、選択する データ品質と洞察レポート.
選択する 創造する.
優先度の高い警告を確認するには、データ品質と分析レポートの詳細を参照してください。

ML の作業を続行する前に、報告された警告を解決することを選択できます。

対象の列 Class 予測対象は文字列として分類されます。まず、変換を適用して、古くなった空の文字を削除しましょう。

選択する ステップを追加 選択して フォーマット文字列.
変換のリストで、選択します 左右に剥がす.
削除する文字を入力して選択します Add.

次に、ターゲット列を変換します Class トランザクションが正規か不正であるため、文字列データ型からブール値に変換されます。

選択する ステップを追加.
選択する 列を型として解析する.
[列] で、次を選択します。 Class.
、選択する 文字列.
に、選択する ブーリアン.
選択する Add.

元のデータセットには 30 を超えるフィーチャがあるため、ターゲット列の変換後、フィーチャ列の数を減らします。主成分分析 (PCA) を使用して、特徴の重要性に基づいて次元を削減します。 PCA と次元削減について詳しくは、以下を参照してください。主成分分析 (PCA) アルゴリズム.

選択する ステップを追加.
選択する 次元削減.
最適化の適用、選択する 主成分分析.
入力列、ターゲット列を除くすべての列を選択します Class.
横のプラス記号を選択します データフロー 選択して 分析を追加します。
分析タイプ、選択する クイックモデル.
分析名、名前を入力します。
ラベル、選択する Class.
選択するラン.

PCA の結果に基づいて、モデルの構築にどの機能を使用するかを決定できます。次のスクリーンショットのグラフは、ターゲットクラスを予測するための重要度の高いものから低いものに基づいて並べられた特徴 (またはディメンション) を示しています。このデータセットでは、トランザクションが不正であるか正当であるかを示しています。

この分析に基づいて特徴の数を減らすことを選択できますが、この投稿ではデフォルトのままにします。

これで特徴エンジニアリングプロセスは終了ですが、さらなる最適化を実行する前に、クイックモデルを実行してデータ品質とインサイトレポートを再度作成してデータを理解することもできます。

データをエクスポートしてモデルをトレーニングする

次のステップでは、SageMaker Autopilot を使用して、データに基づいて最適な ML モデルを自動的に構築、トレーニング、調整します。 SageMaker Autopilot を使用すると、データとモデルの完全な制御と可視性を維持できます。

探索と特徴量エンジニアリングが完了したので、データセット上でモデルをトレーニングし、データをエクスポートして、SageMaker Autopilot を使用して ML モデルをトレーニングしましょう。

ソフトウェア設定ページで、下図のように トレーニング タブを選択 エクスポートとトレーニング.

エクスポートが完了するまでの間、エクスポートの進行状況を監視できます。

予測したいターゲットと問題の種類を指定して、自動トレーニングジョブを実行するように SageMaker Autopilot を設定しましょう。この場合、トランザクションが不正であるか有効であるかを予測するためにデータセットをトレーニングしているため、二項分類を使用します。

実験の名前を入力し、S3 位置データを指定して、選択します 次へ: ターゲットと機能.
ターゲット、選択する Class 予測する列として。
選択する 次へ: トレーニング方法.

SageMaker Autopilot がデータセットに基づいてトレーニング方法を決定できるようにしましょう。

トレーニング方法とアルゴリズム選択 自動応答オプション.

SageMaker Autopilot でサポートされているトレーニングモードについて詳しくは、以下を参照してください。トレーニングモードとアルゴリズムサポート。

選択する 次へ: 展開と詳細設定.
展開オプション、選択する Data Wrangler からの変換を使用して最適なモデルを自動デプロイします、実験が完了した後、推論に最適なモデルを読み込みます。
エンドポイントの名前を入力します。
機械学習の問題の種類を選択してください、選択する バイナリ分類.
反対意見の指標、選択する F1.
選択する 次へ: レビューと作成.
選択する 実験を作成する.

これにより、ハイパーパラメータの組み合わせを使用して目標メトリクスを最適化する一連のトレーニングジョブを作成する SageMaker Autopilot ジョブが開始されます。

SageMaker Autopilot がモデルの構築と最適な ML モデルの評価を完了するまで待ちます。

リアルタイム推論エンドポイントを起動して最適なモデルをテストする

SageMaker Autopilot は、クレジットカード取引を正規か不正かを分類できる最適なモデルを決定するための実験を実行します。

SageMaker Autopilot が実験を完了すると、評価メトリクスを含むトレーニング結果を表示し、SageMaker Autopilot のジョブ説明ページから最適なモデルを探索できます。

最適なモデルを選択して選択してください モデルのデプロイ.

リアルタイム推論エンドポイントを使用して、SageMaker Autopilot を通じて作成された最適なモデルをテストします。

選択 リアルタイムの予測を行う.

エンドポイントが利用可能な場合、ペイロードを渡して推論結果を取得できます。

推論エンドポイントを使用するために Python ノートブックを起動しましょう。

SageMaker Studio コンソールで、ナビゲーションペインのフォルダーアイコンを選択し、 ノートブックを作成.

次の Python コードを使用して、デプロイされたリアルタイム推論エンドポイントを呼び出します。

# Library imports
import os
import io
import boto3
import json
import csv #: Define the endpoint's name.
ENDPOINT_NAME = 'SnowFlake-FraudDetection' # replace the endpoint name as per your config
runtime = boto3.client('runtime.sagemaker') #: Define a test payload to send to your endpoint.
payload = { "body": { "TIME": 152895, "V1": 2.021155535, "V2": 0.05372872624, "V3": -1.620399104, "V4": 0.3530165253, "V5": 0.3048483853, "V6": -0.6850955461, "V7": 0.02483335885, "V8": -0.05101346021, "V9": 0.3550896835, "V10": -0.1830053153, "V11": 1.148091498, "V12": 0.4283365505, "V13": -0.9347237892, "V14": -0.4615291327, "V15": -0.4124343184, "V16": 0.4993445934, "V17": 0.3411548305, "V18": 0.2343833846, "V19": 0.278223588, "V20": -0.2104513475, "V21": -0.3116427235, "V22": -0.8690778214, "V23": 0.3624146958, "V24": 0.6455923598, "V25": -0.3424913329, "V26": 0.1456884618, "V27": -0.07174890419, "V28": -0.040882382, "AMOUNT": 0.27 }
} #: Submit an API request and capture the response object.
response = runtime.invoke_endpoint( EndpointName=ENDPOINT_NAME, ContentType='text/csv', Body=str(payload)
) #: Print the model endpoint's output.
print(response['Body'].read().decode())

出力には結果が次のように表示されます falseこれは、サンプル特徴データが不正ではないことを意味します。

クリーンアップ

このチュートリアルを完了した後に料金が発生しないようにするには、 SageMaker Data Wrangler アプリケーションをシャットダウンします。およびノートブックインスタンスをシャットダウンする推論を実行するために使用されます。あなたもそうすべきです推論エンドポイントを削除する追加料金を防ぐために SageMaker Autopilot を使用して作成したもの。

まとめ

この投稿では、途中で中間コピーを作成せずに、Snowflake からデータを直接取り込む方法を説明しました。 Snowflake から直接、完全なデータセットをサンプリングすることも、SageMaker Data Wrangler にロードすることもできます。その後、SageMaker Data Wrangler のビジュアルインターフェイスを使用して、データを探索し、データをクリーンアップし、特徴量エンジニアリングを実行できます。

また、SageMaker Data Wrangler ユーザーインターフェイスから直接、SageMaker Autopilot を使用してモデルを簡単にトレーニングおよび調整する方法についても強調しました。 SageMaker Data Wrangler と SageMaker Autopilot の統合により、特徴量エンジニアリングの完了後、コードを書かずにモデルを迅速に構築できます。次に、SageMaker Autopilot の最適なモデルを参照して、リアルタイムエンドポイントを使用して推論を実行しました。

新しい Snowflake と SageMaker Data Wrangler の直接統合を今すぐ試して、SageMaker を使用してデータを使用して ML モデルを簡単に構築してください。

著者について

Amazon SageMaker Data Wrangler を Snowflake に直接接続することで、ビジネス洞察までの時間を短縮します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ハリハラン・スレッシュ AWS のシニアソリューションアーキテクトです。彼は、データベース、機械学習、および革新的なソリューションの設計に情熱を注いでいます。 AWS に入社する前は、Hariharan は製品アーキテクト、コアバンキング実装スペシャリスト、および開発者であり、11 年以上にわたって BFSI 組織と協力してきました。テクノロジー以外では、パラグライダーとサイクリングを楽しんでいます。

Amazon SageMaker Data Wrangler を Snowflake に直接接続することで、ビジネス洞察までの時間を短縮します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 アパラジータン・ヴァイディヤナータン AWS のプリンシパルエンタープライズソリューションアーキテクトです。彼は、企業顧客が AWS クラウド上でワークロードを移行および最新化することをサポートしています。彼は、エンタープライズ、大規模、分散ソフトウェアシステムの設計と開発に 23 年以上の経験を持つクラウドアーキテクトです。データと特徴エンジニアリングの領域に重点を置いた機械学習とデータ分析を専門としています。彼はマラソンランナーを目指しており、趣味はハイキング、自転車に乗り、妻と XNUMX 人の男の子と一緒に時間を過ごすことです。

Amazon SageMaker Data Wrangler を Snowflake に直接接続することで、ビジネス洞察までの時間を短縮します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ティムソング 彼は AWS SageMaker のソフトウェア開発エンジニアであり、ソフトウェア開発者、コンサルタント、技術リーダーとして 10 年以上の経験があり、スケーラブルで信頼性の高い製品を提供し、複雑な問題を解決する能力を実証してきました。余暇には、自然、屋外ランニング、ハイキングなどを楽しんでいます。

ボスコ・アルバカーキ AWS のシニアパートナーソリューションアーキテクトであり、エンタープライズデータベースベンダーおよびクラウドプロバイダーのデータベースおよび分析製品の使用において 20 年以上の経験があります。大規模なテクノロジー企業がデータ分析ソリューションを設計するのを支援し、エンジニアリングチームを率いてデータ分析プラットフォームとデータ製品の設計と実装を行ってきました。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。自動車/EV、カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
ブロックオフセット。環境オフセット所有権の近代化。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/

タイムスタンプ： 2023 年 6 月 23 日

タイムスタンプ： 2023 年 9 月 5 日

Amazon SageMaker Data Wrangler を Snowflake に直接接続することで、ビジネス洞察までの時間を短縮します。アマゾンウェブサービス

プラトン再発行

ソリューションの概要

前提条件

この投稿では、管理者は次の前提条件を満たしている必要があります。

データサイエンティストは次の前提条件を満たしている必要があります

最後に、Snowflake 用にデータを準備する必要があります。

スノーフレークテーブルとデータの準備

SageMaker Data Wrangler と Snowflake 接続をセットアップする

Snowflake データを探索する

SageMaker Data Wrangler で探索的データ分析を実行する

データをエクスポートしてモデルをトレーニングする

リアルタイム推論エンドポイントを起動して最適なモデルをテストする

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

AWS CDK 経由で Amazon SageMaker Role Manager を使用して、カスタマイズされたアクセス許可を数分で定義します。アマゾンウェブサービス

AWSでの機械学習を使用したオンライン会話のテキスト分類

AWS で MosaicML Composer を使用して深層学習トレーニングの時間とコストを削減

Amazon SageMakerDataWranglerをMLOpsワークフローと統合する

AmazonForecastで予測する特定の時系列を選択します

AWS AI サービスを使用して、住宅ローン引受プロセスにおける文書の検証と不正行為の検出を自動化する: パート 1 | アマゾンウェブサービス

Amazon SageMaker 非同期エンドポイントを使用して Amazon SageMaker JumpStart 基盤モデルのデプロイメントコストを最適化する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ソリューションの概要

前提条件

この投稿では、管理者は次の前提条件を満たしている必要があります。

データサイエンティストは次の前提条件を満たしている必要があります

最後に、Snowflake 用にデータを準備する必要があります。

スノーフレーク テーブルとデータの準備

SageMaker Data Wrangler と Snowflake 接続をセットアップする

Snowflake データを探索する

SageMaker Data Wrangler で探索的データ分析を実行する

データをエクスポートしてモデルをトレーニングする

リアルタイム推論エンドポイントを起動して最適なモデルをテストする

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

スノーフレークテーブルとデータの準備