AmazonSageMakerデータラングラー は、コードを書かずに機械学習 (ML) ワークフローでデータの選択とクリーンアップ、特徴の作成、データ準備の自動化を行う機能により、データの準備と特徴エンジニアリングの実行に必要な時間を数週間から数分に短縮する単一のビジュアル インターフェイスです。
SageMaker Data Wrangler のサポート スノーフレーク、ML を実行したいユーザーに人気のデータ ソース。 カスタマーエクスペリエンスを向上させるために、SageMaker Data Wrangler から Snowflake 直接接続を起動します。 この機能がリリースされる前は、管理者は、Snowflake に接続して Data Wrangler で ML の機能を作成するための初期ストレージ統合をセットアップする必要がありました。 これにはプロビジョニングが含まれます Amazon シンプル ストレージ サービス (Amazon S3) バケット、 AWS IDおよびアクセス管理 (IAM) アクセス許可、個々のユーザー向けの Snowflake ストレージ統合、Amazon S3 でデータ コピーを管理またはクリーンアップする継続的なメカニズム。 このプロセスは、厳格なデータ アクセス制御と多数のユーザーを必要とする顧客にとっては拡張性がありません。
この投稿では、SageMaker Data Wrangler での Snowflake の直接接続が、管理者のエクスペリエンスとデータ サイエンティストのデータからビジネス インサイトへの ML の取り組みをどのように簡素化するかを示します。
ソリューションの概要
このソリューションでは、SageMaker Data Wrangler を使用して、ML および Amazon SageMakerオートパイロット データに基づいて ML モデルを自動的に構築、トレーニング、微調整します。 どちらのサービスも、ML 実践者の生産性を向上させ、価値を生み出すまでの時間を短縮することを目的に設計されています。 また、ML の機能をクエリおよび作成するための直接接続を使用した、SageMaker Data Wrangler から Snowflake への簡略化されたデータ アクセスも示します。
Snowflake、SageMaker Data Wrangler、および SageMaker Autopilot を使用したローコード ML プロセスの概要については、以下の図を参照してください。
ワークフローには次の手順が含まれます。
- データの準備と特徴量エンジニアリングのタスクのために SageMaker Data Wrangler に移動します。
- SageMaker Data Wrangler との Snowflake 接続をセットアップします。
- SageMaker Data Wrangler で Snowflake テーブルを探索し、ML データセットを作成し、特徴量エンジニアリングを実行します。
- SageMaker Data Wrangler と SageMaker Autopilot を使用してモデルをトレーニングし、テストします。
- 予測のために最適なモデルをリアルタイム推論エンドポイントにロードします。
- Python ノートブックを使用して、起動されたリアルタイム推論エンドポイントを呼び出します。
前提条件
この投稿では、管理者は次の前提条件を満たしている必要があります。
データサイエンティストは次の前提条件を満たしている必要があります
最後に、Snowflake 用にデータを準備する必要があります。
- 当社は以下のクレジットカード取引データを使用します。 Kaggle 不正なクレジット カード取引を検出するための ML モデルを構築し、顧客が購入していない商品に対して請求されないようにします。 このデータセットには、ヨーロッパのカード所有者によって行われた 2013 年 XNUMX 月のクレジット カード取引が含まれています。
- あなたは使用する必要があります SnowSQL クライアント これをローカル マシンにインストールすると、それを使用してデータセットを Snowflake テーブルにアップロードできるようになります。
次の手順では、データセットを準備して Snowflake データベースにロードする方法を示します。 これは XNUMX 回限りのセットアップです。
スノーフレーク テーブルとデータの準備
この XNUMX 回限りのセットアップでは、次の手順を実行します。
- まず、管理者として、Snowflake 仮想ウェアハウス、ユーザー、ロールを作成し、データ サイエンティストなどの他のユーザーにデータベースを作成して ML ユースケースのデータをステージングするためのアクセスを許可します。
- データ サイエンティストとして、データベースを作成し、クレジット カード トランザクションを Snowflake データベースにインポートして、SageMaker Data Wrangler からデータにアクセスしましょう。 説明のために、という名前の Snowflake データベースを作成します。
SF_FIN_TRANSACTION
: - データセット CSV ファイルをローカル マシンにダウンロードし、データをデータベース テーブルにロードするステージを作成します。 作成したステージにデータをインポートする PUT コマンドを実行する前に、ダウンロードしたデータセットの場所を指すようにファイル パスを更新します。
- という名前のテーブルを作成します。
credit_card_transactions
: - 作成したテーブルにステージからデータをインポートします。
SageMaker Data Wrangler と Snowflake 接続をセットアップする
SageMaker Data Wrangler で使用するデータセットを準備したら、SageMaker Data Wrangler で新しい Snowflake 接続を作成して、 sf_fin_transaction
Snowflake のデータベースとクエリ credit_card_transaction
テーブル:
- 選択する スノーフレーク SageMaker Data Wrangler について 接続 ページで見やすくするために変数を解析したりすることができます。
- 接続を識別するための名前を入力します。
- Snowflake データベースに接続するための認証方法を選択します。
- 基本認証を使用する場合は、Snowflake 管理者が共有するユーザー名とパスワードを指定します。 この投稿では、基本認証を使用して、前の手順で作成したユーザー資格情報を使用して Snowflake に接続します。
- OAuth を使用している場合は、アイデンティティ プロバイダーの資格情報を入力します。
SageMaker Data Wrangler はデフォルトで、S3 バケットにデータのコピーを作成せずに、Snowflake から直接データをクエリします。 SageMaker Data Wrangler の新しい使いやすさの強化では、Apache Spark を使用して Snowflake と統合し、ML ジャーニーのためのデータセットを準備してシームレスに作成します。
これまでに、Snowflake 上にデータベースを作成し、CSV ファイルを Snowflake テーブルにインポートし、Snowflake 資格情報を作成し、SageMaker Data Wrangler 上に Snowflake に接続するためのコネクタを作成しました。 構成された Snowflake 接続を検証するには、作成された Snowflake テーブルに対して次のクエリを実行します。
以前は必須であったストレージ統合オプションが、詳細設定ではオプションになったことに注意してください。
Snowflake データを探索する
クエリ結果を検証した後、選択します インポート クエリ結果をデータセットとして保存します。 この抽出されたデータセットは、探索的データ分析と特徴量エンジニアリングに使用されます。
SageMaker Data Wrangler UI で Snowflake からデータをサンプリングすることを選択できます。 もう XNUMX つのオプションは、SageMaker Data Wrangler 処理ジョブを使用して、ML モデルのトレーニング ユースケースの完全なデータをダウンロードすることです。
SageMaker Data Wrangler で探索的データ分析を実行する
Data Wrangler 内のデータは、トレーニングする前にエンジニアリングする必要があります。 このセクションでは、SageMaker Data Wrangler の組み込み機能を使用して、Snowflake からのデータに対して特徴量エンジニアリングを実行する方法を示します。
まず、使ってみましょう Data Quality and Insights Report
SageMaker Data Wrangler 内の機能を使用してレポートを生成し、データ品質を自動的に検証し、Snowflake からのデータの異常を検出します。
このレポートを使用すると、データのクリーンアップと処理に役立ちます。 欠損値の数や外れ値の数などの情報が得られます。 ターゲットの漏洩や不均衡など、データに問題がある場合は、インサイト レポートによってそれらの問題に注意を払うことができます。 レポートの詳細を理解するには、次を参照してください。 Amazon SageMakerDataWranglerのデータ品質と洞察でデータ準備を加速します.
SageMaker Data Wrangler によって適用されるデータ型の一致をチェックアウトした後、次の手順を実行します。
- 横のプラス記号を選択します データ型 選択して 分析を追加.
- 分析タイプ、選択する データ品質と洞察レポート.
- 選択する 創造する.
- 優先度の高い警告を確認するには、データ品質と分析レポートの詳細を参照してください。
ML の作業を続行する前に、報告された警告を解決することを選択できます。
対象の列 Class
予測対象は文字列として分類されます。 まず、変換を適用して、古くなった空の文字を削除しましょう。
- 選択する ステップを追加 選択して フォーマット文字列.
- 変換のリストで、選択します 左右に剥がす.
- 削除する文字を入力して選択します Add.
次に、ターゲット列を変換します Class
トランザクションが正規か不正であるため、文字列データ型からブール値に変換されます。
- 選択する ステップを追加.
- 選択する 列を型として解析する.
- [列] で、次を選択します。
Class
. - 、選択する 文字列.
- に、選択する ブーリアン.
- 選択する Add.
元のデータセットには 30 を超えるフィーチャがあるため、ターゲット列の変換後、フィーチャ列の数を減らします。 主成分分析 (PCA) を使用して、特徴の重要性に基づいて次元を削減します。 PCA と次元削減について詳しくは、以下を参照してください。 主成分分析 (PCA) アルゴリズム.
- 選択する ステップを追加.
- 選択する 次元削減.
- 最適化の適用、選択する 主成分分析.
- 入力列、ターゲット列を除くすべての列を選択します
Class
. - 横のプラス記号を選択します データフロー 選択して 分析を追加します。
- 分析タイプ、選択する クイックモデル.
- 分析名、名前を入力します。
- ラベル、選択する
Class
. - 選択する ラン.
PCA の結果に基づいて、モデルの構築にどの機能を使用するかを決定できます。 次のスクリーンショットのグラフは、ターゲット クラスを予測するための重要度の高いものから低いものに基づいて並べられた特徴 (またはディメンション) を示しています。このデータセットでは、トランザクションが不正であるか正当であるかを示しています。
この分析に基づいて特徴の数を減らすことを選択できますが、この投稿ではデフォルトのままにします。
これで特徴エンジニアリング プロセスは終了ですが、さらなる最適化を実行する前に、クイック モデルを実行してデータ品質とインサイト レポートを再度作成してデータを理解することもできます。
データをエクスポートしてモデルをトレーニングする
次のステップでは、SageMaker Autopilot を使用して、データに基づいて最適な ML モデルを自動的に構築、トレーニング、調整します。 SageMaker Autopilot を使用すると、データとモデルの完全な制御と可視性を維持できます。
探索と特徴量エンジニアリングが完了したので、データセット上でモデルをトレーニングし、データをエクスポートして、SageMaker Autopilot を使用して ML モデルをトレーニングしましょう。
- ソフトウェア設定ページで、下図のように トレーニング タブを選択 エクスポートとトレーニング.
エクスポートが完了するまでの間、エクスポートの進行状況を監視できます。
予測したいターゲットと問題の種類を指定して、自動トレーニング ジョブを実行するように SageMaker Autopilot を設定しましょう。 この場合、トランザクションが不正であるか有効であるかを予測するためにデータセットをトレーニングしているため、二項分類を使用します。
- 実験の名前を入力し、S3 位置データを指定して、選択します 次へ: ターゲットと機能.
- ターゲット、選択する
Class
予測する列として。 - 選択する 次へ: トレーニング方法.
SageMaker Autopilot がデータセットに基づいてトレーニング方法を決定できるようにしましょう。
- トレーニング方法とアルゴリズム選択 自動応答オプション.
SageMaker Autopilot でサポートされているトレーニング モードについて詳しくは、以下を参照してください。 トレーニングモードとアルゴリズム サポート。
- 選択する 次へ: 展開と詳細設定.
- 展開オプション、選択する Data Wrangler からの変換を使用して最適なモデルを自動デプロイします、実験が完了した後、推論に最適なモデルを読み込みます。
- エンドポイントの名前を入力します。
- 機械学習の問題の種類を選択してください、選択する バイナリ分類.
- 反対意見の指標、選択する F1.
- 選択する 次へ: レビューと作成.
- 選択する 実験を作成する.
これにより、ハイパーパラメータの組み合わせを使用して目標メトリクスを最適化する一連のトレーニング ジョブを作成する SageMaker Autopilot ジョブが開始されます。
SageMaker Autopilot がモデルの構築と最適な ML モデルの評価を完了するまで待ちます。
リアルタイム推論エンドポイントを起動して最適なモデルをテストする
SageMaker Autopilot は、クレジット カード取引を正規か不正かを分類できる最適なモデルを決定するための実験を実行します。
SageMaker Autopilot が実験を完了すると、評価メトリクスを含むトレーニング結果を表示し、SageMaker Autopilot のジョブ説明ページから最適なモデルを探索できます。
- 最適なモデルを選択して選択してください モデルのデプロイ.
リアルタイム推論エンドポイントを使用して、SageMaker Autopilot を通じて作成された最適なモデルをテストします。
- 選択 リアルタイムの予測を行う.
エンドポイントが利用可能な場合、ペイロードを渡して推論結果を取得できます。
推論エンドポイントを使用するために Python ノートブックを起動しましょう。
- SageMaker Studio コンソールで、ナビゲーションペインのフォルダーアイコンを選択し、 ノートブックを作成.
- 次の Python コードを使用して、デプロイされたリアルタイム推論エンドポイントを呼び出します。
出力には結果が次のように表示されます false
これは、サンプル特徴データが不正ではないことを意味します。
クリーンアップ
このチュートリアルを完了した後に料金が発生しないようにするには、 SageMaker Data Wrangler アプリケーションをシャットダウンします。 および ノートブックインスタンスをシャットダウンする 推論を実行するために使用されます。 あなたもそうすべきです 推論エンドポイントを削除する 追加料金を防ぐために SageMaker Autopilot を使用して作成したもの。
まとめ
この投稿では、途中で中間コピーを作成せずに、Snowflake からデータを直接取り込む方法を説明しました。 Snowflake から直接、完全なデータセットをサンプリングすることも、SageMaker Data Wrangler にロードすることもできます。 その後、SageMaker Data Wrangler のビジュアル インターフェイスを使用して、データを探索し、データをクリーンアップし、特徴量エンジニアリングを実行できます。
また、SageMaker Data Wrangler ユーザー インターフェイスから直接、SageMaker Autopilot を使用してモデルを簡単にトレーニングおよび調整する方法についても強調しました。 SageMaker Data Wrangler と SageMaker Autopilot の統合により、特徴量エンジニアリングの完了後、コードを書かずにモデルを迅速に構築できます。 次に、SageMaker Autopilot の最適なモデルを参照して、リアルタイム エンドポイントを使用して推論を実行しました。
新しい Snowflake と SageMaker Data Wrangler の直接統合を今すぐ試して、SageMaker を使用してデータを使用して ML モデルを簡単に構築してください。
著者について
ハリハラン・スレッシュ AWS のシニア ソリューション アーキテクトです。 彼は、データベース、機械学習、および革新的なソリューションの設計に情熱を注いでいます。 AWS に入社する前は、Hariharan は製品アーキテクト、コア バンキング実装スペシャリスト、および開発者であり、11 年以上にわたって BFSI 組織と協力してきました。 テクノロジー以外では、パラグライダーとサイクリングを楽しんでいます。
アパラジータン・ヴァイディヤナータン AWS のプリンシパル エンタープライズ ソリューション アーキテクトです。 彼は、企業顧客が AWS クラウド上でワークロードを移行および最新化することをサポートしています。 彼は、エンタープライズ、大規模、分散ソフトウェア システムの設計と開発に 23 年以上の経験を持つクラウド アーキテクトです。 データと特徴エンジニアリングの領域に重点を置いた機械学習とデータ分析を専門としています。 彼はマラソンランナーを目指しており、趣味はハイキング、自転車に乗り、妻と XNUMX 人の男の子と一緒に時間を過ごすことです。
ティムソング 彼は AWS SageMaker のソフトウェア開発エンジニアであり、ソフトウェア開発者、コンサルタント、技術リーダーとして 10 年以上の経験があり、スケーラブルで信頼性の高い製品を提供し、複雑な問題を解決する能力を実証してきました。 余暇には、自然、屋外ランニング、ハイキングなどを楽しんでいます。
ボスコ・アルバカーキ AWS のシニア パートナー ソリューション アーキテクトであり、エンタープライズ データベース ベンダーおよびクラウド プロバイダーのデータベースおよび分析製品の使用において 20 年以上の経験があります。 大規模なテクノロジー企業がデータ分析ソリューションを設計するのを支援し、エンジニアリング チームを率いてデータ分析プラットフォームとデータ製品の設計と実装を行ってきました。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- :持っている
- :は
- :not
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 視聴者の38%が
- 20
- 20年
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- 能力
- 私たちについて
- 加速する
- アクセス
- NEW
- 管理者
- 高度な
- 後
- 再び
- AI / ML
- すべて
- 許す
- また
- しかし
- Amazon
- アマゾンセージメーカー
- AmazonSageMakerデータラングラー
- Amazon Webサービス
- 量
- an
- 分析
- 分析論
- および
- 別の
- どれか
- アパッチ
- API
- 適用された
- 申し込む
- です
- AS
- 意欲的な
- At
- 注意
- 認証
- 自動化する
- 自動化
- 自動的に
- 利用できます
- AWS
- バンキング
- ベース
- 基本
- BE
- なぜなら
- 以下
- BEST
- BFSI
- ボディ
- 両言語で
- 持って来る
- ビルド
- 建物
- 内蔵
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- 機能
- キャプチャー
- カード
- 場合
- 例
- 文字
- 荷担した
- 課金
- チェック
- 選択する
- class
- 分類
- 分類された
- 分類します
- クライアント
- クラウド
- コード
- コラム
- コラム
- 組み合わせ
- 企業
- コンプリート
- 記入済みの
- 完了
- 完了
- 複雑な
- コンポーネント
- 設定された
- お問合せ
- 接続
- 領事
- コンサルタント
- 続ける
- コントロール
- 変換
- 基本
- 勘定系システム
- 作ります
- 作成した
- 作成します。
- 作成
- Credentials
- クレジット
- クレジットカード
- 顧客
- 顧客満足体験
- Customers
- データ
- データアクセス
- データ分析
- データ分析
- データの準備
- データサイエンティスト
- データベース
- データベースを追加しました
- 決めます
- デフォルト
- デフォルト
- 配信する
- 実証します
- 実証
- 展開します
- 展開
- 展開
- 説明
- 設計
- 設計
- 設計
- 細部
- 決定する
- Developer
- 開発
- 開発
- 大きさ
- 直接
- 直接に
- 配布
- ドメイン
- ドント
- ダウン
- ダウンロード
- 簡単に
- どちら
- エンドポイント
- エンジニア
- エンジニアリング
- 入力します
- Enterprise
- 等
- 欧州言語
- 評価
- 除く
- 存在
- 体験
- 実験
- 実験
- 探査
- 探索的データ分析
- 探る
- export
- 遠く
- 特徴
- 特徴
- 特色
- File
- ファイナンシャル
- 仕上げ
- 名
- フロート
- フォーカス
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- 不正な
- から
- フル
- さらに
- 生成する
- 取得する
- 与える
- 助成金
- グラフ
- 持ってる
- he
- 助けます
- 助けました
- 最高
- 強調表示された
- 彼の
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- ICON
- 識別する
- アイデンティティ
- if
- 不均衡
- 実装
- 実装
- import
- 重要性
- インポート
- 輸入
- 改善します
- in
- include
- 含ま
- 増える
- 個人
- 情報
- 初期
- 革新的な
- 洞察
- install
- 統合する
- 統合
- インタフェース
- 内部
- に
- 問題
- IT
- リーディングシート
- ジョブ
- Jobs > Create New Job
- 参加
- 旅
- JPG
- JSON
- 大
- 大規模
- 起動する
- 打ち上げ
- リーダー
- 学習
- コメントを残す
- ツェッペリン
- 左
- 正当な
- う
- 図書館
- LIMIT
- リスト
- 負荷
- 負荷
- ローカル
- 場所
- 最低
- 機械
- 機械学習
- 製
- 維持する
- make
- 管理します
- マラソン
- マッチング
- 五月..
- メカニズム
- 方法
- メトリック
- メトリック
- 移動します
- 分
- 行方不明
- ML
- モデル
- 近代化します
- モード
- モニター
- 他には?
- 名
- 名前付き
- 自然
- ナビゲーション
- ニーズ
- 新作
- 次の
- ノート
- 今
- 数
- オース
- オブジェクト
- 客観
- of
- on
- 継続
- 最適化
- オプション
- or
- 注文
- 組織
- オリジナル
- OS
- その他
- 私たちの
- でる
- 出力
- 外側
- が
- 概要
- ページ
- ペイン
- パートナー
- パス
- 情熱的な
- パスワード
- path
- 実行する
- 実行
- パーミッション
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- さらに
- ポイント
- 人気
- ポスト
- 予測する
- 予測
- 予測
- 準備
- 準備
- 前提条件
- 防ぐ
- 前
- 校長
- 印刷物
- 事前の
- 問題
- 問題
- プロセス
- 処理
- プロダクト
- 生産性
- 製品
- 進捗
- 提供します
- プロバイダー
- プロバイダ
- 公共
- 購入
- 目的
- 置きます
- Python
- 品質
- クエリ
- クイック
- すぐに
- への
- 減らします
- 軽減
- 削減
- 信頼性のある
- 削除します
- replace
- レポート
- 報告
- レポート
- 要求
- の提出が必要です
- 応答
- 結果
- 結果
- レビュー
- ライディング
- 職種
- ラン
- ランナー
- ランニング
- s
- セージメーカー
- Save
- ド電源のデ
- 科学者
- 科学者たち
- シームレス
- セクション
- 送信
- シニア
- 9月
- サービス
- セッションに
- 設定
- shared
- すべき
- 表示する
- 作品
- 符号
- 簡単な拡張で
- 簡略化されました
- So
- ソフトウェア
- ソフトウェア開発
- 溶液
- ソリューション
- 解決する
- 歌
- ソース
- スパーク
- 専門家
- 専門にする
- 特に
- スピード
- 支出
- ステージ
- 開始
- 手順
- ステップ
- まだ
- ストレージ利用料
- 店舗
- 厳格な
- 文字列
- 研究
- 提出する
- 成功した
- 首尾よく
- そのような
- サポート
- サポート
- サポート
- システム
- テーブル
- ターゲット
- タスク
- チーム
- テク
- テクノロジー
- テクノロジー企業
- test
- それ
- グラフ
- アプリ環境に合わせて
- その後
- そこ。
- 彼ら
- この
- それらの
- 介して
- 時間
- 〜へ
- 今日
- トレーニング
- 訓練された
- トレーニング
- トランザクション
- 取引
- 変換
- トランスフォーム
- true
- チュートリアル
- 2
- type
- ui
- わかる
- アップデイト
- us
- 使いやすさ
- つかいます
- 中古
- ユーザー
- ユーザーインターフェース
- users
- 使用されます
- v1
- 検証
- 値
- 価値観
- ベンダー
- 確認する
- 詳しく見る
- バーチャル
- 視認性
- wait
- 欲しいです
- ました
- we
- ウェブ
- Webサービス
- ウィークス
- した
- かどうか
- which
- while
- 誰
- 妻
- 以内
- 無し
- 仕事
- 働いていました
- ワークフロー
- ワークフロー
- ワーキング
- 書き込み
- 年
- You
- あなたの
- ゼファーネット