データの準備はデータ駆動型プロジェクトにおいて重要なステップであり、適切なツールを使用することで業務効率を大幅に向上させることができます。 AmazonSageMakerデータラングラー 機械学習 (ML) 用の表形式データと画像データを集約して準備するのにかかる時間を、数週間から数分に短縮します。 SageMaker Data Wrangler を使用すると、データ準備と特徴エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、探索、視覚化などのデータ準備ワークフローの各ステップを単一のビジュアル インターフェイスから完了できます。
この投稿では、操作エクスペリエンスを向上させるために特別に設計された SageMaker Data Wrangler の最新機能について説明します。 のサポートを詳しく掘り下げます シンプルストレージサービス (Amazon S3) マニフェスト ファイル、対話型データ フロー内の推論アーティファクト、およびシームレスな統合 JSON(JavaScriptオブジェクト表記) これらの機能強化により、データの準備がどのように簡単かつ効率的に行われるかを強調します。
新機能の紹介
このセクションでは、最適なデータ準備のための SageMaker Data Wrangler の新機能について説明します。
ML 推論のための SageMaker Autopilot による S3 マニフェスト ファイルのサポート
SageMaker Data Wrangler は、 統一されたデータ準備とモデル トレーニング 経験 Amazon SageMakerオートパイロット わずか数クリックで。 SageMaker Autopilot を使用すると、データ フローで変換したデータのモデルを自動的にトレーニング、調整、デプロイできます。
このエクスペリエンスは、S3 マニフェスト ファイルのサポートによりさらに簡素化されました。 S3 マニフェスト ファイルは、S3 バケットに保存されているオブジェクト (ファイル) をリストしたテキスト ファイルです。 SageMaker Data Wrangler でエクスポートされたデータセットが非常に大きく、Amazon S3 で複数の部分のデータ ファイルに分割されている場合、SageMaker Data Wrangler はこれらすべてのデータ ファイルを表すマニフェスト ファイルを S3 に自動的に作成します。 この生成されたマニフェスト ファイルを SageMaker Data Wrangler の SageMaker Autopilot UI で使用して、トレーニング用にすべてのパーティション化されたデータを取得できるようになりました。
この機能がリリースされる前は、SageMaker Data Wrangler から準備されたデータでトレーニングされた SageMaker Autopilot モデルを使用する場合、特にデータセットが非常に大きい場合、選択できるデータ ファイルは XNUMX つだけであり、データセット全体を表していない可能性がありました。 この新しいマニフェスト ファイル エクスペリエンスを使用すると、データセットのサブセットに限定されません。 マニフェスト ファイルを使用してすべてのデータを表す SageMaker Autopilot で ML モデルを構築し、それを ML 推論と運用環境のデプロイメントに使用できます。 この機能は、SageMaker Autopilot を使用した ML モデルのトレーニングを簡素化し、データ処理ワークフローを合理化することで、運用効率を向上させます。
生成されたアーティファクトでの推論フローのサポートを追加しました
お客様は、ワンホット エンコーディング、PCA、欠損値の代入など、モデル トレーニング データに適用したデータ変換を取得し、それらのデータ変換を運用環境のリアルタイム推論またはバッチ推論に適用したいと考えています。 これを行うには、SageMaker モデルによって使用される SageMaker Data Wrangler 推論アーティファクトが必要です。
以前は、推論アーティファクトは、SageMaker Autopilot トレーニングにエクスポートするとき、または推論パイプライン ノートブックをエクスポートするときに UI からのみ生成できました。 これでは、SageMaker Data Wrangler フローを外部に取り込みたい場合に柔軟性が提供されませんでした。 Amazon SageMakerスタジオ 環境。 SageMaker Data Wrangler 処理ジョブを通じて、互換性のあるフロー ファイルの推論アーティファクトを生成できるようになりました。 これにより、コードファースト MLOps ペルソナ向けの SageMaker Data Wrangler フローを使用したプログラムによるエンドツーエンド MLOps が可能になるだけでなく、UI からジョブを作成することで推論アーティファクトを取得するための直感的なノーコード パスも可能になります。
データ準備の合理化
JSON は、最新のデータ エコシステムにおけるデータ交換に広く採用されている形式です。 SageMaker Data Wrangler と JSON 形式の統合により、変換とクリーニングのために JSON データをシームレスに処理できるようになります。 JSON のネイティブ サポートを提供することにより、SageMaker Data Wrangler は構造化データおよび半構造化データを扱うプロセスを簡素化し、貴重な洞察を抽出してデータを効率的に準備できるようにします。 SageMaker Data Wrangler は、バッチ推論とリアルタイム推論の両方のエンドポイント展開で JSON 形式をサポートするようになりました。
ソリューションの概要
このユースケースでは、サンプルを使用します Amazonカスタマーレビューデータセット SageMaker Autopilot を使用して新しい ML モデルを構築するための運用作業を SageMaker Data Wrangler がどのように簡素化できるかを示します。 Amazon カスタマー レビュー データセットには、142.8 年 1996 月から 2014 年 XNUMX 月までの XNUMX 億 XNUMX 万件のレビューを含む、Amazon からの製品レビューとメタデータが含まれています。
大まかに言うと、SageMaker Data Wrangler を使用してこの大規模なデータセットを管理し、次のアクションを実行します。
- サンプルだけでなくすべてのデータセットを使用して、SageMaker Autopilot で ML モデルを開発します。
- SageMaker Data Wrangler によって生成された推論アーティファクトを使用してリアルタイム推論パイプラインを構築し、入力と出力に JSON 形式を使用します。
SageMaker Autopilot による S3 マニフェスト ファイルのサポート
SageMaker Data Wrangler を使用して SageMaker Autopilot 実験を作成する場合、以前は 3 つの CSV または Parquet ファイルしか指定できませんでした。 SXNUMX マニフェスト ファイルも使用できるようになり、SageMaker Autopilot の実験に大量のデータを使用できるようになりました。 SageMaker Data Wrangler は、入力データ ファイルをいくつかの小さなファイルに自動的に分割し、SageMaker Autopilot 実験で使用できるマニフェストを生成して、小さなサンプルだけでなく対話型セッションからすべてのデータを取り込みます。
次の手順を完了します。
- Amazon カスタマー レビュー データを CSV ファイルから SageMaker Data Wrangler にインポートします。 データをインポートするときは、必ずサンプリングを無効にしてください。
- データを正規化する変換を指定します。 この例では、SageMaker Data Wrangler の組み込み変換を使用して、記号を削除し、すべてを小文字に変換します。
- 選択する 列車モデル トレーニングを開始します。
SageMaker Autopilot を使用してモデルをトレーニングするために、SageMaker はデータを S3 バケットに自動的にエクスポートします。 このような大規模なデータセットの場合、ファイルは自動的に小さなファイルに分割され、小さなファイルの場所を含むマニフェストが生成されます。
- まず、入力データを選択します。
以前は、SageMaker Data Wrangler には、SageMaker Autopilot で使用するマニフェスト ファイルを生成するオプションがありませんでした。 本日、マニフェスト ファイルのサポートのリリースにより、SageMaker Data Wrangler はマニフェスト ファイルを Amazon S3 に自動的にエクスポートし、SageMaker Autopilot トレーニングの S3 の場所にマニフェスト ファイルの S3 の場所を事前に入力し、マニフェスト ファイルのオプションを次のように切り替えます。 はい。 マニフェスト ファイルを生成または使用するための作業は必要ありません。
- 予測するモデルのターゲットを選択して実験を構成します。
- 次にトレーニング方法を選択します。 この場合、選択するのは、 自動応答オプション そして、SageMaker Autopilot がデータセットのサイズに基づいて最適なトレーニング方法を決定します。
- 展開設定を指定します。
- 最後に、ジョブ構成を確認し、トレーニングのために SageMaker Autopilot 実験を送信します。 SageMaker Autopilot が実験を完了すると、トレーニング結果を表示して最適なモデルを探索できます。
マニフェスト ファイルのサポートのおかげで、データのサブセットだけでなく、データセット全体を SageMaker Autopilot 実験に使用できます。
SageMaker Data Wrangler での SageMaker Autopilot の使用の詳細については、以下を参照してください。 Amazon SageMaker Data Wrangler と Amazon SageMaker Autopilot を使用して、データの準備とモデルのトレーニングを統合しました。
SageMaker 処理ジョブから推論アーティファクトを生成する
ここで、SageMaker Data Wrangler UI と SageMaker Data Wrangler ノートブックの両方を通じて推論アーティファクトを生成する方法を見てみましょう。
SageMaker データ ラングラー UI
このユースケースでは、UI を通じてデータを処理し、その結果得られたデータを使用して SageMaker コンソールを通じてモデルをトレーニングおよびデプロイしたいと考えています。 次の手順を実行します。
- 前のセクションで作成したデータ フローを開きます。
- 最後の変換の横にあるプラス記号を選択し、 宛先を追加、選択して アマゾンS3。 これは、処理されたデータが保存される場所になります。
- 選択する ジョブを作成.
- 選択 推論アーティファクトを生成する 推論パラメーター セクションで推論アーティファクトを生成します。
- [推論アーティファクト名] に、推論アーティファクトの名前を入力します (ファイル拡張子は .tar.gz です)。
- [推論出力ノード] に、トレーニング データに適用される変換に対応する宛先ノードを入力します。
- 選択する ジョブの構成.
- ジョブ構成のパスを入力します。 フローファイルのS3の場所。 というフォルダー
data_wrangler_flows
がこの場所に作成され、推論アーティファクトがこのフォルダーにアップロードされます。 アップロード場所を変更するには、別の S3 場所を設定します。 - 他のすべてのオプションはデフォルトのままにして、 創造する 処理ジョブを作成します。
処理ジョブにより、tarball (.tar.gz)
推論に使用できるようにする新しく追加された推論セクションを含む、変更されたデータ フロー ファイルが含まれています。 推論ソリューションをデプロイするときに SageMaker モデルにアーティファクトを提供するには、推論アーティファクトの S3 URI (Uniform Resource Identifier) が必要です。 URI は次の形式になります。{Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz
. - これらの値を事前にメモしていなかった場合は、処理ジョブへのリンクを選択して、関連する詳細を見つけることができます。 この例では、URI は次のとおりです。
s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
- の値をコピーします 画像処理中; モデルを作成するときにもこの URI が必要です。
- この URI を使用して、SageMaker コンソール上で SageMaker モデルを作成できるようになりました。これは、後でエンドポイントまたはバッチ変換ジョブにデプロイできます。
- モデル設定¸ モデル名を入力し、IAM ロールを指定します。
- コンテナー入力オプション選択 モデルアーティファクトと推論画像の場所を提供します.
- 推論コード画像の場所、処理画像の URI を入力します。
- モデルアーティファクトの場所、推論アーティファクト URI を入力します。
- さらに、データにトレーニングされた ML モデルによって予測されるターゲット列がある場合は、その列の名前を以下で指定します。 環境変数、と
INFERENCE_TARGET_COLUMN_NAME
as キー 列名は次のようになります 値. - を選択してモデルの作成を完了します。 モデルを作成する.
これで、エンドポイントまたはバッチ変換ジョブにデプロイできるモデルが完成しました。
SageMaker データ ラングラー ノートブック
処理ジョブから推論アーティファクトを生成するコードファーストのアプローチの場合、次を選択してコード例を見つけることができます。 輸出 ノードメニューで次のいずれかを選択します アマゾンS3, SageMakerパイプラインまたは SageMaker 推論パイプライン。 我々が選択しました SageMaker 推論パイプライン この例では、
このノートブックには、次のタイトルのセクションがあります プロセッサーの作成 (これは SageMaker Pipelines ノートブックでも同じですが、Amazon S3 ノートブックでは同等のコードが ジョブ構成 セクション)。 このセクションの最後には、と呼ばれる推論アーティファクトの構成があります。 inference_params
。 これには、UI で確認したのと同じ情報、つまり推論アーティファクト名と推論出力ノードが含まれています。 これらの値は事前に入力されますが、変更することができます。 さらに次のパラメータがあります。 use_inference_params
に設定する必要があります True
処理ジョブでこの構成を使用するには。
さらに下には、というタイトルのセクションがあります パイプラインのステップを定義するここで、 inference_params
設定はジョブ引数のリストに追加され、SageMaker Data Wrangler 処理ステップの定義に渡されます。 Amazon S3 ノートブックでは、 job_arguments
の直後に定義されます ジョブ構成 のセクションから無料でダウンロードできます。
これらの単純な構成では、このノートブックによって作成された処理ジョブは、フロー ファイル (ノートブックで前に定義したもの) と同じ S3 の場所に推論アーティファクトを生成します。 この S3 の場所をプログラムで決定し、このアーティファクトを使用して SageMaker モデルを作成できます。 SageMaker Python SDK、これは SageMaker Inference Pipeline ノートブックで実証されています。
同じアプローチは、SageMaker Data Wrangler 処理ジョブを作成する任意の Python コードに適用できます。
推論中の入出力に対する JSON ファイル形式のサポート
Web サイトやアプリケーションでは、さまざまなプログラミング言語で情報を解析しやすいように、API のリクエスト/レスポンスとして JSON を使用するのが非常に一般的です。
以前は、トレーニングされたモデルを取得した後は、SageMaker Data Wrangler 推論パイプラインの入力形式として CSV を介してのみ操作できました。 現在、JSON を入力および出力形式として使用できるため、SageMaker Data Wrangler 推論コンテナと対話する際の柔軟性が向上します。
推論パイプライン ノートブックでの入出力に JSON を使用するには、次の手順を実行します。
- ペイロードを定義します。
ペイロードごとに、モデルはインスタンスという名前のキーを期待します。 値はオブジェクトのリストであり、それぞれが独自のデータ ポイントです。 オブジェクトにはフィーチャと呼ばれるキーが必要で、値はモデルに送信される単一のデータ ポイントのフィーチャである必要があります。 6 回のリクエストで複数のデータ ポイントを送信できます。リクエストあたりの合計サイズは最大 XNUMX MB です。
次のコードを参照してください。
- 特定します
ContentType
asapplication/json
. - モデルにデータを提供し、JSON 形式で推論を受け取ります。
見る 推論用の一般的なデータ形式 サンプルの入力および出力 JSON の例については、
クリーンアップ
SageMaker Data Wrangler の使用が終了したら、追加料金の発生を避けるために、SageMaker Data Wrangler が実行されているインスタンスをシャットダウンすることをお勧めします。 SageMaker Data Wrangler アプリと関連するインスタンスをシャットダウンする方法については、を参照してください。 データラングラーをシャットダウンする.
まとめ
S3 マニフェスト ファイルのサポート、推論機能、JSON 形式の統合などの SageMaker Data Wrangler の新機能は、データ準備の運用エクスペリエンスを変革します。 これらの機能強化により、データのインポートが合理化され、データ変換が自動化され、JSON データの操作が簡素化されます。 これらの機能を使用すると、運用効率を向上させ、手作業を軽減し、データから貴重な洞察を簡単に抽出できます。 SageMaker Data Wrangler の新機能のパワーを活用し、データ準備ワークフローの可能性を最大限に引き出します。
SageMaker Data Wrangler の使用を開始するには、次の最新情報を確認してください。 SageMaker Data Wrangler 製品ページ.
著者について
ムニッシュ ダブラ アマゾン ウェブ サービス (AWS) のプリンシパル ソリューション アーキテクトです。 彼の現在の焦点分野は、AI/ML と可観測性です。 彼は、スケーラブルな分散システムの設計と構築に強い経歴を持っています。 彼は、顧客が AWS でビジネスを革新し変革できるよう支援することに喜びを感じています。 リンクトイン: /ムダブラ
パトリック・リン は、Amazon SageMakerDataWranglerのソフトウェア開発エンジニアです。 彼は、Amazon SageMakerDataWranglerを実稼働MLワークフローのナンバーワンのデータ準備ツールにすることに取り組んでいます。 仕事以外では、彼が読書をしたり、音楽を聴いたり、友達と会話したり、教会で奉仕したりしているのを見つけることができます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/
- :持っている
- :は
- :not
- :どこ
- $UP
- 100
- 1996
- 2014
- 7
- 8
- 9
- a
- 行動
- 追加されました
- NEW
- さらに
- 採択
- 後
- AI / ML
- すべて
- 許可
- ことができます
- また
- Amazon
- アマゾンセージメーカー
- Amazon SageMakerオートパイロット
- AmazonSageMakerデータラングラー
- Amazon Webサービス
- Amazon Webサービス(AWS)
- 金額
- an
- および
- どれか
- API
- アプリ
- 適用された
- 申し込む
- アプローチ
- です
- エリア
- 引数
- AS
- 関連する
- At
- 自動化する
- 自動的に
- 避ける
- AWS
- 背景
- ベース
- BE
- になる
- さ
- BEST
- ビッグ
- 両言語で
- ボトム
- ブレーク
- ビルド
- 建物
- 内蔵
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼ばれます
- 缶
- 機能
- 場合
- 変化する
- 課金
- チェック
- 選択する
- 選択する
- 教会
- クリーニング
- コード
- コラム
- コミットした
- コマンドと
- 互換性のあります
- コンプリート
- 完了
- 領事
- 消費
- コンテナ
- 含まれています
- 会話
- 対応する
- 可能性
- 作ります
- 作成した
- 作成します。
- 作成
- 重大な
- 電流プローブ
- 顧客
- Customers
- データ
- データ交換
- データポイント
- データの準備
- データ処理
- データ駆動型の
- データセット
- 中
- 決めます
- デフォルト
- 定義済みの
- 定義
- 掘り下げる
- 実証
- 展開します
- 展開する
- 展開
- 設計
- 設計
- デスティネーション
- 細部
- 決定する
- 開発
- 異なります
- 話し合います
- 配布
- 分散システム
- do
- ダウン
- 間に
- 各
- 前
- 緩和する
- 容易
- 簡単に
- 生態系
- 効率
- 効率的な
- 効率良く
- 努力
- どちら
- 受け入れる
- 可能
- 有効にする
- 端から端まで
- エンドポイント
- エンジニア
- エンジニアリング
- 高めます
- 強化
- 強化
- 入力します
- 全体
- 環境
- 同等の
- 特に
- EVER
- あらゆる
- 毎日
- すべてのもの
- 例
- 例
- 交換
- 期待して
- 体験
- 実験
- 実験
- 探査
- 探る
- export
- 輸出
- エキス
- 特徴
- 特徴
- 少数の
- File
- もう完成させ、ワークスペースに掲示しましたか?
- 柔軟性
- フロー
- 流れ
- フォーカス
- フォロー中
- フォーム
- 形式でアーカイブしたプロジェクトを保存します.
- 友達
- から
- フル
- さらに
- 生成する
- 生成された
- 取得する
- 大いに
- 持っていました
- ハンドル
- 持ってる
- 持って
- he
- 助け
- ハイ
- 強調表示
- 彼に
- 彼の
- 認定条件
- How To
- HTML
- HTTPS
- i
- 同一の
- 識別子
- if
- 画像
- 直ちに
- import
- インポート
- 改善します
- in
- 含ま
- 含めて
- 情報
- 革新します
- 洞察
- 説明書
- 統合
- 意図された
- 対話
- 相互作用
- 相互作用的
- インタフェース
- に
- 直観的な
- IT
- ITS
- JavaScriptを
- ジョブ
- JPG
- JSON
- 7月
- ただ
- キー
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 姓
- 後で
- 最新の
- 起動する
- 学習
- う
- レベル
- ような
- 限定的
- LINK
- リスト
- 耳を傾ける
- リスト
- 場所
- 見て
- 機械
- 機械学習
- make
- 作成
- 管理します
- マニュアル
- 五月..
- メニュー
- 方法
- かもしれない
- 百万
- 分
- 行方不明
- ML
- MLOps
- モデル
- モダン
- 修正されました
- 他には?
- もっと効率的
- の試合に
- 音楽を聴く際のスピーカーとして
- しなければなりません
- 名
- 名前付き
- すなわち
- ネイティブ
- 必要
- 必要
- ニーズ
- 新作
- 新しい特徴
- 新しく
- 次の
- いいえ
- ノート
- 今
- 数
- オブジェクト
- オブジェクト
- of
- on
- ONE
- の
- オペレーショナル
- 最適な
- 最適化
- オプション
- オプション
- or
- その他
- 私たちの
- でる
- 出力
- 外側
- 自分の
- パラメーター
- パラメータ
- 渡された
- path
- 以下のために
- 実行する
- 選ぶ
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- さらに
- ポイント
- ポイント
- ポスト
- 潜在的な
- 電力
- 予測する
- 予測
- 準備
- 準備
- 準備
- かなり
- 前に
- 校長
- プロセス
- 処理済み
- 処理
- プロダクト
- 商品レビュー
- 生産
- プログラム的な
- プログラミング
- プログラミング言語
- プロジェクト
- 提供します
- 提供
- Python
- リーディング
- への
- 受け取ります
- 推奨する
- 減らします
- 軽減
- リリース
- 関連した
- 削除します
- 表す
- 表します
- 要求
- 必要とする
- リソースを追加する。
- 結果として
- 結果
- レビュー
- レビュー
- 右
- 職種
- runs
- s
- セージメーカー
- SageMaker の推論
- SageMakerパイプライン
- 同じ
- 見ました
- ド電源のデ
- シームレス
- シームレス
- セクション
- 選択
- 選択
- サービス
- サービング
- セッション
- セッションに
- 設定
- いくつかの
- すべき
- 表示する
- シャットダウン
- 符号
- 簡単な拡張で
- 簡略化されました
- 簡素化する
- 単純化
- サイズ
- 小さい
- より小さい
- So
- ソフトウェア
- ソフトウェア開発
- 溶液
- ソリューション
- 緊張
- 特に
- split
- start
- 開始
- 手順
- ステップ
- ストレージ利用料
- 保存され
- 流線
- 合理化
- 強い
- 構造化された
- 提出する
- 提出された
- そのような
- サポート
- サポート
- 確か
- システム
- 取る
- 取り
- ターゲット
- それ
- 情報
- アプリ環境に合わせて
- その後
- そこ。
- ボーマン
- この
- それらの
- 介して
- 時間
- タイトル
- 〜へ
- 今日
- あまりに
- ツール
- 豊富なツール群
- トータル
- トレーニング
- 訓練された
- トレーニング
- 最適化の適用
- 変換
- 変換
- 変換
- トランスフォーム
- Twice
- ui
- 下
- アンロック
- アップロード
- つかいます
- 使用事例
- 中古
- 貴重な
- 値
- 価値観
- 非常に
- 、
- 詳しく見る
- 可視化
- 欲しいです
- wanted
- we
- ウェブ
- Webサービス
- ウェブサイト
- ウィークス
- WELL
- いつ
- which
- 広く
- 意志
- 仕事
- ワークフロー
- ワークフロー
- ワーキング
- You
- あなたの
- ゼファーネット