Amazon SageMaker Data Wrangler の新機能でデータ準備を最適化する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

データの準備はデータ駆動型プロジェクトにおいて重要なステップであり、適切なツールを使用することで業務効率を大幅に向上させることができます。 AmazonSageMakerデータラングラー機械学習 (ML) 用の表形式データと画像データを集約して準備するのにかかる時間を、数週間から数分に短縮します。 SageMaker Data Wrangler を使用すると、データ準備と特徴エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、探索、視覚化などのデータ準備ワークフローの各ステップを単一のビジュアルインターフェイスから完了できます。

この投稿では、操作エクスペリエンスを向上させるために特別に設計された SageMaker Data Wrangler の最新機能について説明します。のサポートを詳しく掘り下げますシンプルストレージサービス（Amazon S3）マニフェストファイル、対話型データフロー内の推論アーティファクト、およびシームレスな統合 JSON（JavaScriptオブジェクト表記）これらの機能強化により、データの準備がどのように簡単かつ効率的に行われるかを強調します。

新機能の紹介

このセクションでは、最適なデータ準備のための SageMaker Data Wrangler の新機能について説明します。

ML 推論のための SageMaker Autopilot による S3 マニフェストファイルのサポート

SageMaker Data Wrangler は、統一されたデータ準備とモデルトレーニング経験 Amazon SageMakerオートパイロットわずか数クリックで。 SageMaker Autopilot を使用すると、データフローで変換したデータのモデルを自動的にトレーニング、調整、デプロイできます。

このエクスペリエンスは、S3 マニフェストファイルのサポートによりさらに簡素化されました。 S3 マニフェストファイルは、S3 バケットに保存されているオブジェクト (ファイル) をリストしたテキストファイルです。 SageMaker Data Wrangler でエクスポートされたデータセットが非常に大きく、Amazon S3 で複数の部分のデータファイルに分割されている場合、SageMaker Data Wrangler はこれらすべてのデータファイルを表すマニフェストファイルを S3 に自動的に作成します。この生成されたマニフェストファイルを SageMaker Data Wrangler の SageMaker Autopilot UI で使用して、トレーニング用にすべてのパーティション化されたデータを取得できるようになりました。

この機能がリリースされる前は、SageMaker Data Wrangler から準備されたデータでトレーニングされた SageMaker Autopilot モデルを使用する場合、特にデータセットが非常に大きい場合、選択できるデータファイルは XNUMX つだけであり、データセット全体を表していない可能性がありました。この新しいマニフェストファイルエクスペリエンスを使用すると、データセットのサブセットに限定されません。マニフェストファイルを使用してすべてのデータを表す SageMaker Autopilot で ML モデルを構築し、それを ML 推論と運用環境のデプロイメントに使用できます。この機能は、SageMaker Autopilot を使用した ML モデルのトレーニングを簡素化し、データ処理ワークフローを合理化することで、運用効率を向上させます。

生成されたアーティファクトでの推論フローのサポートを追加しました

お客様は、ワンホットエンコーディング、PCA、欠損値の代入など、モデルトレーニングデータに適用したデータ変換を取得し、それらのデータ変換を運用環境のリアルタイム推論またはバッチ推論に適用したいと考えています。これを行うには、SageMaker モデルによって使用される SageMaker Data Wrangler 推論アーティファクトが必要です。

以前は、推論アーティファクトは、SageMaker Autopilot トレーニングにエクスポートするとき、または推論パイプラインノートブックをエクスポートするときに UI からのみ生成できました。これでは、SageMaker Data Wrangler フローを外部に取り込みたい場合に柔軟性が提供されませんでした。 Amazon SageMakerスタジオ環境。 SageMaker Data Wrangler 処理ジョブを通じて、互換性のあるフローファイルの推論アーティファクトを生成できるようになりました。これにより、コードファースト MLOps ペルソナ向けの SageMaker Data Wrangler フローを使用したプログラムによるエンドツーエンド MLOps が可能になるだけでなく、UI からジョブを作成することで推論アーティファクトを取得するための直感的なノーコードパスも可能になります。

データ準備の合理化

JSON は、最新のデータエコシステムにおけるデータ交換に広く採用されている形式です。 SageMaker Data Wrangler と JSON 形式の統合により、変換とクリーニングのために JSON データをシームレスに処理できるようになります。 JSON のネイティブサポートを提供することにより、SageMaker Data Wrangler は構造化データおよび半構造化データを扱うプロセスを簡素化し、貴重な洞察を抽出してデータを効率的に準備できるようにします。 SageMaker Data Wrangler は、バッチ推論とリアルタイム推論の両方のエンドポイント展開で JSON 形式をサポートするようになりました。

ソリューションの概要

このユースケースでは、サンプルを使用します Amazonカスタマーレビューデータセット SageMaker Autopilot を使用して新しい ML モデルを構築するための運用作業を SageMaker Data Wrangler がどのように簡素化できるかを示します。 Amazon カスタマーレビューデータセットには、142.8 年 1996 月から 2014 年 XNUMX 月までの XNUMX 億 XNUMX 万件のレビューを含む、Amazon からの製品レビューとメタデータが含まれています。

大まかに言うと、SageMaker Data Wrangler を使用してこの大規模なデータセットを管理し、次のアクションを実行します。

サンプルだけでなくすべてのデータセットを使用して、SageMaker Autopilot で ML モデルを開発します。
SageMaker Data Wrangler によって生成された推論アーティファクトを使用してリアルタイム推論パイプラインを構築し、入力と出力に JSON 形式を使用します。

SageMaker Autopilot による S3 マニフェストファイルのサポート

SageMaker Data Wrangler を使用して SageMaker Autopilot 実験を作成する場合、以前は 3 つの CSV または Parquet ファイルしか指定できませんでした。 SXNUMX マニフェストファイルも使用できるようになり、SageMaker Autopilot の実験に大量のデータを使用できるようになりました。 SageMaker Data Wrangler は、入力データファイルをいくつかの小さなファイルに自動的に分割し、SageMaker Autopilot 実験で使用できるマニフェストを生成して、小さなサンプルだけでなく対話型セッションからすべてのデータを取り込みます。

次の手順を完了します。

Amazon カスタマーレビューデータを CSV ファイルから SageMaker Data Wrangler にインポートします。データをインポートするときは、必ずサンプリングを無効にしてください。
データを正規化する変換を指定します。この例では、SageMaker Data Wrangler の組み込み変換を使用して、記号を削除し、すべてを小文字に変換します。
選択する 列車モデル トレーニングを開始します。

データフロー - モデルのトレーニング

SageMaker Autopilot を使用してモデルをトレーニングするために、SageMaker はデータを S3 バケットに自動的にエクスポートします。このような大規模なデータセットの場合、ファイルは自動的に小さなファイルに分割され、小さなファイルの場所を含むマニフェストが生成されます。

データフロー - オートパイロット

まず、入力データを選択します。

以前は、SageMaker Data Wrangler には、SageMaker Autopilot で使用するマニフェストファイルを生成するオプションがありませんでした。本日、マニフェストファイルのサポートのリリースにより、SageMaker Data Wrangler はマニフェストファイルを Amazon S3 に自動的にエクスポートし、SageMaker Autopilot トレーニングの S3 の場所にマニフェストファイルの S3 の場所を事前に入力し、マニフェストファイルのオプションを次のように切り替えます。はい。マニフェストファイルを生成または使用するための作業は必要ありません。

自動操縦実験

予測するモデルのターゲットを選択して実験を構成します。
次にトレーニング方法を選択します。この場合、選択するのは、 自動応答オプション そして、SageMaker Autopilot がデータセットのサイズに基づいて最適なトレーニング方法を決定します。

オートパイロット実験を作成する

展開設定を指定します。
最後に、ジョブ構成を確認し、トレーニングのために SageMaker Autopilot 実験を送信します。 SageMaker Autopilot が実験を完了すると、トレーニング結果を表示して最適なモデルを探索できます。

自動操縦実験 - 完了

マニフェストファイルのサポートのおかげで、データのサブセットだけでなく、データセット全体を SageMaker Autopilot 実験に使用できます。

SageMaker Data Wrangler での SageMaker Autopilot の使用の詳細については、以下を参照してください。 Amazon SageMaker Data Wrangler と Amazon SageMaker Autopilot を使用して、データの準備とモデルのトレーニングを統合しました。

SageMaker 処理ジョブから推論アーティファクトを生成する

ここで、SageMaker Data Wrangler UI と SageMaker Data Wrangler ノートブックの両方を通じて推論アーティファクトを生成する方法を見てみましょう。

SageMaker データラングラー UI

このユースケースでは、UI を通じてデータを処理し、その結果得られたデータを使用して SageMaker コンソールを通じてモデルをトレーニングおよびデプロイしたいと考えています。次の手順を実行します。

前のセクションで作成したデータフローを開きます。
最後の変換の横にあるプラス記号を選択し、 宛先を追加、選択して アマゾンS3。これは、処理されたデータが保存される場所になります。
選択する ジョブを作成.
選択 推論アーティファクトを生成する 推論パラメーターセクションで推論アーティファクトを生成します。
[推論アーティファクト名] に、推論アーティファクトの名前を入力します (ファイル拡張子は .tar.gz です)。
[推論出力ノード] に、トレーニングデータに適用される変換に対応する宛先ノードを入力します。
選択する ジョブの構成.
ジョブ構成のパスを入力します。 フローファイルのS3の場所。というフォルダー data_wrangler_flows がこの場所に作成され、推論アーティファクトがこのフォルダーにアップロードされます。アップロード場所を変更するには、別の S3 場所を設定します。
他のすべてのオプションはデフォルトのままにして、 創造する 処理ジョブを作成します。

処理ジョブにより、 tarball (.tar.gz) 推論に使用できるようにする新しく追加された推論セクションを含む、変更されたデータフローファイルが含まれています。推論ソリューションをデプロイするときに SageMaker モデルにアーティファクトを提供するには、推論アーティファクトの S3 URI (Uniform Resource Identifier) が必要です。 URI は次の形式になります。 {Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz.
これらの値を事前にメモしていなかった場合は、処理ジョブへのリンクを選択して、関連する詳細を見つけることができます。この例では、URI は次のとおりです。 s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
の値をコピーします 画像処理中; モデルを作成するときにもこの URI が必要です。
この URI を使用して、SageMaker コンソール上で SageMaker モデルを作成できるようになりました。これは、後でエンドポイントまたはバッチ変換ジョブにデプロイできます。
モデル設定¸ モデル名を入力し、IAM ロールを指定します。
コンテナー入力オプション選択 モデルアーティファクトと推論画像の場所を提供します.
推論コード画像の場所、処理画像の URI を入力します。
モデルアーティファクトの場所、推論アーティファクト URI を入力します。
さらに、データにトレーニングされた ML モデルによって予測されるターゲット列がある場合は、その列の名前を以下で指定します。 環境変数、と INFERENCE_TARGET_COLUMN_NAME as キー列名は次のようになります値.
を選択してモデルの作成を完了します。 モデルを作成する.

これで、エンドポイントまたはバッチ変換ジョブにデプロイできるモデルが完成しました。

SageMaker データラングラーノートブック

処理ジョブから推論アーティファクトを生成するコードファーストのアプローチの場合、次を選択してコード例を見つけることができます。輸出ノードメニューで次のいずれかを選択します アマゾンS3, SageMakerパイプラインまたは SageMaker 推論パイプライン。我々が選択しました SageMaker 推論パイプライン この例では、

SageMaker 推論パイプライン

このノートブックには、次のタイトルのセクションがあります プロセッサーの作成 (これは SageMaker Pipelines ノートブックでも同じですが、Amazon S3 ノートブックでは同等のコードが ジョブ構成 セクション）。このセクションの最後には、と呼ばれる推論アーティファクトの構成があります。 inference_params。これには、UI で確認したのと同じ情報、つまり推論アーティファクト名と推論出力ノードが含まれています。これらの値は事前に入力されますが、変更することができます。さらに次のパラメータがあります。 use_inference_paramsに設定する必要があります True 処理ジョブでこの構成を使用するには。

推論構成

さらに下には、というタイトルのセクションがあります パイプラインのステップを定義するここで、 inference_params 設定はジョブ引数のリストに追加され、SageMaker Data Wrangler 処理ステップの定義に渡されます。 Amazon S3 ノートブックでは、 job_arguments の直後に定義されます ジョブ構成 のセクションから無料でダウンロードできます。

SageMaker パイプラインを作成する

これらの単純な構成では、このノートブックによって作成された処理ジョブは、フローファイル (ノートブックで前に定義したもの) と同じ S3 の場所に推論アーティファクトを生成します。この S3 の場所をプログラムで決定し、このアーティファクトを使用して SageMaker モデルを作成できます。 SageMaker Python SDK、これは SageMaker Inference Pipeline ノートブックで実証されています。

同じアプローチは、SageMaker Data Wrangler 処理ジョブを作成する任意の Python コードに適用できます。

推論中の入出力に対する JSON ファイル形式のサポート

Web サイトやアプリケーションでは、さまざまなプログラミング言語で情報を解析しやすいように、API のリクエスト/レスポンスとして JSON を使用するのが非常に一般的です。

以前は、トレーニングされたモデルを取得した後は、SageMaker Data Wrangler 推論パイプラインの入力形式として CSV を介してのみ操作できました。現在、JSON を入力および出力形式として使用できるため、SageMaker Data Wrangler 推論コンテナと対話する際の柔軟性が向上します。

推論パイプラインノートブックでの入出力に JSON を使用するには、次の手順を実行します。

ペイロードを定義します。

ペイロードごとに、モデルはインスタンスという名前のキーを期待します。値はオブジェクトのリストであり、それぞれが独自のデータポイントです。オブジェクトにはフィーチャと呼ばれるキーが必要で、値はモデルに送信される単一のデータポイントのフィーチャである必要があります。 6 回のリクエストで複数のデータポイントを送信できます。リクエストあたりの合計サイズは最大 XNUMX MB です。

次のコードを参照してください。

sample_record_payload = json.dumps
( { "instances":[ {"features":["This is the best", "I'd use this product twice a day every day if I could. it's the best ever"] } ] }
)

特定します ContentType as application/json.
モデルにデータを提供し、JSON 形式で推論を受け取ります。

見る推論用の一般的なデータ形式サンプルの入力および出力 JSON の例については、

クリーンアップ

SageMaker Data Wrangler の使用が終了したら、追加料金の発生を避けるために、SageMaker Data Wrangler が実行されているインスタンスをシャットダウンすることをお勧めします。 SageMaker Data Wrangler アプリと関連するインスタンスをシャットダウンする方法については、を参照してください。データラングラーをシャットダウンする.

まとめ

S3 マニフェストファイルのサポート、推論機能、JSON 形式の統合などの SageMaker Data Wrangler の新機能は、データ準備の運用エクスペリエンスを変革します。これらの機能強化により、データのインポートが合理化され、データ変換が自動化され、JSON データの操作が簡素化されます。これらの機能を使用すると、運用効率を向上させ、手作業を軽減し、データから貴重な洞察を簡単に抽出できます。 SageMaker Data Wrangler の新機能のパワーを活用し、データ準備ワークフローの可能性を最大限に引き出します。

SageMaker Data Wrangler の使用を開始するには、次の最新情報を確認してください。 SageMaker Data Wrangler 製品ページ.

著者について

ムニッシュダブラ アマゾンウェブサービス (AWS) のプリンシパルソリューションアーキテクトです。彼の現在の焦点分野は、AI/ML と可観測性です。彼は、スケーラブルな分散システムの設計と構築に強い経歴を持っています。彼は、顧客が AWS でビジネスを革新し変革できるよう支援することに喜びを感じています。リンクトイン: /ムダブラ

Amazon SageMaker Data Wrangler の新機能でデータ準備を最適化する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 パトリック・リン は、Amazon SageMakerDataWranglerのソフトウェア開発エンジニアです。彼は、Amazon SageMakerDataWranglerを実稼働MLワークフローのナンバーワンのデータ準備ツールにすることに取り組んでいます。仕事以外では、彼が読書をしたり、音楽を聴いたり、友達と会話したり、教会で奉仕したりしているのを見つけることができます。