Amazon SageMakerDataWranglerを使用してデータのランダムで層化されたサンプルを作成する

プラトン再発行

フォロワー： 0

この投稿では、XNUMXつのサンプリング手法について説明します。 AmazonSageMakerデータラングラーそのため、データの処理ワークフローをすばやく作成できます。特定の要件に基づいてデータをサンプリングするのに役立つ、ランダムサンプリングと層化サンプリングの両方の手法について説明します。

Data Wranglerは、機械学習（ML）用のデータの集約と準備にかかる時間を数週間から数分に短縮します。データ準備と特徴エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから完了することができます。データラングラーのデータ選択ツールを使用すると、さまざまなデータソースから必要なデータを選択し、ワンクリックでインポートできます。 Data Wranglerには300を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、機能をすばやく正規化、変換、および組み合わせることができます。データラングラーの視覚化テンプレートを使用すると、これらの変換が意図したとおりに完了したことをすばやくプレビューして確認できます。 Amazon SageMakerスタジオ、MLの最初の完全統合開発環境（IDE）。データが準備されたら、完全に自動化されたMLワークフローを構築できます。 AmazonSageMakerパイプラインで再利用するためにそれらを保存します Amazon SageMaker フィーチャーストア.

サンプリングとは何ですか、それはどのように役立ちますか

統計分析では、観測値のセット全体は、人口。データを操作する場合、母集団からのすべての観測値を測定することは、多くの場合、計算上実行可能ではありません。 統計的サンプリング 母集団からサブセットを選択することにより、データを理解できるようにする手順です。

サンプリングは、実用性と使いやすさのためにある程度の精度を犠牲にする実用的なソリューションを提供します。サンプルが母集団全体を適切に表すようにするために、サンプリング戦略を採用できます。データラングラーは、最も一般的なXNUMXつの戦略をサポートしています。 無作為抽出 および 層化抽出法.

無作為抽出

大規模なデータセットがある場合、そのデータセットでの実験には時間がかかる場合があります。データラングラーはランダムサンプリングを提供するため、データを効率的に処理および視覚化できます。たとえば、ある時間枠内の顧客の平均購入数を計算したり、加入者の離職率を計算したりすることができます。ランダムサンプルを使用して、これらのメトリックの近似値を視覚化できます。

データセットからランダムなサンプルが選択されるため、各要素が同じ確率で選択されます。この操作は、大規模なデータセットに適した効率的な方法で実行されるため、返されるサンプルサイズは、要求されたサイズとほぼ同じであり、必ずしも要求されたサイズと同じではありません。

データセットを理解するためにすばやく近似計算を実行する場合は、ランダムサンプリングを使用できます。サンプルサイズが大きくなると、ランダムサンプルはデータセット全体をより適切に近似できますが、すべてのデータポイントを含めない限り、ランダムサンプルにすべての外れ値とエッジケースが含まれない場合があります。データセット全体をインタラクティブに準備する場合は、より大きなインスタンスタイプに切り替えることもできます。

原則として、ランダムサンプルを使用して母平均を計算する際のサンプリングエラーは、サンプルが大きくなるにつれて0になる傾向があります。サンプルサイズが大きくなると、サンプルサイズの平方根の逆数として誤差が減少します。持ち帰りは、サンプルが大きいほど、近似が良くなります。

層化抽出法

場合によっては、人口を階層、または住所の地理的位置、曲の発行年、収入の税額控除など、相互に排他的なバケットに分割できます。ランダムサンプリングは最も一般的なサンプリング手法ですが、母集団で一部の層が一般的でない場合は、データラングラーで層化サンプリングを使用して、各層がサンプルで比例的に表されるようにすることができます。これは、サンプリングエラーを減らし、実験中にエッジケースを確実にキャプチャするのに役立つ場合があります。

現実の世界では、不正なクレジットカード取引はまれなイベントであり、通常、データの1％未満を占めます。ランダムにサンプリングする場合、サンプルに不正なトランザクションがほとんどまたはまったく含まれていないことは珍しくありません。その結果、モデルをトレーニングする場合、正確なモデルを学習するには不正な例が少なすぎます。層化抽出法を使用して、不正取引を比例代表することができます。

層化サンプリングでは、サンプル内の各層のサイズは、母集団内の層のサイズに比例します。これは、指定した列に基づいてデータを層に分割し、各層から正しい比率でランダムなサンプルを選択し、それらのサンプルを母集団の層化サンプルに結合することで機能します。

層化抽出は、データ内のさまざまなグループが互いにどのように比較されるかを理解し、各グループから適切な表現を確実に取得したい場合に便利な手法です。

AmazonS3からインポートする際のランダムサンプリング

このセクションでは、不正検出システムからの不正イベントと非不正イベントの両方で構成されるデータセットを使用したランダムサンプリングを使用します。あなたはできるダウンロードこの投稿に沿ってフォローするデータセット（CC4.0国際帰属ライセンス).

この記事の執筆時点では、からデータセットをインポートできます Amazon シンプルストレージサービス（Amazon S3）、アマゾンアテナ, Amazonレッドシフト、およびスノーフレーク。私たちのデータセットは非常に大きく、1万行が含まれています。この場合、データラングラー内でのインタラクティブな実験のために、AmazonS1,0000からのインポート時に3行をサンプリングします。

SageMaker Studioを開き、新しいデータラングラーフローを作成します。
インポート日、選択する アマゾンS3.
インポートするデータセットを選択します。
詳細ペインで、データセット名とファイルタイプを入力します。
サンプリング、選択する ランダム.
サンプルサイズ、入る 10000.
選択する インポート データセットをデータラングラーにロードします。

データラングラーのデータフローページで、XNUMXつの異なるステップを視覚化できます。最初のステップは、定義したサンプリング戦略に基づいてサンプルデータセットをロードすることを示しています。データがロードされた後、DataWranglerはデータセット内の各列のデータ型の自動検出を実行します。このステップは、すべてのデータセットにデフォルトで追加されます。

分析を追加することにより、データラングラーでランダムにサンプリングされたデータを確認できるようになりました。

横のプラス記号を選択します データ型 選択して分析.
分析タイプ¸選ぶ 散布図.
選択する 偉業_1 および 偉業_2 はどうかと言うと X軸および Y軸それぞれ。
カラーバイ、選択する 詐欺です.

データセットに慣れたら、ビジネス要件に従ってさらにデータ変換を行い、ML用のデータを準備します。

次のスクリーンショットでは、分析で不正（紺色）および非不正（水色）のトランザクションを観察できます。

次のセクションでは、層化抽出法を使用して、不正なケースが比例して選択されるようにする方法について説明します。

変換による層化サンプリング

データラングラーを使用すると、インポート時にサンプリングするだけでなく、変換を介してサンプリングすることもできます。このセクションでは、データセットをデータラングラーにインポートした後の変換による層化サンプリングの使用について説明します。

サンプリングを開始するには、 データフロー タブで、インポートされたデータセットの横にあるプラス記号を選択し、 変換を追加.

この記事の執筆時点では、データラングラーは 300の組み込み変換。組み込みのトランスフォームに加えて、PandasまたはPySparkで独自のカスタムトランスフォームを作成できます。

ノーザンダイバー社の 変換を追加 リストする、選択する サンプリング.

これで、制限、ランダム、層化のXNUMXつの異なるサンプリング戦略を使用できます。

サンプリング方法、選択する 層別化.
is_fraud 成層列としての列。
選択する プレビュー 変換をプレビューするには、 Add この変換を変換レシピへのステップとして追加します。

これで、データフローに追加されたサンプリングステップが反映されます。

これで、分析を追加して、ランダムにサンプリングされたデータを確認できます。

プラス記号を選択し、分析.
分析タイプ¸選ぶ ヒストグラム.
選択する 詐欺です 両方のための X軸および カラーバイ.
選択する プレビュー.

次のスクリーンショットでは、層化抽出によって選択された不正（紺色）と非不正（水色）のケースの内訳を、20％の不正と80％の非不正の正しい比率で観察できます。

まとめ

非常に大きなデータセットを使用する場合は、データを正しくサンプリングし、ビジネス要件を満たす適切なサンプリング戦略を選択することが不可欠です。サンプリングの有効性は、ビジネスの成果、データの可用性、分散など、さまざまな要因に依存します。この投稿では、データラングラーとその組み込みのサンプリング戦略を使用してデータを準備する方法について説明しました。

この機能は、SageMakerStudioが利用できるすべてのリージョンで今日から使用を開始できます。開始するには、次のWebサイトにアクセスしてください。 Amazon SageMaker Data Wrangler で ML データを準備する.

謝辞

著者は、この記事に関するレビューと貴重なフィードバックを提供してくれたJonathan Chung（Applied Scientist）に感謝します。

著者について

ベン・ハリス は、さまざまなドメインにわたるスケーラブルなデータパイプラインと機械学習ソリューションの設計、導入、保守の経験を持つソフトウェアエンジニアです。

ヴィシャル・カプール AWSAIのシニア応用科学者です。彼は、顧客がデータラングラーのデータを理解できるよう支援することに情熱を注いでいます。余暇には、マウンテンバイクやスノーボードを楽しんだり、家族と一緒に過ごしたりしています。

ミーナクシスンダラム・タンダヴァラヤン AWSのシニアAI/MLスペシャリストです。彼は、AIとMLの旅でハイテク戦略的アカウントを支援しています。彼はデータ駆動型AIに非常に情熱を注いでいます。

アジャイシャルマ はAmazonSageMakerのプリンシパルプロダクトマネージャーであり、データサイエンティスト向けのビジュアルデータ準備ツールであるデータラングラーに焦点を当てています。 AWSの前は、AjaiはMcKinsey and Companyのデータサイエンスエキスパートであり、世界中の主要な金融および保険会社のMLに焦点を当てたエンゲージメントを主導していました。 Ajaiはデータサイエンスに情熱を注いでおり、最新のアルゴリズムと機械学習技術を探求するのが大好きです。

タイムスタンプ： 2022 年 4 月 26 日

タイムスタンプ： 2024 年 2 月 6 日

Amazon SageMaker Data Wranglerを使用して、ランダムで層化されたデータのサンプルを作成します

プラトン再発行

サンプリングとは何ですか、それはどのように役立ちますか

無作為抽出

層化抽出法

AmazonS3からインポートする際のランダムサンプリング

変換による層化サンプリング

まとめ

謝辞

著者について

より多くの AWS機械学習

LoRA を使用して Amazon SageMaker で Whisper モデルを微調整する | アマゾンウェブサービス

Amazon Kendra を使用して Adobe Experience Manager コンテンツをインテリジェントに検索する | アマゾンウェブサービス

AWS でコンピュータービジョンパイプライン用の合成データを作成する

Amazon SageMaker Studio ノートブックをスケジュールされたノートブックジョブとして運用可能にする

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー