Amazon SageMaker で合成データを使用して不正取引を強化する

プラトン再発行

フォロワー： 0

成功する機械学習 (ML) 詐欺モデルの開発とトレーニングには、大量の高品質データへのアクセスが必要です。利用可能なデータセットは、ML モデルを有効にトレーニングするのに十分な大きさではないか、偏りが十分でない場合があり、多大なコストと時間が必要になる場合があるため、このデータの調達は困難です。規制とプライバシーの要件により、企業組織内であってもデータの使用や共有がさらに妨げられます。機密データの使用とアクセスを承認するプロセスは、多くの場合、ML プロジェクトを遅らせたり脱線させたりします。または、合成データを生成して使用することで、これらの課題に取り組むことができます。

合成データは、規制リスクとコンプライアンス、調達の時間とコストに対処するために、元のデータセットのコンテンツとパターンを模倣する人為的に作成されたデータセットを表します。合成データジェネレーターは、実際のデータを使用して関連する特徴、相関関係、およびパターンを学習し、最初に取り込まれたデータセットの統計的品質に一致する必要な量の合成データを生成します。

合成データは、ラボ環境で使用されています XNUMX年以上; 市場には、商用および公共部門での採用が加速している有用性の証拠があります。ガートナー予測 2024 年までに、ML および分析ソリューションの開発に使用されるデータの 60% が合成的に生成され、合成データの使用は引き続き大幅に増加すると予測されています。

英国の規制機関である Financial Conduct Authority は、謝辞「データへのアクセスはイノベーションの触媒であり、合成金融データはイノベーションをサポートし、新規参入者が新しいソリューションの価値を開発、テスト、および実証できるようにする役割を果たします。」

Amazon SageMaker GroundTruth 現在サポートしています合成データの生成ラベル付けされた合成画像データの。このブログ投稿では、表形式の合成データの生成について説明します。単一テーブルやリレーショナルテーブルなどの構造化データ、および時系列データは、エンタープライズ分析で最も頻繁に使用されるタイプです。

これは XNUMX 部構成のブログ投稿です。パートXNUMXで合成データを作成し、パートXNUMXでその品質を評価しますパート2.

このブログ投稿では、オープンソースライブラリの使用方法を学習します。 ydata-合成 & AWS SageMaker ノートブック高精度の詐欺モデルをトレーニングするのに十分な詐欺トランザクションがない場合に、詐欺のユースケース用に表形式のデータを合成します。不正モデルをトレーニングする一般的なプロセスは、このセクションでカバーされています。役職.

ソリューションの概要

このチュートリアルの目的は、最適化されたアルゴリズムを使用して、非常に不均衡なクレジットカード詐欺データセットのマイノリティクラスを合成することです。敵対的生成ネットワーク (GAN) 呼ばれます WGAN-GP 元のデータのパターンと統計的特性を学習し、元のデータに似た合成データの無限のサンプルを作成します。このプロセスは、詐欺などのまれなイベントをアップサンプリングすることによって元のデータを強化したり、元のデータには存在しないエッジケースを生成したりするためにも使用できます。

によって公開されたクレジットカード詐欺データセットを使用します。 ULB、からダウンロードできます Kaggle. マイノリティクラスの合成データを生成すると、不均衡なデータセットに関連する問題に対処するのに役立ち、より正確なモデルの開発に役立ちます。

Amazon SageMaker や Amazon S3 など、クラウドリソースを使用するためのコストが発生する AWS のサービスを使用しています。

開発環境を整える

SageMaker は、モデルの構築、トレーニング、およびデプロイ用の管理された Jupyter ノートブックインスタンスを提供します。

受験資格：

SageMaker を実行するには、AWS アカウントが必要です。得られる開始 SageMaker を使って試す実践的なチュートリアル.

Jupyter Notebook の作業環境をセットアップする手順については、次を参照してください。 AmazonSageMakerNotebookインスタンスの使用を開始する.

ステップ 1: Amazon SageMaker インスタンスをセットアップする

AWS コンソールにサインインし、「SageMaker」を検索します。
選択 Studio.
選択 ノートブックインスタンス をクリックし、選択します ノートブックインスタンスを作成.
次のページから (次の図に示すように)、必要に応じて仮想マシン (VM) の構成を選択し、 ノートブックインスタンスを作成. GPU なしで 5 GB のデータを備えた ML 最適化 VM、Amazon Linux 3 を実行する ml.t2.medium、および Jupyter Lab 3 カーネルを使用したことに注意してください。
ノートブックインスタンスは、数分以内に使用できるようになります。
選択 JupyterLabを開く 打ち上げへ。
必要な仕様を備えた JupyterLab ができたので、合成ライブラリをインストールします。

pip install ydata-synthetic

ステップ 2: 実際のデータセットをダウンロードまたは抽出して合成データを作成する

参照データをダウンロードするここで行っているように手動で Kaggle から、または Kaggle アカウントを持っている場合は Kaggle API を介してプログラムで。このデータセットを調べると、「不正」クラスに含まれるデータが「非不正」クラスよりもはるかに少ないことがわかります。

このデータを機械学習予測に直接使用すると、モデルは常に「不正ではない」と予測することを学習する可能性があります。詐欺のケースはめったにないため、モデルは非詐欺のケースで簡単に精度が高くなります。ただし、この演習では不正事例を検出することが目的であるため、実際のデータに基づいてモデル化された合成データを使用して不正クラスの数を増やします。

JupyterLab でデータフォルダーを作成し、Kaggle データファイルをそこにアップロードします。これにより、SageMaker 以降のノートブック内のデータを使用できるようになります収納付きこれは、ノートブックをインスタンス化したときに指定したものです。

このデータセットは 144 MB です

次に、pandas ライブラリを介して標準コードを使用してデータを読み取ることができます。

import pandas as pd
data = pd.read_csv('./data/creditcard.csv')

不正検出データには、次のような特定の特性があります。

大規模なクラスの不均衡 (通常、非不正データポイントに向けて)。
プライバシー関連の懸念 (機密データの存在による)。
悪意のあるユーザーが、不正なトランザクションを監視するシステムによる検出を常に回避しようとしているという点で、ある程度のダイナミズム。
利用可能なデータセットは非常に大きく、多くの場合、ラベルが付けられていません。

データセットを調べたので、マイノリティクラス (クレジットカードデータセットの「詐欺」クラス) をフィルター処理し、必要に応じて変換を実行しましょう。ここからデータ変換を確認できますノート.

このマイノリティクラスのデータセットが合成され、元のデータセットに追加されると、データの不均衡に対処する、より大きな合成されたデータセットの生成が可能になります。より高い予測精度を達成するには、不正検出モデルのトレーニング新しいデータセットを使用します。

新しい不正データセットを合成しましょう。

ステップ 3: シンセサイザーをトレーニングしてモデルを作成する

SageMaker 内でデータをすぐに利用できるようになったので、合成 GAN モデルを機能させる時が来ました。

敵対的生成ネットワーク (GAN) には、次の XNUMX つの部分があります。

　 ジェネレータ もっともらしいデータを生成することを学びます。生成されたインスタンスは、ディスクリミネーターのネガティブトレーニングサンプルになります。

　 弁別器 ジェネレーターの偽のデータと実際のデータを区別することを学習します。ディスクリミネータは、信じがたい結果を生成するジェネレータにペナルティを課します。

トレーニングが開始されると、ジェネレーターは明らかに偽のデータを生成し、ディスクリミネーターはそれが偽物であることをすぐに学習します。トレーニングが進むにつれて、ジェネレーターはディスクリミネーターをだますことができる出力の生成に近づきます。最後に、ジェネレータのトレーニングがうまくいくと、弁別器は本物と偽物を見分ける能力が低下します。偽のデータを本物として分類し始め、精度が低下します。

ジェネレーターとディスクリミネーターはどちらもニューラルネットワークです。ジェネレーターの出力は、ディスクリミネーターの入力に直接接続されています。使って誤差逆伝播法、ディスクリミネーターの分類は、ジェネレーターがその重みを更新するために使用する信号を提供します。

ステップ 4: シンセサイザーからの合成データのサンプル

モデルを構築してトレーニングしたので、モデルにノイズを与えて必要なデータをサンプリングします。これにより、必要なだけ合成データを生成できます。

この場合、実際のデータの量と同じ量の合成データを生成します。これにより、ステップ 5 で同様のサンプルサイズを比較しやすくなります。

不正なトランザクションを含む行をサンプリングするオプションがあります。これを非合成の不正データと組み合わせると、「不正」クラスと「不正でない」クラスが均等に分布します。オリジナル Kaggleデータセット 492 件のトランザクションのうち 284,807 件の詐欺が含まれていたため、シンセサイザーから同じサンプルを作成しました。

# use the same shape as the real data
synthetic_fraud = synthesizer.sample(492)

データ拡張と呼ばれるプロセスで、不正なトランザクションを含む行をアップサンプリングするオプションがあります。これは、合成されていない不正データと組み合わせると、「不正」クラスと「非不正」クラスの均等な分布につながります。

ステップ 5: 合成データを実際のデータと比較して評価する

このステップはオプションですが、散布図を使用して、生成された合成データを実際のデータに対して定性的に視覚化し、評価することができます。

これにより、パラメーターの微調整、サンプルサイズの変更、その他の変換を行ってモデルを反復し、最も正確な合成データを生成することができます。この精度の性質は、常に合成の目的に依存します

以下の画像は、実際の不正と合成不正のデータポイントがトレーニングステップ全体でどのように類似しているかを示しています。これにより、合成データと実際のデータの間の類似性と、より多くのエポック (アルゴリズムを介したトレーニングデータセット全体の通過) を実行するにつれてそれがどのように改善されるかについて、質の高い検査が得られます。より多くのエポックを実行するにつれて、合成データパターンセットが元のデータに近づくことに注意してください。

ステップ6：クリーンアップ

最後に、予期しないコストを回避するために、合成が完了したらノートブックインスタンスを停止します。

まとめ

機械学習アルゴリズムおよびコーディングフレームワークとして急速に進化する、大規模な高品質データは、ML で最も希少なリソースです。高品質の合成データセットは、さまざまなタスクで使用できます。

このブログ投稿では、オープンソースライブラリを使用してデータセットを合成することの重要性を学びました。 WGAN-GP. これは活発な研究分野であり、GAN に関する何千もの論文が公開されており、何百もの名前付き GAN を実験することができます。リレーショナルテーブルや時系列データなど、特定のユースケース向けに最適化されたバリアントがあります。

この記事で使用したすべてのコードは、このにあります。ノート、そしてもちろん、このようなチュートリアルは SageMaker から入手できます。公式ドキュメントページ。

第二部この XNUMX 部構成のブログ投稿シリーズでは、忠実度、有用性、およびプライバシーの観点から合成データの品質を評価する方法について深く掘り下げます。

著者について

ファリス・ハダッド AABG Strategic Pursuits チームの Data & Insights Lead です。彼は、企業がデータ駆動型になるのを支援しています。

タイムスタンプ： 2022 年 12 月 16 日2022 年 12 月 17 日

より多くの AWS機械学習

SambaSafety はカスタム R ワークロードを自動化し、Amazon SageMaker と AWS Step Functions でドライバーの安全性を向上します。アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1848585

タイムスタンプ： 2023 年 6 月 16 日

AWS PlatoBlockchain Data IntelligenceのKubeflowを使用して、Kubernetesにスケーラブルな機械学習システムを構築してデプロイします。垂直検索。愛。

AWSのKubeflowを使用して、Kubernetesにスケーラブルな機械学習システムを構築してデプロイします

AWS機械学習

ソースノード： 1906007

タイムスタンプ： 2023 年 10 月 25 日

Amazon SageMaker の合成データを使用して不正取引を強化する

プラトン再発行

ソリューションの概要

開発環境を整える

受験資格：

ステップ 1: Amazon SageMaker インスタンスをセットアップする

ステップ 2: 実際のデータセットをダウンロードまたは抽出して合成データを作成する

ステップ 3: シンセサイザーをトレーニングしてモデルを作成する

ステップ 4: シンセサイザーからの合成データのサンプル

ステップ 5: 合成データを実際のデータと比較して評価する

ステップ6：クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon SageMaker での RStudio による並列データ処理

Amazon SageMaker の Hugging Face を使用した電子メール分類を通じてクライアントの成功管理を加速する | アマゾンウェブサービス

サーバーレス AWS Glue インタラクティブセッションを使用して、Amazon SageMaker Studio で大規模なデータを準備します

Amazon Forecast を使用して食品廃棄物を削減し、小売業の持続可能性と財務結果を改善する

人間によるレビューと BI の視覚化により、インテリジェントなドキュメント処理のためのビジネスルールをカスタマイズする

Amazon SageMaker 地理空間機能を使用したメタン放出点源の検出と高周波モニタリング | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー