外部グラフストレージを使用せずにディープグラフライブラリを使用して、GNN ベースのリアルタイム不正検出ソリューションを構築する

プラトン再発行

フォロワー： 0

不正行為の検出は、金融サービス、ソーシャルメディア、e コマース、ゲーム、およびその他の業界で適用される重要な問題です。この投稿では、リレーショナルグラフ畳み込みネットワーク (RGCN) モデルを使用して、トランスダクティブおよびインダクティブの両方の推論モードを通じてトランザクションが不正である可能性を予測する不正検出ソリューションの実装を紹介します。私たちの実装をアマゾンセージメーカー外部のグラフストレージやオーケストレーションを必要とせず、リアルタイムの不正検出ソリューションとしてエンドポイントを使用できるため、モデルの展開コストが大幅に削減されます。

不正検出のための完全マネージド型の AWS AI サービスを探している企業も使用できますアマゾン詐欺検出器を使用して、疑わしいオンライン決済を特定したり、新しいアカウント詐欺を検出したり、試用版やロイヤルティプログラムの悪用を防止したり、アカウント乗っ取りの検出を改善したりできます。

ソリューションの概要

次の図は、さまざまな種類の情報を含む金融取引ネットワークの例を示しています。各トランザクションには、デバイス識別子、Wi-Fi ID、IP アドレス、物理的な場所、電話番号などの情報が含まれています。さまざまなタイプのノードとエッジを含む異種グラフを通じて、トランザクションデータセットを表します。そして、不正検出問題は、この異種グラフ上のノード分類タスクとして処理されます。

RGCN グラフ構成図

グラフニューラルネットワーク (GNN) は、不正検出の問題への取り組みに大きな期待を寄せており、勾配ブーストデシジョンツリーやベンチマーキングデータセットでの完全に接続されたフィードフォワードネットワークなどの一般的な教師あり学習方法よりも優れています。典型的な不正検出のセットアップでは、トレーニングフェーズ中に、一連のラベル付きトランザクションで GNN モデルがトレーニングされます。各トレーニングトランザクションには、不正かどうかを示すバイナリラベルが付けられます。このトレーニング済みのモデルを使用して、推論段階で一連のラベル付けされていないトランザクションの中から不正なトランザクションを検出できます。推論には XNUMX つの異なるモードがあります: 伝達的推論と帰納的推論です (この記事の後半で詳しく説明します)。

RGCN のような GNN ベースのモデルは、トポロジー情報を利用して、グラフ構造とノードおよびエッジの機能の両方を組み合わせて、悪意のあるトランザクションと正当なトランザクションを区別する意味のある表現を学習できます。 RGCN は、異種グラフ埋め込みを介して、さまざまなタイプのノードとエッジ (関係) を効果的に表現することを学習できます。前の図では、各トランザクションはターゲットノードとしてモデル化されており、各トランザクションに関連付けられているいくつかのエンティティは、次のように非ターゲットノードタイプとしてモデル化されています。 ProductCD および P_emaildomain. ターゲットノードには数値およびカテゴリの特徴が割り当てられていますが、他のノードタイプには特徴がありません。 RGCN モデルは、非ターゲットノードタイプごとに埋め込みを学習します。ターゲットノードの埋め込みでは、畳み込み演算を使用して、その特徴と近傍埋め込みを使用してその埋め込みを計算します。この投稿の残りの部分では、GNN と RGCN という用語を同じ意味で使用します。

非ターゲットエンティティを機能として扱い、それらをワンホットエンコーディングするなどの代替戦略は、これらのエンティティのカーディナリティが大きいため、実行できないことが多いことに注意してください。逆に、それらをグラフエンティティとしてエンコードすると、GNN モデルはエンティティ関係で暗黙のトポロジを利用できます。たとえば、電話番号を既知の不正取引と共有する取引も、不正である可能性が高くなります。

GNN で採用されているグラフ表現は、その実装にいくらかの複雑さをもたらします。これは、モデルのトレーニング中に知られていないエンティティに対応する新しく追加されたノードを使用して、推論中にグラフ表現が拡張される可能性がある不正検出などのアプリケーションに特に当てはまります。この推論シナリオは通常、 誘導モード。対照的に、 伝達モード は、モデルのトレーニング中に構築されたグラフ表現が推論中に変更されないことを前提とするシナリオです。 GNN モデルは、多くの場合、逆伝播中にテストラベルをマスクしながら、トレーニングとテストの例を組み合わせたセットからグラフ表現を構築することにより、伝達モードで評価されます。これにより、グラフ表現が静的であることが保証され、GNN モデルは、推論中に新しいノードでグラフを拡張するための操作の実装を必要としません。残念ながら、現実世界の設定で不正なトランザクションを検出する場合、静的なグラフ表現を想定することはできません。したがって、不正検出用の GNN モデルを本番環境にデプロイする場合は、帰納的推論のサポートが必要です。

さらに、不正取引をリアルタイムで検出することは、特に違法行為を阻止するチャンスが XNUMX 回しかないビジネスケースでは非常に重要です。たとえば、不正なユーザーは、あるアカウントで一度だけ悪意を持って行動し、同じアカウントを二度と使用しない可能性があります。 GNN モデルのリアルタイム推論では、実装がさらに複雑になります。リアルタイムの推論をサポートするために、サブグラフ抽出操作を実装する必要があることがよくあります。サブグラフ抽出操作は、グラフ表現が大きく、グラフ全体で推論を実行すると法外にコストがかかる場合に、推論の待ち時間を短縮するために必要です。 RGCN モデルを使用したリアルタイム帰納的推論のアルゴリズムは、次のように実行されます。

トランザクションのバッチとトレーニング済みの RGCN モデルが与えられた場合、バッチのエンティティを使用してグラフ表現を拡張します。
それぞれのノードタイプの平均埋め込みベクトルを使用して、新しい非ターゲットノードの埋め込みベクトルを割り当てます。
によって誘導された部分グラフを抽出する k- バッチからターゲットノードの近隣をホップします。
サブグラフで推論を実行し、バッチのターゲットノードの予測スコアを返します。
新しく追加されたノードを削除して、グラフ表現をクリーンアップします (この手順により、モデルの推論に必要なメモリが一定に保たれます)。

この記事の主な貢献は、リアルタイム帰納的推論アルゴリズムを実装する RGCN モデルを提示することです。リアルタイムの不正検出ソリューションとして、当社の RGCN 実装を SageMaker エンドポイントにデプロイできます。当社のソリューションは、外部のグラフストレージやオーケストレーションを必要とせず、不正検出タスクの RGCN モデルの展開コストを大幅に削減します。このモデルは伝達推論モードも実装しているため、誘導モードと伝達モードでモデルのパフォーマンスを比較するための実験を実行できます。実験を含むモデルコードとノートブックには、 AWS の例の GitHub リポジトリ.

この投稿は投稿に基づいています Amazon SageMaker、Amazon Neptune、Deep Graph Library を使用して、GNN ベースのリアルタイムの不正検出ソリューションを構築する. 前回の投稿では、SageMaker を使用して RGCN ベースのリアルタイムの不正検出ソリューションを構築しました。アマゾン海王星、そしてそのディープグラフライブラリ (DGL)。以前のソリューションでは、必要な外部グラフストレージとして Neptune データベースを使用していました。 AWSラムダリアルタイム推論のオーケストレーション用であり、伝達モードでの実験のみが含まれていました。

この投稿で紹介した RGCN モデルは、DGL のみを依存関係として使用して、リアルタイム帰納的推論アルゴリズムのすべての操作を実装し、展開のための外部グラフストレージやオーケストレーションを必要としません。

最初に、ベンチマークデータセットの伝達モードと誘導モードで RGCN モデルのパフォーマンスを評価します。予想どおり、誘導モードでのモデルのパフォーマンスは、伝達モードよりもわずかに低くなります。ハイパーパラメータの効果についても研究しています k モデルのパフォーマンスについて。ハイパーパラメータ k リアルタイム推論アルゴリズムのステップ 3 でサブグラフを抽出するために実行されるホップ数を制御します。より高い値 k より大きなサブグラフが生成され、レイテンシが高くなりますが、推論のパフォーマンスが向上する可能性があります。そのため、タイミング実験を行って、リアルタイムアプリケーションの RGCN モデルの実現可能性を評価します。

データセット

私たちは、使用 IEEE-CIS不正データセット、前に使用されたものと同じデータセット役職. データセットには、バイナリ詐欺ラベル ( isFraud 桁）。データは、トランザクションと ID の XNUMX つのテーブルに分割されます。ただし、すべてのトランザクションレコードに対応する ID 情報があるわけではありません。上の XNUMX つのテーブルを結合します。 TransactionID これにより、合計 144,233 のトランザクションレコードが残ります。テーブルをトランザクションのタイムスタンプ ( TransactionDT 列) を作成し、時間で 80/20 の割合で分割して、トレーニングとテスト用にそれぞれ 115,386 と 28,847 のトランザクションを生成します。

データセットの詳細と、DGL の入力要件に合わせてフォーマットする方法については、次を参照してください。 Amazon SageMakerとDeep Graph Libraryを使用して異種ネットワークの不正を検出する.

グラフの構築

私たちは、使用 TransactionID ターゲットノードを生成するための列。次の列を使用して、11 種類の非ターゲットノードを生成します。

card1 　 card6
ProductCD
addr1 および addr2
P_emaildomain および R_emaildomain

ターゲットノードのカテゴリ特徴として 38 列を使用します。

M1 　 M9
DeviceType および DeviceInfo
id_12 　 id_38

ターゲットノードの数値的特徴として 382 列を使用します。

TransactionAmt
dist1 および dist2
id_01 　 id_11
C1 　 C14
D1 　 D15
V1 　 V339

トレーニングトランザクションから構築されたグラフには、217,935 のノードと 2,653,878 のエッジが含まれています。

ハイパーパラメータ

他のパラメータは、以前に報告されたパラメータと一致するように設定されています役職. 次のスニペットは、伝達モードと誘導モードでの RGCN モデルのトレーニングを示しています。

import pandas as pd
from fgnn.fraud_detector import FraudRGCN # overload default hyperparameters defined in FraudRGCN constructor
params = { "embedding_size": 64, "n_layers": 2, "n_epochs": 150, "n_hidden": 16, "dropout": 0.2, "weight_decay": 5e-05, "lr": 0.01
} # load train and test splits
df_train = pd.read_parquet('./data/train.parquet')
df_test = pd.read_parquet('./data/test.parquet') # train RGCN model in inductive mode
fd_ind = FraudRGCN()
fd_ind.train_fg(df_train, params=params) # train RGCN model in transductive mode
fd_trs = FraudRGCN()
# create boolean array to identify test examples
test_mask = [False]*len(df_train) + [True]*len(df_test)
# concatenate train and test examaples
df_combined = pd.concat([df_train, df_test], ignore_index=True) # test_mask must be passed in transductive mode, # so test labels are masked-out during back-propagation
fd.train_fg(df_combined, params=params, test_mask=test_mask) # predict on both models extracting subgraph with 2 k-hops
fraud_proba_ind = fd_ind.predict(df_test, k=2)
fraud_proba_trs = fd_trs.predict(df_test, k=2)

誘導対変換モード

誘導モードの場合は 10 回、伝達モードの場合は XNUMX 回の試行を行います。試行ごとに、RGCN モデルをトレーニングしてディスクに保存し、XNUMX 個のモデルを取得します。ホップ数を増やしながら、テスト例で各モデルを評価します (パラメーター k) 推論用のサブグラフを抽出するために使用、設定 k すべてのテスト例を一度に予測し、各試行の ROC AUC スコアを計算します。次のプロットは、AUC スコアの平均と 1% 信頼区間を示しています。

誘導モデルと変換モデルのパフォーマンス

トランスダクティブモードのパフォーマンスは、インダクティブモードよりもわずかに高いことがわかります。ために k= 2、誘導モードと変換モードの平均 AUC スコアは、それぞれ 0.876 と 0.883 です。これは、RGCN モデルが、テストセット内のものを含め、伝達モードですべてのエンティティノードの埋め込みを学習できるためです。対照的に、誘導モードでは、モデルはトレーニング例に存在するエンティティノードの埋め込みのみを学習できるため、推論中に一部のノードを平均値で埋める必要があります。同時に、伝達モードと誘導モードの間のパフォーマンスの低下は重要ではなく、誘導モードでも、RGCN モデルは 0.876 の AUC で良好なパフォーマンスを達成します。また、モデルのパフォーマンスが次の値では改善されないこともわかります。 k>2。これは、その設定を意味します k=2 は、推論中に十分に大きなサブグラフを抽出し、最適なパフォーマンスを実現します。この観察は、次の実験でも確認されています。

また、トランスダクティブモードの場合、モデルの AUC 0.883 は、以前に報告された対応する AUC 0.870 よりも高いことにも注意してください。役職. ターゲットノードの数値的およびカテゴリ的特徴としてより多くの列を使用します。これにより、AUCスコアが高くなることを説明できます。また、前回の投稿の実験は XNUMX 回の試行のみを行ったことにも注意してください。

小さなバッチでの推論

この実験では、小規模なバッチ推論設定で RGCN モデルを評価します。前の実験で誘導モードでトレーニングされた 28 つのモデルを使用します。フルバッチ推論とスモールバッチ推論の 1,000 つの設定で予測したときのこれらのモデルのパフォーマンスを比較します。完全なバッチ推論では、前の実験で行ったように、テストセット全体を予測します。小さなバッチの推論では、テストセットを同じサイズの XNUMX のバッチに分割し、各バッチで約 XNUMX のトランザクションを使用して、小さなバッチで予測します。の異なる値を使用して、両方の設定の AUC スコアを計算します。 k. 次のプロットは、フルおよびスモールバッチ推論設定の平均および 95% 信頼区間を示しています。

フルバッチとスモールバッチの帰納的モデルのパフォーマンス

小規模なバッチ推論のパフォーマンスは、次の場合に観察されます。 k=1 はフルバッチよりも低くなります。ただし、スモールバッチの推論パフォーマンスはフルバッチに匹敵します。 k>1。これは、小さなバッチで抽出されたはるかに小さなサブグラフに起因する可能性があります。サブグラフのサイズを、トレーニングトランザクションから構築されたグラフ全体のサイズと比較することで、これを確認します。グラフのサイズをノード数で比較します。ために k=1、小さなバッチ推論の平均サブグラフサイズは、トレーニンググラフの 2% 未満です。そして、完全なバッチ推論の場合 k=1、サブグラフサイズは 22% です。いつ k=2、小規模および完全なバッチ推論のサブグラフサイズは、それぞれ 54% と 64% です。最後に、両方の推論設定のサブグラフサイズが 100% に達します。 k=3。つまり、いつ k>1 の場合、小さなバッチのサブグラフは十分に大きくなり、小さなバッチの推論が完全なバッチの推論と同じパフォーマンスに達することができます。

また、すべてのバッチの予測レイテンシも記録します。 ml.r5.12xlarge インスタンスで実験を実行しますが、64 G メモリの小さいインスタンスを使用して同じ実験を実行できます。次のプロットは、さまざまな値の小さいバッチ予測レイテンシの平均と 95% 信頼区間を示しています。 k.

誘導性小バッチのタイミング結果

レイテンシには、リアルタイム帰納的推論アルゴリズムの XNUMX つのステップすべてが含まれます。私たちはそれを見ます k=2、1,030 トランザクションの予測には平均 5.4 秒かかり、190 秒あたり XNUMX トランザクションのスループットになります。これにより、RGCN モデルの実装がリアルタイムの不正検出に適していることが確認されました。また、以前の役職実装のハードレイテンシ値を提供しませんでした。

まとめ

この投稿でリリースされた RGCN モデルは、リアルタイム帰納的推論のアルゴリズムを実装しており、外部のグラフストレージやオーケストレーションを必要としません。パラメータ k アルゴリズムのステップ 3 では、推論のためにサブグラフを抽出するために実行されるホップ数を指定します。これにより、モデルの精度と予測レイテンシーの間のトレードオフが生じます。使用した IEEE-CIS不正データセット私たちの実験では、パラメーターの最適値が経験的に検証されました k このデータセットの場合は 2 で、AUC スコア 0.876 と 6 トランザクションあたり 1,000 秒未満の予測レイテンシを達成しています。

この投稿では、リアルタイムの不正検出のために RGCN モデルをトレーニングおよび評価するための段階的なプロセスを説明しました。含まれているモデルクラスは、シリアル化および逆シリアル化メソッドを含む、モデルライフサイクル全体のメソッドを実装します。これにより、モデルをリアルタイムの不正検出に使用できます。モデルを PyTorch SageMaker estimator としてトレーニングし、次を使用して SageMaker エンドポイントにデプロイできます。ノートテンプレートとして。エンドポイントは、未加工のトランザクションの小さなバッチでリアルタイムで不正行為を予測できます。使用することもできます AmazonSageMaker推論レコメンダーワークロードに基づいて、推論エンドポイントに最適なインスタンスタイプと構成を選択します。

このトピックと実装の詳細については、スクリプトを自分で調べてテストすることをお勧めします。ノートブックと関連するモデルクラスコードには、 AWS の例の GitHub リポジトリ.

著者について

ドミトリー・ベスパロフ Amazon Machine Learning Solutions Lab の上級応用科学者であり、さまざまな業界の AWS のお客様が AI とクラウドの採用を加速するのを支援しています。

ライアンブランド Amazon Machine Learning Solutions Lab の応用科学者です。彼は、ヘルスケアとライフサイエンスの問題に機械学習を適用した特別な経験を持っています。余暇には、歴史やサイエンスフィクションを読むことを楽しんでいます。

ヤンジュン・チー Amazon Machine Learning Solution Lab の上級応用科学マネージャーです。彼女は機械学習を革新して適用し、AWS のお客様が AI とクラウドの採用を加速できるように支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/build-a-gnn-based-real-time-fraud-detection-solution-using-the-deep-graph-library-without-using-external-graph-storage/

タイムスタンプ： 2023 年 2 月 28 日

タイムスタンプ： 2023 年 1 月 9 日

プラトン再発行

Innovation Day で AI / ML の 20 年以上を祝う

Amazon SageMaker でのシリアル推論の設計パターン

Talkdesk CX Cloud コンタクトセンターで Amazon Lex を使用して強力なセルフサービスエクスペリエンスを作成する

AmazonLexとUneeqのデジタルヒューマンプラットフォームを統合する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー