Build A GNN-based Real-time Fraud Detection Solution Using The Deep Graph Library Without Using External Graph Storage

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

فراڈ کا پتہ لگانا ایک اہم مسئلہ ہے جس میں مالیاتی خدمات، سوشل میڈیا، ای کامرس، گیمنگ اور دیگر صنعتوں میں ایپلی کیشنز موجود ہیں۔ یہ پوسٹ Relational Graph Convolutional Network (RGCN) ماڈل کا استعمال کرتے ہوئے دھوکہ دہی کا پتہ لگانے کے حل کے نفاذ کو پیش کرتی ہے تاکہ اس امکان کی پیشین گوئی کی جا سکے کہ ٹرانزیکشن اور انڈکٹیو انفرنس دونوں طریقوں سے ٹرانزیکشن فراڈ ہے۔ آپ ہمارے نفاذ کو ایک پر تعینات کر سکتے ہیں۔ ایمیزون سیج میکر اینڈ پوائنٹ کو ریئل ٹائم فراڈ کا پتہ لگانے کے حل کے طور پر، بیرونی گراف سٹوریج یا آرکیسٹریشن کی ضرورت کے بغیر، اس طرح ماڈل کی تعیناتی لاگت کو نمایاں طور پر کم کرتا ہے۔

دھوکہ دہی کا پتہ لگانے کے لیے مکمل طور پر منظم AWS AI سروس تلاش کرنے والے کاروبار بھی استعمال کر سکتے ہیں۔ ایمیزون فراڈ ڈیٹیکٹرجس کا استعمال آپ مشکوک آن لائن ادائیگیوں کی نشاندہی کرنے، اکاؤنٹ کے نئے فراڈ کا پتہ لگانے، ٹرائل اور لائلٹی پروگرام کے غلط استعمال کو روکنے، یا اکاؤنٹ ٹیک اوور کا پتہ لگانے کو بہتر بنانے کے لیے کر سکتے ہیں۔

حل جائزہ

مندرجہ ذیل خاکہ ایک مثالی مالیاتی لین دین کے نیٹ ورک کی وضاحت کرتا ہے جس میں مختلف قسم کی معلومات شامل ہیں۔ ہر لین دین میں آلہ کے شناخت کنندگان، Wi-Fi IDs، IP پتے، جسمانی مقامات، ٹیلی فون نمبرز اور مزید جیسی معلومات ہوتی ہیں۔ ہم ایک متضاد گراف کے ذریعے لین دین کے ڈیٹاسیٹس کی نمائندگی کرتے ہیں جس میں مختلف قسم کے نوڈس اور کنارے ہوتے ہیں۔ پھر، دھوکہ دہی کا پتہ لگانے کے مسئلے کو اس متضاد گراف پر نوڈ کی درجہ بندی کے کام کے طور پر سنبھالا جاتا ہے۔

RGCN گراف کی تعمیر کا خاکہ

گراف نیورل نیٹ ورکس (GNNs) نے دھوکہ دہی کا پتہ لگانے کے مسائل سے نمٹنے میں بہت اچھا وعدہ دکھایا ہے، مقبول زیر نگرانی سیکھنے کے طریقوں کو بہتر کارکردگی کا مظاہرہ کیا ہے جیسے گریڈینٹ-بوسٹڈ ڈیسیکشن ٹریز یا بینچ مارکنگ ڈیٹا سیٹس پر مکمل طور پر منسلک فیڈ فارورڈ نیٹ ورکس۔ ایک عام دھوکہ دہی کا پتہ لگانے کے سیٹ اپ میں، تربیتی مرحلے کے دوران، ایک GNN ماڈل کو لیبل لگے ہوئے لین دین کے سیٹ پر تربیت دی جاتی ہے۔ ہر تربیتی لین دین کو ایک بائنری لیبل کے ساتھ فراہم کیا جاتا ہے جس کی نشاندہی کرتا ہے کہ آیا یہ دھوکہ دہی پر مبنی ہے۔ اس تربیت یافتہ ماڈل کو پھر اندازہ کے مرحلے کے دوران بغیر لیبل والے لین دین کے ایک سیٹ کے درمیان جعلی لین دین کا پتہ لگانے کے لیے استعمال کیا جا سکتا ہے۔ قیاس کے دو مختلف طریقے موجود ہیں: ٹرانسجیکٹیو انفرنس بمقابلہ انڈکٹیو انفرنس (جس پر ہم بعد میں اس پوسٹ میں مزید بات کریں گے)۔

GNN پر مبنی ماڈلز، جیسے RGCN، ٹاپولوجیکل معلومات سے فائدہ اٹھا سکتے ہیں، گراف ڈھانچہ اور نوڈس اور کناروں کی خصوصیات دونوں کو یکجا کر کے ایک بامعنی نمائندگی سیکھ سکتے ہیں جو ناجائز لین دین کو جائز لین دین سے ممتاز کرتی ہے۔ RGCN مؤثر طریقے سے مختلف قسم کے نوڈس اور کناروں (تعلقات) کو متضاد گراف سرایت کے ذریعے ظاہر کرنا سیکھ سکتا ہے۔ پچھلے خاکے میں، ہر ٹرانزیکشن کو ٹارگٹ نوڈ کے طور پر ماڈل بنایا جا رہا ہے، اور ہر ٹرانزیکشن سے وابستہ کئی اداروں کو غیر ٹارگٹ نوڈ کی اقسام کے طور پر ماڈل بنایا جاتا ہے، جیسے ProductCD اور P_emaildomain. ٹارگٹ نوڈس میں عددی اور دوٹوک خصوصیات تفویض کی گئی ہیں، جبکہ دیگر نوڈ کی قسمیں خصوصیت سے خالی ہیں۔ RGCN ماڈل ہر غیر ٹارگٹ نوڈ کی قسم کے لیے سرایت کرنا سیکھتا ہے۔ ٹارگٹ نوڈ کی ایمبیڈنگ کے لیے، اس کی خصوصیات اور پڑوس ایمبیڈنگز کا استعمال کرتے ہوئے اس کی ایمبیڈنگ کی گنتی کے لیے ایک کنولوشنل آپریشن استعمال کیا جاتا ہے۔ باقی پوسٹ میں، ہم GNN اور RGCN کی اصطلاحات کو ایک دوسرے کے ساتھ استعمال کرتے ہیں۔

یہ بات قابل توجہ ہے کہ متبادل حکمت عملی، جیسے کہ غیر ہدف والے اداروں کو خصوصیات کے طور پر سمجھنا اور ان کو ایک گرم انکوڈنگ کرنا، ان اداروں کی بڑی بنیادی خصوصیات کی وجہ سے اکثر ناقابل عمل ہوتا ہے۔ اس کے برعکس، انہیں گراف ہستیوں کے طور پر انکوڈنگ کرنا GNN ماڈل کو ہستی کے تعلقات میں مضمر ٹوپولوجی سے فائدہ اٹھانے کے قابل بناتا ہے۔ مثال کے طور پر، وہ ٹرانزیکشنز جو ایک فون نمبر کا اشتراک کرتے ہیں جن میں معلوم دھوکہ دہی والے لین دین کا بھی دھوکہ دہی کا زیادہ امکان ہوتا ہے۔

GNNs کے ذریعہ استعمال کردہ گراف کی نمائندگی ان کے نفاذ میں کچھ پیچیدگی پیدا کرتی ہے۔ یہ خاص طور پر ایپلی کیشنز کے لیے درست ہے جیسے کہ فراڈ کا پتہ لگانا، جس میں گراف کی نمائندگی نئے شامل کیے گئے نوڈس کے ساتھ اندازے کے دوران بڑھ سکتی ہے جو ماڈل ٹریننگ کے دوران معلوم نہ ہونے والے اداروں سے مطابقت رکھتی ہیں۔ اس قیاس آرائی کو عام طور پر کہا جاتا ہے۔ دلکش موڈ. اس کے برعکس میں، نقل پذیر موڈ ایک ایسا منظر نامہ ہے جو فرض کرتا ہے کہ ماڈل ٹریننگ کے دوران بنائے گئے گراف کی نمائندگی تخمینہ کے دوران تبدیل نہیں ہوگی۔ GNN ماڈلز کی اکثر تربیت اور ٹیسٹ کی مثالوں کے مشترکہ سیٹ سے گراف کی نمائندگی کرتے ہوئے ٹرانسجیکٹیو موڈ میں جانچ کی جاتی ہے، جبکہ بیک پروپیگیشن کے دوران ٹیسٹ لیبل کو ماسک کرتے ہوئے. یہ یقینی بناتا ہے کہ گراف کی نمائندگی جامد ہے، اور وہاں GNN ماڈل کو قیاس کے دوران نئے نوڈس کے ساتھ گراف کو بڑھانے کے لیے آپریشنز کے نفاذ کی ضرورت نہیں ہے۔ بدقسمتی سے، حقیقی دنیا کی ترتیب میں جعلی لین دین کا پتہ لگاتے وقت جامد گراف کی نمائندگی کو فرض نہیں کیا جا سکتا۔ لہذا، پیداواری ماحول میں دھوکہ دہی کا پتہ لگانے کے لیے GNN ماڈلز کی تعیناتی کے دوران انڈکٹو انفرنس کے لیے تعاون کی ضرورت ہوتی ہے۔

اس کے علاوہ، حقیقی وقت میں جعلی لین دین کا پتہ لگانا بہت ضروری ہے، خاص طور پر کاروباری معاملات میں جہاں غیر قانونی سرگرمیوں کو روکنے کا صرف ایک موقع ہوتا ہے۔ مثال کے طور پر، دھوکہ دہی کرنے والے صارفین کسی اکاؤنٹ کے ساتھ صرف ایک بار بدنیتی سے برتاؤ کر سکتے ہیں اور دوبارہ وہی اکاؤنٹ استعمال نہیں کر سکتے۔ GNN ماڈلز پر حقیقی وقت کا اندازہ لاگو کرنے میں اضافی پیچیدگی کو متعارف کرایا جاتا ہے۔ ریئل ٹائم انفرنس کو سپورٹ کرنے کے لیے ذیلی گراف نکالنے کی کارروائیوں کو نافذ کرنا اکثر ضروری ہوتا ہے۔ جب گراف کی نمائندگی بڑی ہوتی ہے اور پورے گراف پر تخمینہ لگانا ممنوعہ طور پر مہنگا ہو جاتا ہے تو تخمینہ میں تاخیر کو کم کرنے کے لیے سب گراف نکالنے کے آپریشن کی ضرورت ہوتی ہے۔ RGCN ماڈل کے ساتھ ریئل ٹائم انڈکٹیو انفرنس کے لیے الگورتھم مندرجہ ذیل چلتا ہے:

لین دین کے ایک بیچ اور تربیت یافتہ RGCN ماڈل کو دیکھتے ہوئے، بیچ سے موجود اداروں کے ساتھ گراف کی نمائندگی کو بڑھا دیں۔
نئے نان ٹارگٹ نوڈس کے ایمبیڈنگ ویکٹر کو ان کے متعلقہ نوڈ ٹائپ کے اوسط ایمبیڈنگ ویکٹر کے ساتھ تفویض کریں۔
کی طرف سے حوصلہ افزائی ایک ذیلی گراف نکالیں k-بیچ سے ٹارگٹ نوڈس کے پڑوس سے باہر نکلیں۔
بیچ کے ٹارگٹ نوڈس کے لیے ذیلی گراف اور واپسی کی پیشن گوئی کے اسکور پر تخمینہ لگائیں۔
نئے شامل کیے گئے نوڈس کو ہٹا کر گراف کی نمائندگی کو صاف کریں (یہ مرحلہ اس بات کو یقینی بناتا ہے کہ ماڈل انفرنس کے لیے میموری کی ضرورت مستقل رہے)۔

اس پوسٹ کا کلیدی تعاون ایک RGCN ماڈل پیش کرنا ہے جو ریئل ٹائم انڈکٹو انفرنس الگورتھم کو نافذ کرتا ہے۔ آپ ہمارے RGCN نفاذ کو SageMaker اینڈ پوائنٹ پر ایک حقیقی وقت میں دھوکہ دہی کا پتہ لگانے کے حل کے طور پر تعینات کر سکتے ہیں۔ ہمارے حل کو بیرونی گراف اسٹوریج یا آرکیسٹریشن کی ضرورت نہیں ہے، اور دھوکہ دہی کا پتہ لگانے کے کاموں کے لیے RGCN ماڈل کی تعیناتی لاگت کو نمایاں طور پر کم کرتا ہے۔ ماڈل ٹرانزیکٹیو انفرنس موڈ کو بھی لاگو کرتا ہے، جو ہمیں انڈکٹیو اور ٹرانسڈیکٹیو موڈز میں ماڈل کی کارکردگی کا موازنہ کرنے کے لیے تجربات کرنے کے قابل بناتا ہے۔ تجربات کے ساتھ ماڈل کوڈ اور نوٹ بک تک رسائی حاصل کی جا سکتی ہے۔ AWS مثالیں GitHub ریپو.

یہ پوسٹ پوسٹ پر بنتی ہے۔ Amazon SageMaker، Amazon Neptune، اور Deep Graph Library کا استعمال کرتے ہوئے GNN پر مبنی ریئل ٹائم فراڈ کا پتہ لگانے کا حل تیار کریں۔. پچھلی پوسٹ نے SageMaker کا استعمال کرتے ہوئے RGCN پر مبنی ریئل ٹائم فراڈ کا پتہ لگانے کا حل بنایا، ایمیزون نیپچون، اور گہری گراف لائبریری (DGL)۔ پہلے کے حل میں نیپچون ڈیٹا بیس کو بیرونی گراف اسٹوریج کے طور پر استعمال کیا گیا تھا، جس کی ضرورت تھی۔ او ڈبلیو ایس لامبڈا۔ ریئل ٹائم انفرنس کے لیے آرکیسٹریشن کے لیے، اور صرف ٹرانزیکٹیو موڈ میں تجربات شامل ہیں۔

اس پوسٹ میں متعارف کرایا گیا RGCN ماڈل ریئل ٹائم انڈکٹیو انفرنس الگورتھم کے تمام آپریشنز کو صرف ڈی جی ایل کو بطور انحصار استعمال کرتے ہوئے لاگو کرتا ہے، اور اسے تعیناتی کے لیے بیرونی گراف اسٹوریج یا آرکیسٹریشن کی ضرورت نہیں ہے۔

ہم سب سے پہلے ایک بینچ مارک ڈیٹاسیٹ پر ٹرانسجیکٹیو اور انڈکٹیو طریقوں میں RGCN ماڈل کی کارکردگی کا جائزہ لیتے ہیں۔ جیسا کہ توقع کی گئی ہے، انڈکٹیو موڈ میں ماڈل کی کارکردگی ٹرانزیکٹیو موڈ کے مقابلے میں قدرے کم ہے۔ ہم hyperparameter کے اثر کا بھی مطالعہ کرتے ہیں۔ k ماڈل کی کارکردگی پر۔ ہائپر پیرامیٹر k ریئل ٹائم انفرنس الگورتھم کے مرحلہ 3 میں ذیلی گراف نکالنے کے لیے انجام دیے گئے ہاپس کی تعداد کو کنٹرول کرتا ہے۔ کی اعلی اقدار k بڑے ذیلی گراف تیار کرے گا اور زیادہ تاخیر کی قیمت پر بہتر تخمینہ کارکردگی کا باعث بن سکتا ہے۔ اس طرح، ہم ریئل ٹائم ایپلی کیشن کے لیے RGCN ماڈل کی فزیبلٹی کا جائزہ لینے کے لیے ٹائمنگ تجربات بھی کرتے ہیں۔

ڈیٹا بیس

ہم استعمال کرتے ہیں IEEE-CIS فراڈ ڈیٹاسیٹ، وہی ڈیٹاسیٹ جو پچھلے میں استعمال ہوا تھا۔ پوسٹ. ڈیٹاسیٹ میں 590,000 سے زیادہ لین دین کے ریکارڈز ہیں جن پر بائنری فراڈ لیبل ہے ( isFraud کالم)۔ ڈیٹا کو دو جدولوں میں تقسیم کیا گیا ہے: لین دین اور شناخت۔ تاہم، تمام لین دین کے ریکارڈ میں متعلقہ شناختی معلومات نہیں ہوتی ہیں۔ ہم پر دو میزوں میں شامل ہوتے ہیں TransactionID کالم، جو ہمارے پاس کل 144,233 ٹرانزیکشن ریکارڈ رکھتا ہے۔ ہم لین دین کے ٹائم اسٹیمپ کے ذریعہ ٹیبل کو ترتیب دیتے ہیں ( TransactionDT کالم) اور تربیت اور جانچ کے لیے بالترتیب 80 اور 20 ٹرانزیکشنز تیار کرتے ہوئے، وقت کے لحاظ سے 115,386/28,847 فیصد تقسیم بنائیں۔

ڈیٹاسیٹ کے بارے میں مزید تفصیلات اور ڈی جی ایل کی ان پٹ کی ضرورت کے مطابق اسے فارمیٹ کرنے کے طریقہ کے لیے، ملاحظہ کریں ایمیزون سیج میکر اور ڈیپ گراف لائبریری کا استعمال کرتے ہوئے متفاوت نیٹ ورکس میں دھوکہ دہی کا پتہ لگانا.

گراف کی تعمیر

ہم استعمال کرتے ہیں TransactionID ہدف نوڈس بنانے کے لیے کالم۔ ہم 11 قسم کے غیر ٹارگٹ نوڈس بنانے کے لیے درج ذیل کالم استعمال کرتے ہیں۔

card1 کے ذریعے card6
ProductCD
addr1 اور addr2
P_emaildomain اور R_emaildomain

ہم ٹارگٹ نوڈس کی واضح خصوصیات کے طور پر 38 کالم استعمال کرتے ہیں:

M1 کے ذریعے M9
DeviceType اور DeviceInfo
id_12 کے ذریعے id_38

ہم ہدف نوڈس کی عددی خصوصیات کے طور پر 382 کالم استعمال کرتے ہیں:

TransactionAmt
dist1 اور dist2
id_01 کے ذریعے id_11
C1 کے ذریعے C14
D1 کے ذریعے D15
V1 کے ذریعے V339

تربیتی لین دین سے بنائے گئے ہمارے گراف میں 217,935 نوڈس اور 2,653,878 کنارے ہیں۔

ہائپرپیرامیٹر

دوسرے پیرامیٹرز پچھلے میں رپورٹ کیے گئے پیرامیٹرز سے ملنے کے لیے سیٹ کیے گئے ہیں۔ پوسٹ. مندرجہ ذیل ٹکڑا آر جی سی این ماڈل کو نقل و حمل اور آمادگی کے طریقوں میں تربیت دینے کی وضاحت کرتا ہے:

import pandas as pd
from fgnn.fraud_detector import FraudRGCN # overload default hyperparameters defined in FraudRGCN constructor
params = { "embedding_size": 64, "n_layers": 2, "n_epochs": 150, "n_hidden": 16, "dropout": 0.2, "weight_decay": 5e-05, "lr": 0.01
} # load train and test splits
df_train = pd.read_parquet('./data/train.parquet')
df_test = pd.read_parquet('./data/test.parquet') # train RGCN model in inductive mode
fd_ind = FraudRGCN()
fd_ind.train_fg(df_train, params=params) # train RGCN model in transductive mode
fd_trs = FraudRGCN()
# create boolean array to identify test examples
test_mask = [False]*len(df_train) + [True]*len(df_test)
# concatenate train and test examaples
df_combined = pd.concat([df_train, df_test], ignore_index=True) # test_mask must be passed in transductive mode, # so test labels are masked-out during back-propagation
fd.train_fg(df_combined, params=params, test_mask=test_mask) # predict on both models extracting subgraph with 2 k-hops
fraud_proba_ind = fd_ind.predict(df_test, k=2)
fraud_proba_trs = fd_trs.predict(df_test, k=2)

انڈکٹیو بمقابلہ نقلی موڈ

ہم انڈکٹیو کے لیے پانچ ٹرائلز اور ٹرانزیکٹیو موڈ کے لیے پانچ ٹرائلز کرتے ہیں۔ ہر آزمائش کے لیے، ہم ایک RGCN ماڈل کو تربیت دیتے ہیں اور اسے ڈسک میں محفوظ کرتے ہیں، 10 ماڈل حاصل کرتے ہیں۔ ہم ہاپس کی تعداد میں اضافہ کرتے ہوئے ٹیسٹ کی مثالوں پر ہر ماڈل کا جائزہ لیتے ہیں (پیرامیٹر k) تخمینہ، ترتیب کے لیے ذیلی گراف نکالنے کے لیے استعمال کیا جاتا ہے۔ k 1، 2، اور 3 تک۔ ہم تمام ٹیسٹ مثالوں پر ایک ساتھ پیشین گوئی کرتے ہیں، اور ہر آزمائش کے لیے ROC AUC سکور کا حساب لگاتے ہیں۔ مندرجہ ذیل پلاٹ AUC سکور کے اوسط اور 95% اعتماد کے وقفوں کو ظاہر کرتا ہے۔

انڈکٹیو بمقابلہ نقلی ماڈل کی کارکردگی

ہم دیکھ سکتے ہیں کہ ٹرانزیکٹیو موڈ میں کارکردگی انڈکٹیو موڈ کے مقابلے میں قدرے زیادہ ہے۔ کے لیے k=2، مطلب AUC کے اسکور انڈکٹیو اور ٹرانزیکٹیو موڈز کے لیے بالترتیب 0.876 اور 0.883 ہیں۔ اس کی توقع کی جاتی ہے کیونکہ RGCN ماڈل ٹرانزیکٹیو موڈ میں تمام ہستی نوڈس کی ایمبیڈنگ سیکھنے کے قابل ہے، بشمول ٹیسٹ سیٹ میں۔ اس کے برعکس، انڈکٹو موڈ ماڈل کو صرف ہستی نوڈس کی سرایت سیکھنے کی اجازت دیتا ہے جو تربیتی مثالوں میں موجود ہیں، اور اس وجہ سے کچھ نوڈس کو تخمینہ کے دوران مطلب سے بھرنا پڑتا ہے۔ ایک ہی وقت میں، ٹرانسجیکٹیو اور انڈکٹیو موڈز کے درمیان کارکردگی میں کمی اہم نہیں ہے، اور یہاں تک کہ انڈکٹیو موڈ میں، RGCN ماڈل 0.876 کے AUC کے ساتھ اچھی کارکردگی حاصل کرتا ہے۔ ہم یہ بھی مشاہدہ کرتے ہیں کہ ماڈل کی کارکردگی کی اقدار کے لیے بہتر نہیں ہوتی k>2۔ اس کا مطلب ہے کہ ترتیب k=2 تخمینہ کے دوران کافی بڑا ذیلی گراف نکالے گا، جس کے نتیجے میں بہترین کارکردگی ہوگی۔ اس مشاہدے کی تصدیق ہمارے اگلے تجربے سے بھی ہوتی ہے۔

یہ بات بھی قابل توجہ ہے کہ، نقلی موڈ کے لیے، ہمارے ماڈل کا 0.883 کا AUC پچھلے میں رپورٹ کردہ 0.870 کے اسی AUC سے زیادہ ہے۔ پوسٹ. ہم ٹارگٹ نوڈس کی عددی اور واضح خصوصیات کے طور پر مزید کالم استعمال کرتے ہیں، جو کہ اعلیٰ AUC سکور کی وضاحت کر سکتے ہیں۔ ہم یہ بھی نوٹ کرتے ہیں کہ پچھلی پوسٹ میں تجربات نے صرف ایک ہی آزمائش کی تھی۔

ایک چھوٹی سی کھیپ کا اندازہ

اس تجربے کے لیے، ہم RGCN ماڈل کا ایک چھوٹے بیچ کے تخمینے کی ترتیب میں جائزہ لیتے ہیں۔ ہم پانچ ماڈل استعمال کرتے ہیں جو پچھلے تجربے میں انڈکٹیو موڈ میں تربیت یافتہ تھے۔ دو سیٹنگز میں پیشین گوئی کرتے وقت ہم ان ماڈلز کی کارکردگی کا موازنہ کرتے ہیں: مکمل اور چھوٹے بیچ کا اندازہ۔ مکمل بیچ کے تخمینے کے لیے، ہم پورے ٹیسٹ سیٹ پر پیشین گوئی کرتے ہیں، جیسا کہ پچھلے تجربے میں کیا گیا تھا۔ چھوٹے بیچ کے تخمینہ کے لیے، ہم ٹیسٹ سیٹ کو برابر سائز کے 28 بیچوں میں تقسیم کرکے چھوٹے بیچوں میں پیش گوئی کرتے ہیں جس میں ہر بیچ میں تقریباً 1,000 ٹرانزیکشنز ہوتے ہیں۔ کی مختلف اقدار کا استعمال کرتے ہوئے ہم دونوں سیٹنگز کے لیے AUC سکور کی گنتی کرتے ہیں۔ k. مندرجہ ذیل پلاٹ پورے اور چھوٹے بیچ کے تخمینے کی ترتیبات کے لیے اوسط اور %95 اعتماد کے وقفے دکھاتا ہے۔

پورے بیچ بمقابلہ چھوٹے بیچ کے لیے دلکش ماڈل کی کارکردگی

ہم چھوٹے بیچ کے تخمینہ کے لیے اس کارکردگی کا مشاہدہ کرتے ہیں۔ k=1 مکمل بیچ کے مقابلے کم ہے۔ تاہم، چھوٹے بیچ کا اندازہ کارکردگی مکمل بیچ سے میل کھاتا ہے جب k>1۔ اس کی وجہ چھوٹے بیچوں کے لیے بہت چھوٹے ذیلی گراف نکالے جا سکتے ہیں۔ ہم تربیتی لین دین سے بنائے گئے پورے گراف کے سائز کے ساتھ ذیلی گراف کے سائز کا موازنہ کرکے اس کی تصدیق کرتے ہیں۔ ہم نوڈس کی تعداد کے لحاظ سے گراف کے سائز کا موازنہ کرتے ہیں۔ کے لیے k=1، چھوٹے بیچ کے تخمینے کے لیے اوسط ذیلی گراف کا سائز تربیتی گراف کے 2% سے کم ہے۔ اور مکمل بیچ کے تخمینہ کے لیے جب k=1، ذیلی گراف کا سائز 22% ہے۔ کب k=2، چھوٹے اور پورے بیچ کے تخمینے کے لیے ذیلی گراف کے سائز بالترتیب 54% اور 64% ہیں۔ آخر میں، دونوں انفرنس سیٹنگز کے لیے ذیلی گراف کے سائز 100% تک پہنچ جاتے ہیں۔ k=3۔ دوسرے الفاظ میں، جب k>1، چھوٹے بیچ کے لیے ذیلی گراف کافی حد تک بڑا ہو جاتا ہے، جس سے چھوٹے بیچ کے تخمینے کو پورے بیچ کے تخمینہ جیسی کارکردگی تک پہنچنے کے قابل بناتا ہے۔

ہم ہر بیچ کے لیے پیشین گوئی میں تاخیر بھی ریکارڈ کرتے ہیں۔ ہم اپنے تجربات کو ml.r5.12x بڑی مثال پر کرتے ہیں، لیکن آپ انہی تجربات کو چلانے کے لیے 64 G میموری کے ساتھ ایک چھوٹی مثال استعمال کر سکتے ہیں۔ مندرجہ ذیل پلاٹ کی مختلف اقدار کے لیے چھوٹے بیچ کی پیشن گوئی میں تاخیر کے اوسط اور 95% اعتماد کے وقفے دکھاتا ہے k.

آنے والے چھوٹے بیچ کے لیے ٹائمنگ کے نتائج

تاخیر میں ریئل ٹائم انڈکٹیو انفرنس الگورتھم کے تمام پانچ مراحل شامل ہیں۔ ہم دیکھتے ہیں کہ جب k=2، 1,030 ٹرانزیکشنز پر پیشن گوئی کرنے میں اوسطاً 5.4 سیکنڈ لگتے ہیں، جس کے نتیجے میں 190 ٹرانزیکشنز فی سیکنڈ میں ہوتی ہیں۔ یہ اس بات کی تصدیق کرتا ہے کہ RGCN ماڈل کا نفاذ حقیقی وقت میں دھوکہ دہی کا پتہ لگانے کے لیے موزوں ہے۔ ہم یہ بھی نوٹ کرتے ہیں کہ پچھلے پوسٹ ان کے نفاذ کے لیے سخت تاخیر کی قدریں فراہم نہیں کیں۔

نتیجہ

اس پوسٹ کے ساتھ جاری کردہ RGCN ماڈل ریئل ٹائم انڈکٹو انفرنس کے لیے الگورتھم کو لاگو کرتا ہے، اور اس کے لیے بیرونی گراف اسٹوریج یا آرکیسٹریشن کی ضرورت نہیں ہے۔ پیرامیٹر k الگورتھم کے مرحلہ 3 میں تخمینہ کے لیے ذیلی گراف کو نکالنے کے لیے انجام دیے گئے ہاپس کی تعداد کی وضاحت کی گئی ہے، اور اس کے نتیجے میں ماڈل کی درستگی اور پیشین گوئی کی تاخیر کے درمیان تجارت ختم ہوتی ہے۔ ہم نے استعمال کیا۔ IEEE-CIS فراڈ ڈیٹاسیٹ ہمارے تجربات میں، اور تجرباتی طور پر توثیق کی کہ پیرامیٹر کی زیادہ سے زیادہ قیمت k اس ڈیٹاسیٹ کے لیے 2 ہے، 0.876 کا AUC سکور اور 6 ٹرانزیکشنز پر 1,000 سیکنڈ سے کم پیشین گوئی میں تاخیر۔

اس پوسٹ نے ریئل ٹائم فراڈ کا پتہ لگانے کے لیے RGCN ماڈل کی تربیت اور جانچ کے لیے مرحلہ وار عمل فراہم کیا۔ شامل ماڈل کلاس پورے ماڈل لائف سائیکل کے لیے طریقے نافذ کرتی ہے، بشمول سیریلائزیشن اور ڈی سیریلائزیشن کے طریقے۔ یہ ماڈل کو ریئل ٹائم فراڈ کا پتہ لگانے کے لیے استعمال کرنے کے قابل بناتا ہے۔ آپ ماڈل کو PyTorch SageMaker تخمینہ لگانے والے کے طور پر تربیت دے سکتے ہیں اور پھر اسے مندرجہ ذیل کا استعمال کرتے ہوئے SageMaker اینڈ پوائنٹ پر تعینات کر سکتے ہیں۔ نوٹ بک ایک ٹیمپلیٹ کے طور پر. اختتامی نقطہ حقیقی وقت میں خام لین دین کے چھوٹے بیچوں پر دھوکہ دہی کی پیش گوئی کرنے کے قابل ہے۔ آپ بھی استعمال کر سکتے ہیں۔ Amazon SageMaker Inference Recommender اپنے کام کے بوجھ کی بنیاد پر انفرنس اینڈ پوائنٹ کے لیے بہترین مثال کی قسم اور کنفیگریشن کو منتخب کرنے کے لیے۔

اس موضوع اور نفاذ کے بارے میں مزید معلومات کے لیے، ہم آپ کی حوصلہ افزائی کرتے ہیں کہ آپ خود ہمارے اسکرپٹس کو دریافت کریں اور ان کی جانچ کریں۔ آپ نوٹ بک اور متعلقہ ماڈل کلاس کوڈ تک رسائی حاصل کر سکتے ہیں۔ AWS مثالیں GitHub ریپو.

مصنفین کے بارے میں

دمتری بیسپالوف ایمیزون مشین لرننگ سلوشنز لیب میں ایک سینئر اپلائیڈ سائنٹسٹ ہے، جہاں وہ مختلف صنعتوں کے AWS صارفین کو ان کے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرتا ہے۔

ریان برانڈ ایمیزون مشین لرننگ سلوشنز لیب میں ایک اپلائیڈ سائنٹسٹ ہے۔ اسے صحت کی دیکھ بھال اور لائف سائنسز میں مسائل پر مشین لرننگ کا اطلاق کرنے کا خاص تجربہ ہے۔ اپنے فارغ وقت میں وہ تاریخ اور سائنس فکشن پڑھنے سے لطف اندوز ہوتے ہیں۔

یانجون کیو ایمیزون مشین لرننگ سلوشن لیب میں ایک سینئر اپلائیڈ سائنس مینیجر ہے۔ وہ AWS صارفین کو اپنے AI اور کلاؤڈ کو اپنانے میں تیزی لانے میں مدد کرنے کے لیے مشین لرننگ کو اختراعات اور لاگو کرتی ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/build-a-gnn-based-real-time-fraud-detection-solution-using-the-deep-graph-library-without-using-external-graph-storage/

ٹائم اسٹیمپ: 28 فروری 2023

ٹائم اسٹیمپ: نومبر 13، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

محفوظ ایمیزون سیج میکر اسٹوڈیو کے پیش کردہ URLs حصہ 2: JWT تصدیق کے ساتھ نجی API

ایمیزون سیج میکر آٹومیٹک ماڈل ٹیوننگ اب ہائپر پیرامیٹر آپٹیمائزیشن کے تین نئے تکمیلی معیار کی حمایت کرتی ہے۔

ایمیزون سیج میکر آٹو پائلٹ اب ٹائم سیریز ڈیٹا کو سپورٹ کرتا ہے۔

Amazon Recognition کے ساتھ آڈیو ایونٹس کا پتہ لگائیں۔

Amazon SageMaker JumpStart پر ملٹی موڈل ڈیٹا کا استعمال کرتے ہوئے پھیپھڑوں کے کینسر کی بقا کی صورتحال کی پیش گوئی کریں۔

ایم ایل ماڈل کی کارکردگی میں اضافہ کریں اور پہلے سے تربیت یافتہ ماڈلز کے ساتھ ایمیزون سیج میکر بلٹ ان الگورتھم کا استعمال کرتے ہوئے تربیت کا وقت کم کریں۔

Amazon Personalize | ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ