Augment Fraud Transactions Using Synthetic Data In Amazon SageMaker

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

کامیاب مشین لرننگ (ML) فراڈ ماڈلز کی تیاری اور تربیت کے لیے اعلیٰ معیار کے ڈیٹا کی بڑی مقدار تک رسائی کی ضرورت ہوتی ہے۔ اس ڈیٹا کو سورس کرنا مشکل ہے کیونکہ دستیاب ڈیٹا سیٹ بعض اوقات اتنے بڑے یا کافی غیر جانبدار نہیں ہوتے ہیں کہ وہ ML ماڈل کو مفید طریقے سے تربیت دے سکیں اور اس کے لیے اہم قیمت اور وقت درکار ہو سکتا ہے۔ ضابطے اور رازداری کے تقاضے کسی انٹرپرائز تنظیم کے اندر بھی ڈیٹا کے استعمال یا اشتراک کو مزید روکتے ہیں۔ حساس ڈیٹا کے استعمال اور ان تک رسائی کی اجازت دینے کا عمل اکثر ML پروجیکٹس کو تاخیر یا پٹڑی سے اتار دیتا ہے۔ متبادل طور پر، ہم مصنوعی ڈیٹا تیار کرکے اور استعمال کرکے ان چیلنجوں سے نمٹ سکتے ہیں۔

مصنوعی ڈیٹا مصنوعی طور پر بنائے گئے ڈیٹا سیٹس کی وضاحت کرتا ہے جو ریگولیٹری خطرے اور تعمیل، وقت، اور سورسنگ کے اخراجات کو حل کرنے کے لیے اصل ڈیٹاسیٹ میں مواد اور نمونوں کی نقل کرتا ہے۔ مصنوعی ڈیٹا بنانے والے اصل ڈیٹا کو متعلقہ خصوصیات، ارتباط اور نمونوں کو سیکھنے کے لیے استعمال کرتے ہیں تاکہ اصل میں داخل کیے گئے ڈیٹاسیٹ کی شماریاتی خصوصیات کے مطابق مصنوعی ڈیٹا کی مطلوبہ مقدار پیدا کی جا سکے۔

مصنوعی ڈیٹا لیبارٹری کے ماحول میں استعمال ہو رہا ہے۔ دو دہائیوں سے زیادہ; مارکیٹ میں افادیت کا ثبوت ہے جو تجارتی اور عوامی شعبوں میں اپنانے میں تیزی لا رہی ہے۔ گارٹنر پیش گوئی کہ 2024 تک، ML اور تجزیاتی حل کی ترقی کے لیے استعمال ہونے والا 60 فیصد ڈیٹا مصنوعی طور پر تیار کیا جائے گا اور مصنوعی ڈیٹا کے استعمال میں خاطر خواہ اضافہ ہوتا رہے گا۔

فنانشل کنڈکٹ اتھارٹی، برطانیہ کا ایک ریگولیٹری ادارہ، تسلیم کرتے ہیں کہ "ڈیٹا تک رسائی جدت طرازی کے لیے اتپریرک ہے، اور مصنوعی مالیاتی ڈیٹا جدت طرازی کی حمایت کرنے اور نئے داخل ہونے والوں کو نئے حل کی اہمیت کو تیار کرنے، جانچنے اور ظاہر کرنے کے قابل بنانے میں کردار ادا کر سکتا ہے۔"

ایمیزون سیج میکر گراؤنڈ ٹروتھ فی الحال کی حمایت کرتا ہے مصنوعی ڈیٹا کی پیداوار لیبل شدہ مصنوعی تصویری ڈیٹا کا۔ یہ بلاگ پوسٹ ٹیبلر مصنوعی ڈیٹا جنریشن کو دریافت کرتی ہے۔ سٹرکچرڈ ڈیٹا، جیسے سنگل اور ریلیشنل ٹیبلز، اور ٹائم سیریز ڈیٹا وہ قسمیں ہیں جن کا اکثر انٹرپرائز اینالیٹکس میں سامنا ہوتا ہے۔

یہ دو حصوں پر مشتمل بلاگ پوسٹ ہے۔ ہم پہلے حصہ میں مصنوعی ڈیٹا بناتے ہیں اور اس کے معیار کا جائزہ لیتے ہیں۔ دوسرا حصہ.

اس بلاگ پوسٹ میں، آپ اوپن سورس لائبریری کو استعمال کرنے کا طریقہ سیکھیں گے۔ ydata-مصنوعی اور AWS سیج میکر نوٹ بک دھوکہ دہی کے استعمال کے کیس کے لیے ٹیبلولر ڈیٹا کی ترکیب کے لیے، جہاں ہمارے پاس اعلیٰ درستگی والے فراڈ ماڈل کی تربیت کے لیے کافی جعلی لین دین نہیں ہے۔ فراڈ ماڈل کی تربیت کا عمومی عمل اس میں شامل ہے۔ پوسٹ.

حل کا جائزہ

اس ٹیوٹوریل کا مقصد ایک انتہائی غیر متوازن کریڈٹ کارڈ فراڈ ڈیٹاسیٹ کے اقلیتی طبقے کی ترکیب کرنا ہے۔ جنریٹو ایڈورسریل نیٹ ورک (GAN) کہا جاتا ہے WGAN-GP اصل ڈیٹا کے پیٹرن اور شماریاتی خصوصیات کو سیکھنے کے لیے اور پھر مصنوعی ڈیٹا کے لامتناہی نمونے تخلیق کریں جو اصل ڈیٹا سے مشابہت رکھتے ہوں۔ اس عمل کو فراڈ جیسے نایاب واقعات کے نمونے لے کر اصل ڈیٹا کو بڑھانے کے لیے بھی استعمال کیا جا سکتا ہے یا ایسے کیسز جنریٹ کرنے کے لیے جو اصل میں موجود نہیں ہیں۔

ہم ایک کریڈٹ کارڈ فراڈ ڈیٹاسیٹ استعمال کرتے ہیں جسے شائع کیا گیا ہے۔ یو ایل بیجس سے ڈاؤن لوڈ کیا جا سکتا ہے۔ کاگل. اقلیتی طبقے کے لیے مصنوعی ڈیٹا تیار کرنے سے غیر متوازن ڈیٹا سیٹس سے متعلق مسائل کو حل کرنے میں مدد ملتی ہے، جس سے زیادہ درست ماڈل تیار کرنے میں مدد مل سکتی ہے۔

ہم AWS سروسز استعمال کرتے ہیں، بشمول Amazon SageMaker اور Amazon S3، جو کلاؤڈ وسائل کو استعمال کرنے کے لیے اخراجات اٹھاتی ہیں۔

ترقی کے ماحول کو ترتیب دیں۔

SageMaker ماڈل بنانے، تربیت اور تعیناتی کے لیے ایک منظم Jupyter نوٹ بک مثال فراہم کرتا ہے۔

لازمی شرائط:

SageMaker چلانے کے لیے آپ کے پاس AWS اکاؤنٹ ہونا ضروری ہے۔ تم لے سکتے ہو شروع سیج میکر کے ساتھ اور کوشش کریں۔ ہینڈ آن ٹیوٹوریلز.

اپنے Jupyter Notebook کے کام کرنے والے ماحول کو ترتیب دینے سے متعلق ہدایات کے لیے، دیکھیں ایمیزون سیج میکر نوٹ بک مثالوں کے ساتھ شروع کریں۔.

مرحلہ 1: اپنا ایمیزون سیج میکر مثال مرتب کریں۔

AWS کنسول میں سائن ان کریں اور "SageMaker" تلاش کریں۔
منتخب کریں سٹوڈیو.
منتخب کریں نوٹ بک کی مثالیں۔ بائیں بار پر، اور منتخب کریں نوٹ بک مثال بنائیں.
اگلے صفحے سے (جیسا کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے)، اپنی ضروریات کے مطابق ورچوئل مشین (VM) کی ترتیب کو منتخب کریں، اور منتخب کریں۔ نوٹ بک مثال بنائیں. نوٹ کریں کہ ہم نے ایک ML آپٹمائزڈ VM استعمال کیا جس میں GPU اور 5 GB ڈیٹا نہیں ہے، ml.t3.medium جو Amazon Linux 2 چلا رہا ہے، اور Jupyter Lab 3 کرنل۔
ایک نوٹ بک مثال آپ کے استعمال کے لیے چند منٹوں میں تیار ہو جائے گی۔
منتخب کریں JupyterLab کھولیں۔ شروع کرنے کے لئے.
اب جب کہ ہمارے پاس اپنی مطلوبہ خصوصیات کے ساتھ JupyterLab ہے، ہم مصنوعی لائبریری کو انسٹال کریں گے۔

pip install ydata-synthetic

مرحلہ 2: مصنوعی ڈیٹا بنانے کے لیے اصلی ڈیٹاسیٹ کو ڈاؤن لوڈ یا نکالیں۔

حوالہ ڈیٹا ڈاؤن لوڈ کریں۔ Kaggle سے یا تو دستی طور پر، جیسا کہ ہم یہاں کرتے ہیں، یا پروگرام کے ذریعے Kaggle API کے ذریعے اگر آپ کے پاس Kaggle اکاؤنٹ ہے۔ اگر آپ اس ڈیٹا سیٹ کو دریافت کرتے ہیں، تو آپ دیکھیں گے کہ "فراڈ" کلاس میں "فراڈ نہیں" کلاس سے بہت کم ڈیٹا ہوتا ہے۔

اگر آپ اس ڈیٹا کو مشین لرننگ کی پیشین گوئیوں کے لیے براہ راست استعمال کرتے ہیں، تو ماڈلز ہمیشہ "فراڈ نہیں" کی پیش گوئی کرنا سیکھ سکتے ہیں۔ ایک ماڈل میں آسانی سے غیر فراڈ کیسز میں زیادہ درستگی ہوگی کیونکہ فراڈ کے کیسز بہت کم ہوتے ہیں۔ تاہم، چونکہ اس مشق میں دھوکہ دہی کے کیسز کا پتہ لگانا ہمارا مقصد ہے، اس لیے ہم حقیقی ڈیٹا پر بنائے گئے مصنوعی ڈیٹا کے ساتھ فراڈ کلاس نمبرز کو فروغ دیں گے۔

JupyterLab میں ڈیٹا فولڈر بنائیں اور اس میں Kaggle ڈیٹا فائل اپ لوڈ کریں۔ یہ آپ کو SageMaker کے بعد سے نوٹ بک کے اندر موجود ڈیٹا کو استعمال کرنے دے گا۔ اسٹوریج کے ساتھ آتا ہے۔ جو آپ نے نوٹ بک کو انسٹینٹیٹ کرتے وقت بتا دیا ہوگا۔

یہ ڈیٹاسیٹ 144 MB ہے۔

اس کے بعد آپ پانڈاس لائبریری کے ذریعے معیاری کوڈ کا استعمال کرتے ہوئے ڈیٹا کو پڑھ سکتے ہیں:

import pandas as pd
data = pd.read_csv('./data/creditcard.csv')

فراڈ کا پتہ لگانے والے ڈیٹا میں کچھ خصوصیات ہیں، یعنی:

بڑے طبقاتی عدم توازن (عام طور پر غیر فراڈ ڈیٹا پوائنٹس کی طرف)۔
رازداری سے متعلق خدشات (حساس ڈیٹا کی موجودگی کی وجہ سے)۔
حرکیات کی ایک حد، اس میں ایک بدنیت صارف ہمیشہ دھوکہ دہی کے لین دین کی نگرانی کرنے والے سسٹمز کے ذریعے پتہ لگانے سے بچنے کی کوشش کرتا ہے۔
دستیاب ڈیٹا سیٹ بہت بڑے اور اکثر غیر لیبل والے ہوتے ہیں۔

اب جب کہ آپ ڈیٹاسیٹ کا معائنہ کر چکے ہیں، آئیے اقلیتی طبقے (کریڈٹ کارڈ ڈیٹاسیٹ سے "فراڈ" کلاس) کو فلٹر کریں اور ضرورت کے مطابق تبدیلیاں کریں۔ آپ اس سے ڈیٹا کی تبدیلیوں کو چیک کر سکتے ہیں۔ نوٹ بک.

جب اس اقلیتی طبقے کے ڈیٹاسیٹ کی ترکیب کی جاتی ہے اور اسے اصل ڈیٹاسیٹ میں واپس شامل کیا جاتا ہے، تو یہ ایک بڑے ترکیب شدہ ڈیٹاسیٹ کی تخلیق کی اجازت دیتا ہے جو ڈیٹا میں عدم توازن کو دور کرتا ہے۔ کے ذریعے ہم پیشن گوئی کی زیادہ درستگی حاصل کر سکتے ہیں۔ دھوکہ دہی کا پتہ لگانے والے ماڈل کی تربیت نئے ڈیٹاسیٹ کا استعمال کرتے ہوئے

آئیے نئے فراڈ ڈیٹاسیٹ کی ترکیب کرتے ہیں۔

مرحلہ 3: سنتھیسائزرز کو تربیت دیں اور ماڈل بنائیں

چونکہ آپ کے پاس SageMaker کے اندر آسانی سے ڈیٹا دستیاب ہے، اس لیے اب وقت آگیا ہے کہ ہمارے مصنوعی GAN ماڈلز کو کام میں لایا جائے۔

ایک جنریٹو ایڈورسریل نیٹ ورک (GAN) کے دو حصے ہوتے ہیں:

۔ جنریٹر قابل فہم ڈیٹا بنانا سیکھتا ہے۔ پیدا ہونے والی مثالیں امتیاز کرنے والے کے لیے منفی تربیت کی مثال بن جاتی ہیں۔

۔ امتیاز کرنے والا جنریٹر کے جعلی ڈیٹا کو اصلی ڈیٹا سے الگ کرنا سیکھتا ہے۔ امتیازی سلوک کرنے والا جنریٹر کو ناقابل تصور نتائج پیدا کرنے پر سزا دیتا ہے۔

جب تربیت شروع ہوتی ہے، جنریٹر واضح طور پر جعلی ڈیٹا تیار کرتا ہے، اور امتیاز کرنے والا جلدی سے یہ بتانا سیکھ جاتا ہے کہ یہ جعلی ہے۔ جیسے جیسے تربیت آگے بڑھ رہی ہے، جنریٹر آؤٹ پٹ پیدا کرنے کے قریب ہو جاتا ہے جو امتیاز کرنے والے کو بے وقوف بنا سکتا ہے۔ آخر میں، اگر جنریٹر کی تربیت اچھی ہوتی ہے، تو امتیاز کرنے والا اصلی اور نقلی کے درمیان فرق بتانے میں بدتر ہو جاتا ہے۔ یہ جعلی ڈیٹا کو اصلی کے طور پر درجہ بندی کرنا شروع کر دیتا ہے، اور اس کی درستگی کم ہو جاتی ہے۔

جنریٹر اور امتیاز کرنے والا دونوں عصبی نیٹ ورک ہیں۔ جنریٹر آؤٹ پٹ براہ راست امتیازی ان پٹ سے جڑا ہوا ہے۔ کے ذریعے بیک پروپیگیشن، امتیاز کرنے والے کی درجہ بندی ایک سگنل فراہم کرتی ہے جسے جنریٹر اپنے وزن کو اپ ڈیٹ کرنے کے لیے استعمال کرتا ہے۔

مرحلہ 4: سنتھیسائزر سے مصنوعی ڈیٹا کا نمونہ

اب جب کہ آپ نے اپنے ماڈل کو بنایا اور تربیت دی ہے، اب وقت آگیا ہے کہ ماڈل کو شور ڈال کر مطلوبہ ڈیٹا کا نمونہ لیں۔ یہ آپ کو اتنا مصنوعی ڈیٹا بنانے کے قابل بناتا ہے جتنا آپ چاہتے ہیں۔

اس صورت میں، آپ حقیقی ڈیٹا کی مقدار کے برابر مصنوعی ڈیٹا تیار کرتے ہیں کیونکہ اس سے مرحلہ 5 میں اسی طرح کے نمونے کے سائز کا موازنہ کرنا آسان ہو جاتا ہے۔

ہمارے پاس دھوکہ دہی پر مشتمل لین دین پر مشتمل قطاروں کا نمونہ لینے کا اختیار ہے — جو کہ غیر مصنوعی فراڈ ڈیٹا کے ساتھ مل جانے پر، "فراڈ" اور "فراڈ نہیں" کی کلاسوں کی مساوی تقسیم کا باعث بنے گی۔ اصل کاگل ڈیٹاسیٹ اس میں 492 ٹرانزیکشنز میں سے 284,807 فراڈ تھے، اس لیے ہم سنتھیسائزر سے ایک ہی نمونہ بناتے ہیں۔

# use the same shape as the real data
synthetic_fraud = synthesizer.sample(492)

ہمارے پاس ڈیٹا اگمینٹیشن کہلانے والے عمل میں دھوکہ دہی والی لین دین پر مشتمل قطاروں کو اپ-سمپ کرنے کا اختیار ہے — جو کہ غیر مصنوعی فراڈ ڈیٹا کے ساتھ مل کر "فراڈ" اور "فراڈ نہیں" کلاسز کی مساوی تقسیم کا باعث بنے گی۔

مرحلہ 5: مصنوعی ڈیٹا کا حقیقی ڈیٹا سے موازنہ اور جائزہ لیں۔

اگرچہ یہ مرحلہ اختیاری ہے، آپ سکیٹر پلاٹ کا استعمال کرتے ہوئے اصل ڈیٹا کے مقابلے میں تیار کردہ مصنوعی ڈیٹا کو قابلیت سے دیکھ سکتے ہیں اور اس کا اندازہ لگا سکتے ہیں۔

اس سے ہمیں پیرامیٹرز کو درست کر کے، نمونے کا سائز تبدیل کر کے، اور انتہائی درست مصنوعی ڈیٹا بنانے کے لیے دیگر تبدیلیاں کر کے اپنے ماڈل کو دہرانے میں مدد ملتی ہے۔ درستگی کی یہ نوعیت ہمیشہ ترکیب کے مقصد پر منحصر ہوتی ہے۔

نیچے دی گئی تصویر میں دکھایا گیا ہے کہ تربیتی مراحل میں حقیقی فراڈ اور مصنوعی فراڈ ڈیٹا پوائنٹس میں کس قدر مماثلت ہے۔ اس سے مصنوعی اور اصل ڈیٹا کے درمیان مماثلت کا ایک اچھا گتاتمک معائنہ ملتا ہے اور جب ہم اسے مزید دوروں کے ذریعے چلاتے ہیں تو یہ کیسے بہتر ہوتا ہے (الگورتھم کے ذریعے پورے ٹریننگ ڈیٹاسیٹ کی منتقلی)۔ نوٹ کریں کہ جیسے جیسے ہم زیادہ دور چلاتے ہیں، مصنوعی ڈیٹا پیٹرن سیٹ اصل ڈیٹا کے قریب ہوتا جاتا ہے۔

مرحلہ 6: صاف کریں۔

آخر میں، غیر متوقع اخراجات سے بچنے کے لیے جب آپ ترکیب مکمل کر لیں تو اپنی نوٹ بک مثال کو روک دیں۔

نتیجہ

مشین لرننگ الگورتھم اور کوڈنگ فریم ورک کے طور پر تیزی سے تیار، پیمانے پر اعلی معیار کا ڈیٹا ML میں سب سے کم وسیلہ ہے۔ اچھے معیار کے مصنوعی ڈیٹاسیٹس کو مختلف کاموں میں استعمال کیا جا سکتا ہے۔

اس بلاگ پوسٹ میں، آپ نے اوپن سورس لائبریری کا استعمال کرتے ہوئے ڈیٹاسیٹ کی ترکیب کی اہمیت سیکھی ہے جو WGAN-GP. یہ ایک فعال تحقیقی علاقہ ہے جس میں GANs پر ہزاروں مقالے شائع ہوئے ہیں اور آپ کے لیے تجربہ کرنے کے لیے سینکڑوں نامی GAN دستیاب ہیں۔ ایسی مختلف قسمیں ہیں جو مخصوص استعمال کے معاملات جیسے رشتہ دار میزیں اور ٹائم سیریز ڈیٹا کے لیے موزوں ہیں۔

آپ اس مضمون کے لیے استعمال کیے گئے تمام کوڈ اس میں تلاش کر سکتے ہیں۔ نوٹ بک، اور یقینا، اس طرح کے مزید سبق سیج میکر سے دستیاب ہیں۔ سرکاری دستاویزات کا صفحہ۔

میں دوسرا حصہ اس دو حصوں پر مشتمل بلاگ پوسٹ سیریز میں، ہم اس بات پر گہرا غوطہ لگائیں گے کہ مخلصی، افادیت، اور رازداری کے نقطہ نظر سے مصنوعی ڈیٹا کے معیار کو کیسے جانچا جائے۔

مصنف کے بارے میں

فارس حداد AABG اسٹریٹجک پرسوٹ ٹیم میں ڈیٹا اور بصیرت کی قیادت ہے۔ وہ انٹرپرائزز کو کامیابی سے ڈیٹا پر مبنی بننے میں مدد کرتا ہے۔

ٹائم اسٹیمپ: دسمبر 16، 2022دسمبر 17، 2022

ٹائم اسٹیمپ: اپریل 12، 2023

Amazon SageMaker میں مصنوعی ڈیٹا کا استعمال کرتے ہوئے دھوکہ دہی کے لین دین میں اضافہ کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

حل کا جائزہ

ترقی کے ماحول کو ترتیب دیں۔

لازمی شرائط:

مرحلہ 1: اپنا ایمیزون سیج میکر مثال مرتب کریں۔

مرحلہ 2: مصنوعی ڈیٹا بنانے کے لیے اصلی ڈیٹاسیٹ کو ڈاؤن لوڈ یا نکالیں۔

مرحلہ 3: سنتھیسائزرز کو تربیت دیں اور ماڈل بنائیں

مرحلہ 4: سنتھیسائزر سے مصنوعی ڈیٹا کا نمونہ

مرحلہ 5: مصنوعی ڈیٹا کا حقیقی ڈیٹا سے موازنہ اور جائزہ لیں۔

مرحلہ 6: صاف کریں۔

نتیجہ

مصنف کے بارے میں

سے زیادہ AWS مشین لرننگ

Amazon Textract، Amazon Bedrock، اور LangChain کے ساتھ ذہین دستاویز کی پروسیسنگ | ایمیزون ویب سروسز

پانڈا کے صارف کی طرف سے طے شدہ فنکشنز اب ایمیزون سیج میکر ڈیٹا رینگلر میں دستیاب ہیں۔

ایمیزون سیج میکر اسٹوڈیو میں ایمیزون سیج میکر ڈیٹا رینگلر کو ڈیفالٹ لائف سائیکل کنفیگریشن کے ساتھ استعمال کریں۔

Amazon SageMaker ماڈل متوازی لائبریری اب PyTorch FSDP کام کے بوجھ کو 20٪ تک تیز کرتی ہے | ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ