زيادة معاملات الاحتيال باستخدام البيانات الاصطناعية في Amazon SageMaker

أعاد نشره أفلاطون

المتابعون: 0

يتطلب تطوير نماذج الاحتيال الناجحة للتعلم الآلي (ML) والتدريب عليها الوصول إلى كميات كبيرة من البيانات عالية الجودة. يعد تحديد مصادر هذه البيانات أمرًا صعبًا لأن مجموعات البيانات المتاحة في بعض الأحيان ليست كبيرة بما يكفي أو غير متحيزة بما يكفي لتدريب نموذج ML بشكل مفيد وقد تتطلب تكلفة ووقتًا كبيرين. تمنع متطلبات التنظيم والخصوصية أيضًا استخدام البيانات أو مشاركتها حتى داخل مؤسسة مؤسسية. غالبًا ما تؤخر عملية الترخيص باستخدام البيانات الحساسة والوصول إليها أو تعرقل مشاريع التعلم الآلي. بدلاً من ذلك ، يمكننا معالجة هذه التحديات من خلال إنشاء واستخدام البيانات التركيبية.

تصف البيانات التركيبية مجموعات البيانات التي تم إنشاؤها بشكل مصطنع والتي تحاكي المحتوى والأنماط في مجموعة البيانات الأصلية من أجل معالجة المخاطر التنظيمية والامتثال والوقت وتكاليف التوريد. تستخدم مولدات البيانات التركيبية البيانات الحقيقية لتعلم الميزات والارتباطات والأنماط ذات الصلة من أجل توليد الكميات المطلوبة من البيانات التركيبية التي تطابق الصفات الإحصائية لمجموعة البيانات المبتلعة في الأصل.

تم استخدام البيانات التركيبية في بيئات معملية لـ على مدى عقدين؛ السوق لديه دليل على المنفعة التي تسرع التبني في القطاعين التجاري والعام. جارتنر يتوقع أنه بحلول عام 2024 ، سيتم إنشاء 60 بالمائة من البيانات المستخدمة لتطوير حلول التعلم الآلي والتحليلات صناعياً وأن استخدام البيانات التركيبية سيستمر في الزيادة بشكل كبير.

هيئة السلوك المالي ، وهي هيئة تنظيمية في المملكة المتحدة ، يعترف أن "الوصول إلى البيانات هو الحافز للابتكار ، ويمكن للبيانات المالية التركيبية أن تلعب دورًا في دعم الابتكار وتمكين الوافدين الجدد من تطوير واختبار وإثبات قيمة الحلول الجديدة."

أمازون سيج ميكر جراوند تروث يدعم حاليا توليد البيانات التركيبية من بيانات الصور التركيبية المسمى. يستكشف منشور المدونة هذا توليد البيانات التركيبية المجدولة. البيانات المنظمة ، مثل الجداول الفردية والعلائقية ، وبيانات السلاسل الزمنية هي الأنواع التي غالبًا ما يتم مواجهتها في تحليلات المؤسسة.

هذه مشاركة مدونة مكونة من جزأين ؛ نقوم بإنشاء بيانات تركيبية في الجزء الأول وتقييم جودتها في الجزء الثاني.

في منشور المدونة هذا ، ستتعلم كيفية استخدام المكتبة مفتوحة المصدر يداتا الاصطناعية و أجهزة كمبيوتر AWS SageMaker المحمولة لتجميع البيانات المجدولة لحالة استخدام الاحتيال ، حيث لا يوجد لدينا ما يكفي من المعاملات الاحتيالية لتدريب نموذج احتيال عالي الدقة. يتم تغطية العملية العامة لتدريب نموذج الاحتيال في هذا بريد.. اعلاني.

نظرة عامة على الحل

الهدف من هذا البرنامج التعليمي هو تجميع فئة الأقلية لمجموعة بيانات احتيالية لبطاقات الائتمان غير المتوازنة للغاية باستخدام أداة محسّنة شبكة الخصومة التوليدية (GAN) تسمى WGAN-GP لتعلم الأنماط والخصائص الإحصائية للبيانات الأصلية ثم إنشاء عينات لا حصر لها من البيانات التركيبية التي تشبه البيانات الأصلية. يمكن أيضًا استخدام هذه العملية لتحسين البيانات الأصلية عن طريق أخذ عينات من الأحداث النادرة مثل الاحتيال أو لإنشاء حالات متطورة غير موجودة في الأصل.

نحن نستخدم مجموعة بيانات احتيال بطاقة الائتمان المنشورة من قبل ULB، والتي يمكن تنزيلها من Kaggle. يساعد إنشاء بيانات تركيبية لفئة الأقلية في معالجة المشكلات المتعلقة بمجموعات البيانات غير المتوازنة ، والتي يمكن أن تساعد في تطوير نماذج أكثر دقة.

نستخدم خدمات AWS ، بما في ذلك Amazon SageMaker و Amazon S3 ، والتي تتكبد تكاليف استخدام موارد السحابة.

قم بإعداد بيئة التطوير

يوفر SageMaker مثيل دفتر Jupyter مُدار لبناء النماذج والتدريب والنشر.

المتطلبات الأساسية:

يجب أن يكون لديك حساب AWS لتشغيل SageMaker. يمكنك الحصول بدأت مع SageMaker وحاول دروس عملية.

للحصول على إرشادات حول إعداد بيئة عمل Jupyter Notebook ، راجع ابدأ مع مثيلات Amazon SageMaker Notebook.

الخطوة 1: قم بإعداد مثيل Amazon SageMaker الخاص بك

سجّل الدخول إلى وحدة تحكم AWS وابحث عن "SageMaker".
أختار استوديو.
أختار مثيلات دفتر الملاحظات على الشريط الأيسر ، وحدد إنشاء مثيل دفتر.
من الصفحة التالية (كما هو موضح في الصورة التالية) ، حدد تكوينات الجهاز الظاهري (VM) وفقًا لاحتياجاتك ، وحدد إنشاء مثيل دفتر. لاحظ أننا استخدمنا جهاز افتراضي محسّن من ML بدون GPU و 5 غيغابايت من البيانات ، و ml.t3.medium يعمل بنظام Amazon Linux 2 ، و Jupyter Lab 3 kernel.
سيكون مثيل دفتر الملاحظات جاهزًا للاستخدام في غضون بضع دقائق.
أختار افتح JupyterLab للاطلاق.
الآن بعد أن أصبح لدينا JupyterLab بالمواصفات المطلوبة ، سنقوم بتثبيت المكتبة التركيبية.

pip install ydata-synthetic

الخطوة 2: قم بتنزيل أو استخراج مجموعة البيانات الحقيقية لإنشاء بيانات تركيبية

قم بتنزيل البيانات المرجعية من Kaggle إما يدويًا ، كما نفعل هنا ، أو برمجيًا من خلال Kaggle API إذا كان لديك حساب Kaggle. إذا قمت باستكشاف مجموعة البيانات هذه ، فستلاحظ أن فئة "الاحتيال" تحتوي على بيانات أقل بكثير من فئة "عدم الاحتيال".

إذا كنت تستخدم هذه البيانات مباشرةً في تنبؤات التعلم الآلي ، فقد تتعلم النماذج دائمًا كيفية التنبؤ بـ "عدم الاحتيال". سيكون للنموذج دقة أعلى بسهولة في حالات عدم الاحتيال نظرًا لأن حالات الاحتيال نادرة. ومع ذلك ، نظرًا لأن اكتشاف حالات الاحتيال هو هدفنا في هذا التمرين ، فسنعمل على زيادة أرقام فئة الاحتيال ببيانات تركيبية على غرار البيانات الحقيقية.

قم بإنشاء مجلد بيانات في JupyterLab وقم بتحميل ملف بيانات Kaggle فيه. سيتيح لك ذلك استخدام البيانات الموجودة في دفتر الملاحظات منذ SageMaker يأتي مع تخزين التي كنت ستحددها عند إنشاء مثيل لدفتر الملاحظات.

يبلغ حجم مجموعة البيانات هذه 144 ميغا بايت

يمكنك بعد ذلك قراءة البيانات باستخدام الكود القياسي عبر مكتبة الباندا:

import pandas as pd
data = pd.read_csv('./data/creditcard.csv')

بيانات كشف الاحتيال لها خصائص معينة ، وهي:

اختلالات فئة كبيرة (عادةً نحو نقاط بيانات غير احتيالية).
مخاوف تتعلق بالخصوصية (بسبب وجود بيانات حساسة).
درجة من الديناميكية ، حيث يحاول المستخدم الضار دائمًا تجنب الكشف عن طريق أنظمة مراقبة المعاملات الاحتيالية.
مجموعات البيانات المتاحة كبيرة جدًا وغالبًا ما تكون غير مسماة.

الآن بعد أن قمت بفحص مجموعة البيانات ، دعنا نقوم بتصفية فئة الأقلية (فئة "الاحتيال" من مجموعة بيانات بطاقة الائتمان) وإجراء التحويلات كما هو مطلوب. يمكنك التحقق من تحويلات البيانات من هذا مفكرة.

عندما يتم تجميع مجموعة بيانات فئة الأقليات هذه وإضافتها مرة أخرى إلى مجموعة البيانات الأصلية ، فإنها تسمح بتوليد مجموعة بيانات مركبة أكبر تعالج عدم التوازن في البيانات. يمكننا تحقيق دقة أكبر في التنبؤ من خلال تدريب نموذج كشف الاحتيال باستخدام مجموعة البيانات الجديدة.

لنجمع مجموعة بيانات الاحتيال الجديدة.

الخطوة 3: تدريب المركّبات وإنشاء النموذج

نظرًا لتوفر البيانات بسهولة داخل SageMaker ، فقد حان الوقت لتشغيل نماذج GAN الاصطناعية الخاصة بنا.

تتكون شبكة الخصومة التوليدية (GAN) من جزأين:

• مولد كهربائي يتعلم كيفية إنشاء بيانات معقولة. تصبح الأمثلة التي تم إنشاؤها أمثلة تدريب سلبية للمميز.

• مميز يتعلم تمييز البيانات المزيفة للمولد عن البيانات الحقيقية. يعاقب المُميِّز المولد على إنتاج نتائج غير معقولة.

عندما يبدأ التدريب ، ينتج المولد بيانات مزيفة بشكل واضح ، وسرعان ما يتعلم المميّز أن يقول إنها مزيفة. مع تقدم التدريب ، يقترب المولد من إنتاج مخرجات يمكن أن تخدع أداة التمييز. أخيرًا ، إذا سارت عملية تدريب المولدات بشكل جيد ، فإن أداة التمييز تزداد سوءًا في معرفة الفرق بين الحقيقي والمزيف. يبدأ في تصنيف البيانات المزيفة على أنها حقيقية ، وتقل دقتها.

كل من المولد والمميز عبارة عن شبكات عصبية. يتم توصيل خرج المولد مباشرة بإدخال أداة التمييز. خلال انتشار عكسي، يوفر تصنيف أداة التمييز إشارة يستخدمها المولد لتحديث أوزانه.

الخطوة 4: عينة من البيانات التركيبية من المركب

الآن بعد أن قمت ببناء النموذج الخاص بك وتدريبه ، حان الوقت لأخذ عينات من البيانات المطلوبة عن طريق تغذية النموذج بالضوضاء. يمكّنك هذا من إنشاء أكبر قدر تريده من البيانات التركيبية.

في هذه الحالة ، تقوم بإنشاء كمية متساوية من البيانات التركيبية لكمية البيانات الفعلية لأن هذا يسهل مقارنة أحجام العينات المماثلة في الخطوة 5.

لدينا خيار أخذ عينات من الصفوف التي تحتوي على معاملات احتيالية - والتي ، عند دمجها مع بيانات الاحتيال غير الاصطناعية ، ستؤدي إلى توزيع متساوٍ لفئتي "الاحتيال" و "عدم الاحتيال". الأصلي مجموعة بيانات Kaggle احتوت على 492 عملية احتيال من أصل 284,807 معاملة ، لذلك قمنا بإنشاء نفس العينة من المركب.

# use the same shape as the real data
synthetic_fraud = synthesizer.sample(492)

لدينا خيار تحديث الصفوف التي تحتوي على معاملات احتيالية في عملية تسمى زيادة البيانات - والتي ، عند دمجها مع بيانات الاحتيال غير الاصطناعية ، ستؤدي إلى توزيع متساوٍ لفئتي "الاحتيال" و "عدم الاحتيال".

الخطوة 5: قارن وتقييم البيانات التركيبية مقابل البيانات الحقيقية

على الرغم من أن هذه الخطوة اختيارية ، إلا أنه يمكنك تصور وتقييم البيانات التركيبية التي تم إنشاؤها بشكل نوعي مقابل البيانات الفعلية باستخدام مخطط مبعثر.

يساعدنا هذا في تكرار نموذجنا من خلال تعديل المعلمات وتغيير حجم العينة وإجراء تحولات أخرى لتوليد البيانات التركيبية الأكثر دقة. تعتمد طبيعة الدقة هذه دائمًا على الغرض من التوليف

توضح الصورة أدناه مدى تشابه نقاط بيانات الاحتيال الفعلية والاحتيال التركيبي عبر خطوات التدريب. يوفر هذا فحصًا نوعيًا جيدًا للتشابه بين البيانات التركيبية والفعلية وكيف يتحسن ذلك أثناء تشغيلنا عبر المزيد من العصور (عبور مجموعة بيانات التدريب بالكامل من خلال الخوارزمية). لاحظ أنه مع تشغيل المزيد من الحقب ، تقترب مجموعة أنماط البيانات التركيبية من البيانات الأصلية.

الخطوة الثانية: التنظيف

أخيرًا ، قم بإيقاف مثيل دفتر الملاحظات عند الانتهاء من التجميع لتجنب التكاليف غير المتوقعة.

وفي الختام

كخوارزميات التعلم الآلي وأطر الترميز تتطور بسرعة، البيانات عالية الجودة على نطاق واسع هي أندر مورد في ML. يمكن استخدام مجموعات البيانات التركيبية عالية الجودة في مجموعة متنوعة من المهام.

في منشور المدونة هذا ، تعلمت أهمية تجميع مجموعة البيانات باستخدام مكتبة مفتوحة المصدر تستخدم WGAN-GP. هذا مجال بحث نشط يحتوي على آلاف الأوراق المنشورة حول شبكات GAN والعديد من المئات من شبكات GAN المسماة المتاحة لك لتجربتها. هناك متغيرات تم تحسينها لحالات استخدام محددة مثل الجداول العلائقية وبيانات السلاسل الزمنية.

يمكنك العثور على جميع الرموز المستخدمة لهذه المقالة في هذا مفكرة، وبالطبع ، تتوفر المزيد من البرامج التعليمية مثل هذه من SageMaker صفحة التوثيق الرسمية.

في مجلة الجزء الثاني في سلسلة منشورات المدونة هذه المكونة من جزأين ، سنقوم بغوص عميق في كيفية تقييم جودة البيانات التركيبية من منظور الدقة والمنفعة والخصوصية.

عن المؤلف

فارس حداد هو قائد البيانات والرؤى في فريق AABG الإستراتيجية. إنه يساعد الشركات على أن تصبح مدفوعة بالبيانات بنجاح.

الطابع الزمني: 16 كانون الأول، 202217 كانون الأول، 2022

الطابع الزمني: أبريل 12، 2023

زيادة معاملات الاحتيال باستخدام البيانات التركيبية في Amazon SageMaker

أعاد نشره أفلاطون

نظرة عامة على الحل

قم بإعداد بيئة التطوير

المتطلبات الأساسية:

الخطوة 1: قم بإعداد مثيل Amazon SageMaker الخاص بك

الخطوة 2: قم بتنزيل أو استخراج مجموعة البيانات الحقيقية لإنشاء بيانات تركيبية

الخطوة 3: تدريب المركّبات وإنشاء النموذج

الخطوة 4: عينة من البيانات التركيبية من المركب

الخطوة 5: قارن وتقييم البيانات التركيبية مقابل البيانات الحقيقية

الخطوة الثانية: التنظيف

وفي الختام

عن المؤلف

اكثر من التعلم الآلي من AWS

معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain | خدمات الويب الأمازون

تتوفر الآن وظائف Pandas التي يحددها المستخدم في Amazon SageMaker Data Wrangler

استخدم Amazon SageMaker Data Wrangler في Amazon SageMaker Studio بتكوين دورة حياة افتراضية

تعمل المكتبة المتوازية لنموذج Amazon SageMaker الآن على تسريع أعباء عمل PyTorch FSDP بنسبة تصل إلى 20% | خدمات الويب الأمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي