سوفوس ایمیزون سیج میکر کے ساتھ الٹرا اسکیل پر ایک طاقتور، ہلکا پھلکا پی ڈی ایف میلویئر ڈیٹیکٹر کیسے تربیت دیتا ہے

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ پوسٹ سوفوس سے سلمیٰ توفیق اور ہارینی کنن کی مشترکہ تصنیف ہے۔

اگلی نسل کی سائبر سیکیورٹی میں رہنما کے طور پر، Sophos 500,000 سے زیادہ ممالک میں 150 سے زیادہ تنظیموں اور لاکھوں صارفین کو ابھرتے ہوئے خطرات سے بچانے کے لیے کوشاں ہے۔ Sophos X-Ops سے تھریٹ انٹیلی جنس، مشین لرننگ (ML) اور مصنوعی ذہانت سے تقویت یافتہ، Sophos جدید مصنوعات اور خدمات کا ایک وسیع اور متنوع پورٹ فولیو فراہم کرتا ہے تاکہ صارفین، نیٹ ورکس، اور فشنگ، رینسم ویئر، مالویئر، اور اینڈ پوائنٹس کو محفوظ اور محفوظ کیا جا سکے۔ وہاں سائبر حملوں کی وسیع رینج۔

۔ سوفوس مصنوعی ذہانت (AI) گروپ (SophosAI) Sophos کی بڑی ML سیکیورٹی ٹیکنالوجی کی ترقی اور دیکھ بھال کی نگرانی کرتا ہے۔ سیکیورٹی ایک بڑا ڈیٹا مسئلہ ہے۔ پتہ لگانے سے بچنے کے لیے، سائبر جرائم پیشہ افراد مسلسل نئے حملے کر رہے ہیں۔ یہ بہت بڑے خطرے والے ڈیٹاسیٹس میں ترجمہ کرتا ہے جس کے ساتھ گروپ کو کسٹمرز کا بہترین دفاع کرنے کے لیے کام کرنا چاہیے۔ ایک قابل ذکر مثال ان فائلوں کا پتہ لگانا اور ان کا خاتمہ ہے جن پر چالاکی سے میلویئر لگایا گیا تھا، جہاں ڈیٹاسیٹ ٹیرا بائٹس میں ہیں۔

اس پوسٹ میں، ہم خاص طور پر پی ڈی ایف فائل فارمیٹ کے لیے سوفوس کے میلویئر کا پتہ لگانے کے نظام پر توجہ مرکوز کرتے ہیں۔ ہم یہ ظاہر کرتے ہیں کہ SophosAI کس طرح استعمال کرتا ہے۔ ایمیزون سیج میکر ایک طاقتور ہلکے وزن والے XGBoost (Extreme Gradient Boosting) ماڈل کو تربیت دینے کے لیے ٹیرا بائٹس ڈیٹا کے ساتھ تربیت تقسیم کی۔ یہ ان کی ٹیم کو خودکار ہائپر پیرامیٹر ٹیوننگ کے ساتھ اور بنیادی تربیتی انفراسٹرکچر کا انتظام کیے بغیر بڑے ٹریننگ ڈیٹا پر تیزی سے اعادہ کرنے کی اجازت دیتا ہے۔

حل فی الحال بغیر کسی رکاوٹ کے پروڈکشن ٹریننگ پائپ لائن میں ضم ہے اور ماڈل کے ذریعے لاکھوں صارف کے اختتامی مقامات پر تعینات کیا گیا ہے۔ سوفوس اینڈ پوائنٹ سروس.

کیس کا سیاق و سباق استعمال کریں۔

چاہے آپ کسی اہم معاہدے کا اشتراک کرنا چاہتے ہیں یا اپنے CV کے فینسی ڈیزائن کو محفوظ رکھنا چاہتے ہیں، PDF فارمیٹ سب سے عام انتخاب ہے۔ اس کے وسیع پیمانے پر استعمال اور عام تاثر کہ اس طرح کی دستاویزات ایئر ٹائٹ اور جامد ہیں، نے صارفین کو تحفظ کے غلط احساس میں مبتلا کر دیا ہے۔ پی ڈی ایف، لہذا، حملہ آوروں کے ہتھیاروں میں انتخاب کا ایک انفیکشن ویکٹر بن گیا ہے۔ PDFs کا استعمال کرتے ہوئے بدنیتی پر مبنی کارروائیاں اکثر JavaScript پے لوڈ کو سرایت کرنے کے ذریعے حاصل کی جاتی ہیں جو PDF ریڈر کے ذریعے URI سے وائرس ڈاؤن لوڈ کرنے، صارف کی مشین کو سبوتاژ کرنے، یا حساس معلومات چوری کرنے کے لیے چلایا جاتا ہے۔

سوفوس ڈیٹرمنسٹک اور ایم ایل ماڈلز کے جوڑ کا استعمال کرتے ہوئے حملے کے مختلف مقامات پر بدنیتی پر مبنی پی ڈی ایف فائلوں کا پتہ لگاتا ہے۔ ایسا ہی ایک طریقہ درج ذیل خاکہ میں دکھایا گیا ہے، جہاں نقصان دہ پی ڈی ایف فائل ای میل کے ذریعے ڈیلیور کی جاتی ہے۔ جیسے ہی ڈاؤن لوڈ کی کوشش کی جاتی ہے، یہ حملہ آور کے کمانڈ اینڈ کنٹرول سرور سے منسلک ہونے کے لیے بدنیتی پر مبنی قابل عمل اسکرپٹ کو متحرک کرتا ہے۔ SophosAI کا پی ڈی ایف ڈیٹیکٹر یہ معلوم کرنے کے بعد ڈاؤن لوڈ کی کوشش کو روکتا ہے کہ یہ بدنیتی پر مبنی ہے۔

دوسرے طریقوں میں پی ڈی ایف فائلوں کو اینڈ پوائنٹ میں بلاک کرنا، بدنیتی پر مبنی فائلوں کو سینڈ باکس میں بھیجنا (جہاں اسے متعدد ماڈلز کا استعمال کرتے ہوئے اسکور کیا جاتا ہے)، نقصان دہ فائل کو اسکورنگ انفراسٹرکچر میں جمع کرنا اور سیکیورٹی رپورٹ بنانا، وغیرہ شامل ہیں۔

پریرتا

ایک درخت پر مبنی ڈٹیکٹر بنانے کے لیے جو نقصان دہ پی ڈی ایف کو اعلی اعتماد کے ساتھ مجرم ٹھہرا سکے، جبکہ کم اینڈ پوائنٹ کمپیوٹنگ پاور کی کھپت اور تیز انفرنس ردعمل کی اجازت دیتے ہوئے، SophosAI ٹیم نے XGBoost الگورتھم کو کام کے لیے بہترین امیدوار پایا۔ اس طرح کے تحقیقی راستے سوفوس کے لیے دو وجوہات کی بنا پر اہم ہیں۔ کسٹمر اینڈ پوائنٹس کی سطح پر طاقتور لیکن چھوٹے ماڈلز کے تعینات ہونے کا تجزیہ کاروں کے ذریعہ کمپنی کے پروڈکٹ کے جائزوں پر بہت زیادہ اثر پڑتا ہے۔ یہ بھی، اور زیادہ اہم بات، مجموعی طور پر صارف کا بہتر تجربہ فراہم کرتا ہے۔

تکنیکی چیلنج

کیونکہ مقصد ان کے موجودہ پی ڈی ایف میلویئر ڈیٹیکٹرز (دونوں ڈسک پر اور میموری دونوں میں) کے مقابلے میں ایک چھوٹا میموری فوٹ پرنٹ والا ماڈل حاصل کرنا تھا، سوفوس اے آئی نے XGBoost کو تبدیل کر دیا، ایک درجہ بندی الگورتھم جس میں عصبی نیٹ ورکس کے مقابلے میں انتہائی چھوٹے ماڈل تیار کرنے کا ثابت شدہ ریکارڈ ہے جبکہ متاثر کن کامیابی حاصل کی۔ ٹیبلر ڈیٹا پر کارکردگی۔ XGBoost تجربات کی ماڈلنگ کرنے سے پہلے، ایک اہم غور ڈیٹاسیٹ کا سراسر سائز تھا۔ درحقیقت، سوفوس کا پی ڈی ایف فائلوں کا بنیادی ڈیٹاسیٹ ٹیرا بائٹس میں ہے۔

لہذا، بنیادی چیلنج ایک بڑے ڈیٹاسیٹ کے ساتھ ماڈل کو بغیر نمونے کے تربیت دینا تھا۔ کیونکہ ڈیٹیکٹر کے لیے پی ڈی ایف پر مبنی کسی بھی حملے کو تلاش کرنا سیکھنا بہت ضروری ہے — یہاں تک کہ سوفوس کے صارفین کا بہتر دفاع کرنے کے لیے سوئی کے اندر موجود اور مکمل طور پر نوول — تمام دستیاب متنوع ڈیٹا سیٹس کا استعمال کرنا انتہائی اہمیت کا حامل ہے۔

عصبی نیٹ ورکس کے برعکس، جہاں آپ بیچوں میں تربیت لے سکتے ہیں، XGBoost کے لیے، ہمیں میموری میں تربیت کے پورے ڈیٹاسیٹ کی ضرورت ہے۔ اس پروجیکٹ کے لیے سب سے بڑا تربیتی ڈیٹا سیٹ 1 ٹی بی سے زیادہ ہے، اور تقسیم شدہ تربیتی فریم ورک کے طریقہ کار کو استعمال کیے بغیر اس پیمانے پر تربیت کا کوئی طریقہ نہیں ہے۔

حل جائزہ

SageMaker ایک مکمل طور پر منظم ML سروس ہے جو ML ماڈلز کی تعمیر، تربیت، اصلاح اور تعیناتی کے لیے مختلف ٹولز فراہم کرتی ہے۔ دی سیج میکر الگورتھم کی بلٹ ان لائبریریاں XGBoost سمیت 21 مشہور ML الگورتھم پر مشتمل ہے۔ (مزید معلومات کے لیے دیکھیں XGBoost اور Amazon SageMaker کے ساتھ مشین لرننگ کو آسان بنائیں.) XGBoost بلٹ ان الگورتھم کے ساتھ، آپ اوپن سورس سے فائدہ اٹھا سکتے ہیں۔ سیج میکر XGBoost کنٹینر 1.0-1 سے بڑے فریم ورک ورژن کی وضاحت کرکے، جس میں لچک، توسیع پذیری، توسیع پذیری، اور منظم سپاٹ ٹریننگ میں بہتری آئی ہے، اور Parquet جیسے ان پٹ فارمیٹس کو سپورٹ کرتا ہے، جو PDF ڈیٹاسیٹ کے لیے استعمال ہونے والا فارمیٹ ہے۔

SophosAI نے SageMaker کو منتخب کرنے کی بنیادی وجہ یہ ہے کہ ملٹی نوڈ CPU مثالوں پر صرف ایک سے زیادہ مثالیں بتا کر مکمل طور پر منظم تقسیم شدہ تربیت سے فائدہ اٹھانے کی صلاحیت ہے۔ سیج میکر خود بخود ڈیٹا کو نوڈس میں تقسیم کرتا ہے، نتائج کو پیئر نوڈس میں جمع کرتا ہے، اور ایک ماڈل تیار کرتا ہے۔ مثالیں سپاٹ مثالیں ہو سکتی ہیں، اس طرح تربیت کے اخراجات میں نمایاں کمی واقع ہوتی ہے۔ کے ساتہ XGBoost کے لیے بلٹ ان الگورتھم، آپ یہ کسی اضافی حسب ضرورت اسکرپٹ کے بغیر کر سکتے ہیں۔ XGBoost کے تقسیم شدہ ورژن بھی اوپن سورس کے طور پر موجود ہیں، جیسے XGBoost-Ray اور XGBoost4J-Sparkلیکن ان کے استعمال کے لیے تقسیم شدہ کمپیوٹنگ کلسٹرز کی تعمیر، حفاظت، ٹیوننگ، اور خود نظم و نسق کی ضرورت ہوتی ہے، جو سائنسی ترقی کے لیے اضافی اہم کوششوں کی نمائندگی کرتا ہے۔

اس کے علاوہ، سیج میکر خودکار ماڈل ٹیوننگجسے ہائپر پیرامیٹر ٹیوننگ کے نام سے بھی جانا جاتا ہے، آپ کے بتائے ہوئے ہائپر پیرامیٹر کی حدود کے ساتھ بہت سے تربیتی جابز چلا کر ماڈل کا بہترین ورژن تلاش کرتا ہے۔ اس کے بعد یہ ہائپر پیرامیٹر اقدار کا انتخاب کرتا ہے جس کے نتیجے میں ایک ایسا ماڈل ہوتا ہے جو بہترین کارکردگی کا مظاہرہ کرتا ہے، جیسا کہ دیے گئے ML ٹاسک کے لیے میٹرک کے ذریعے ماپا جاتا ہے۔

مندرجہ ذیل خاکہ حل کے فن تعمیر کی وضاحت کرتا ہے۔

Sophos کس طرح Amazon SageMaker PlatoBlockchain Data Intelligence کے ساتھ الٹرا پیمانے پر ایک طاقتور، ہلکے وزن والے PDF میلویئر ڈیٹیکٹر کو تربیت دیتا ہے۔ عمودی تلاش۔ عی

یہ بات قابل غور ہے کہ، جب SophosAI نے SageMaker کی طرف رجوع کرنے سے پہلے XGBoost تجربات شروع کیے، بڑی میموری کو استعمال کرنے کی کوششیں کی گئیں۔ ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون EC2) مثالیں (مثال کے طور پر، r5a.24xlarge اور x1.32xlarge) ماڈل کو زیادہ سے زیادہ ڈیٹا کے نمونے پر تربیت دینے کے لیے۔ تاہم، ان کوششوں میں اوسطاً 10 گھنٹے سے زیادہ کا وقت لگتا ہے اور عام طور پر میموری ختم ہونے کی وجہ سے ناکام ہو جاتا ہے۔

اس کے برعکس، SageMaker XGBoost الگورتھم اور کسی پریشانی سے پاک تقسیم شدہ تربیتی طریقہ کار کا استعمال کرتے ہوئے، SophosAI 20 منٹوں میں پی ڈی ایف ٹریننگ ڈیٹاسیٹ پر بڑے پیمانے پر بوسٹر ماڈل کو تربیت دے سکتا ہے۔ ٹیم کو صرف ڈیٹا کو اسٹور کرنا تھا۔ ایمیزون سادہ اسٹوریج سروس (Amazon S3) ایک جیسے سائز کی Parquet فائلوں کے طور پر، اور EC2 مثال کی قسم اور مثالوں کی مطلوبہ تعداد کا انتخاب کریں، اور SageMaker نے بنیادی کمپیوٹ کلسٹر انفراسٹرکچر کا انتظام کیا اور کلسٹر کے متعدد نوڈس کے درمیان تربیت تقسیم کی۔ ہڈ کے نیچے، SageMaker ShardedByS3Key کا استعمال کرتے ہوئے ڈیٹا کو تمام نوڈس میں تقسیم کرتا ہے تاکہ فائل آبجیکٹ کو ہر ایک مثال کے درمیان یکساں طور پر تقسیم کیا جا سکے اور XGBoost کے نفاذ کا استعمال کیا جا سکے۔ خرگوش پروٹوکول (قابل اعتماد AllReduce اور براڈکاسٹ انٹرفیس) تقسیم شدہ پروسیسنگ شروع کرنے اور پرائمری اور پیر نوڈس کے درمیان بات چیت کرنے کے لیے۔ (ہسٹوگرام جمع کرنے اور نوڈس میں نشریات کے بارے میں مزید تفصیلات کے لیے، رجوع کریں۔ XGBoost: ایک توسیع پذیر ٹری بوسٹنگ سسٹم.)

سیج میکر کے ساتھ صرف ایک ماڈل کی تربیت کے علاوہ، XGBoost ہائپر پیرامیٹر ٹیوننگ ہائپر پیرامیٹرس کے بہترین امتزاج کو بہتر بنانے کے لیے بیک وقت مختلف تجربات کو چلانے کی صلاحیت کے ساتھ تیز اور آسان بھی بنایا گیا تھا۔ ٹیون ایبل ہائپر پیرامیٹرس میں بوسٹر کے لیے مخصوص اور مقصدی فنکشن کے لیے مخصوص ہائپر پیرامیٹر دونوں شامل ہیں۔ دو تلاش کی حکمت عملی پیش کیے جاتے ہیں: بے ترتیب یا Bayesian. Bayesian تلاش کی حکمت عملی قابل قدر ثابت ہوئی ہے کیونکہ یہ کم تجرباتی تکرار میں، محض بے ترتیب تلاش سے بہتر ہائپرپیرامیٹر تلاش کرنے میں مدد کرتی ہے۔

ڈیٹا سیٹ کی معلومات

SophosAI کی پی ڈی ایف میلویئر کا پتہ لگانے والی ماڈلنگ مختلف خصوصیات پر انحصار کرتی ہے جیسے این-گرام ہسٹوگرام اور بائٹ اینٹروپی خصوصیات (مزید معلومات کے لیے، ملاحظہ کریں MEADE: بدنیتی پر مبنی ای میل اٹیچمنٹ کا پتہ لگانے والے انجن کی طرف)۔ جمع شدہ پی ڈی ایف فائلوں سے نکالا گیا میٹا ڈیٹا اور فیچرز کو تقسیم شدہ ڈیٹا گودام میں محفوظ کیا جاتا ہے۔ اس کے بعد 3,500 سے زیادہ فیچرز کے ڈیٹاسیٹ کی گنتی کی جاتی ہے، مزید وقت کی بنیاد پر ٹریننگ اور ٹیسٹ سیٹس میں تقسیم کیا جاتا ہے اور Amazon S3 میں Parquet فائلوں کے طور پر بیچوں میں محفوظ کیا جاتا ہے تاکہ سیج میکر تربیتی ملازمتوں کے لیے آسانی سے قابل رسائی ہو۔

درج ذیل جدول تربیت اور ٹیسٹ کے اعداد و شمار کے بارے میں معلومات فراہم کرتا ہے۔

ڈیٹا بیس	نمونے کی تعداد	پارکیٹ فائلوں کی تعداد	کل سائز
ٹریننگ	70,391,634	5,500	~1010 جی بی
ٹیسٹ	1,242,283	98	~18 جی بی

فارمولے کے بعد ڈیٹا کے سائز کی گنتی کی گئی ہے:

ڈیٹا سائز = N × (n_F + این_L) × 4

فارمولے میں درج ذیل پیرامیٹرز ہیں:

N ڈیٹاسیٹ میں نمونوں کی تعداد ہے۔
n_F کے ساتھ خصوصیات کی تعداد ہے n_F 3585 =
n_L n کے ساتھ زمینی سچائی کے لیبلز کی تعداد ہے۔_L 1 =
4 خصوصیات کے ڈیٹا کی قسم کے لیے درکار بائٹس کی تعداد ہے: float32

مزید برآں، مندرجہ ذیل پائی چارٹس تربیت اور ٹیسٹ سیٹ دونوں کے لیبل کی تقسیم فراہم کرتے ہیں، جو PDF میلویئر کا پتہ لگانے کے کام میں درپیش طبقاتی عدم توازن کو واضح کرتے ہیں۔

تقسیم ٹریننگ سیٹ سے ایک ماہ کے ٹیسٹ سیٹ میں بدل جاتی ہے۔ ڈیٹاسیٹ کی تربیت اور جانچ میں وقتی بنیاد پر تقسیم کا اطلاق حقیقی زندگی کی تعیناتی کے منظر نامے کی تقلید اور وقتی جاسوسی سے بچنے کے لیے کیا جاتا ہے۔ اس حکمت عملی نے SophosAI کو ماڈل کی حقیقی عمومی صلاحیتوں کا جائزہ لینے کی بھی اجازت دی جب مثال کے طور پر پہلے سے غیر دیکھے ہوئے بالکل نئے پی ڈی ایف حملوں کا سامنا کرنا پڑا۔

تجربات اور نتائج

تجربات کو شروع کرنے کے لیے، SophosAI ٹیم نے پہلے سے طے شدہ پیرامیٹرز کے ساتھ ایک بیس لائن XGBoost ماڈل کو تربیت دی۔ اس کے بعد انہوں نے Bayesian حکمت عملی کا استعمال کرتے ہوئے SageMaker کے ساتھ ہائپر پیرامیٹر فائن ٹیوننگ کرنا شروع کر دیا، جو اتنا ہی آسان ہے جتنا کہ وضاحت کرنا ہائپرپیرامیٹر ٹیون کیا جائے اور اقدار کی مطلوبہ حد، تشخیص میٹرک (آر او سی (رسیور آپریٹنگ کریکٹرسٹک) اس معاملے میں اے یو سی) اور تربیت اور توثیق کے سیٹ۔ پی ڈی ایف میلویئر ڈیٹیکٹر کے لیے، سوفوس اے آئی نے ہائپر پیرامیٹر کو ترجیح دی جس میں بوسٹنگ راؤنڈز کی تعداد (num_roundدرخت کی زیادہ سے زیادہ گہرائی (max_depthسیکھنے کی شرح (eta)، اور درخت بناتے وقت کالموں کے نمونے لینے کا تناسب (colsample_bytree)۔ بالآخر، بہترین ہائپرپیرامیٹر حاصل کیے گئے اور مکمل ڈیٹاسیٹ پر ایک ماڈل کو تربیت دینے کے لیے استعمال کیا گیا، اور آخر میں ہولڈ آؤٹ ٹیسٹ سیٹ پر جانچا گیا۔

مندرجہ ذیل پلاٹ مقصدی میٹرک (ROC AUC) بمقابلہ 15 تربیتی جاب کو دکھاتا ہے جو ٹیوننگ جاب کے اندر چلتی ہیں۔ بہترین ہائپرپیرامیٹر وہ ہیں جو نویں تربیتی کام سے مطابقت رکھتے ہیں۔

SageMaker پر SophosAI کے تجربات کے آغاز میں، جواب دینے کے لیے ایک خاص طور پر اہم سوال یہ تھا: ہاتھ میں موجود ڈیٹا پر XGBoost کو تربیت دینے کے لیے کس قسم کی مثالیں اور ان میں سے کتنی کی ضرورت ہے؟ یہ بہت اہم ہے کیونکہ غلط نمبر یا مثال کا استعمال وقت اور پیسے کا ضیاع ہو سکتا ہے۔ یادداشت ختم ہونے کی وجہ سے تربیت ناکام ہو جائے گی، یا، اگر بہت زیادہ بڑی مثالیں استعمال کی جائیں، تو یہ غیر ضروری طور پر مہنگا ہو سکتا ہے۔

XGBoost ایک میموری سے منسلک (کمپیوٹ باؤنڈ کے برعکس) الگورتھم ہے۔ لہذا، ایک عام مقصد کی کمپیوٹ مثال (مثال کے طور پر، M5) کمپیوٹ کے لیے موزوں مثال (مثال کے طور پر، C4) سے بہتر انتخاب ہے۔ باخبر فیصلہ کرنے کے لیے، مکمل ڈیٹا سیٹ پر ٹریننگ چلانے کے لیے درکار مثالوں کی تعداد کو منتخب کرنے کے لیے ایک سادہ سیج میکر گائیڈ لائن موجود ہے:

کل ٹریننگ ڈیٹا سائز × حفاظتی عنصر^(*) < مثال کی گنتی × مثال کی قسم کی کل میموری

اس صورت میں: کل ٹریننگ ڈیٹا سائز × حفاظتی عنصر (12) = 12120 جی بی

مندرجہ ذیل جدول ضروریات کا خلاصہ کرتا ہے جب منتخب کردہ مثال کی قسم ml.m5.24xlarge ہو۔

تربیت کا سائز × حفاظتی عنصر (12)	مثال کی میموری ml.m5.24xlarge	تربیت کے لیے کم از کم مثال کی گنتی درکار ہے۔
12120 GB	384 GB	32

^*XGBoost کی تقسیم شدہ تربیت کی نوعیت کی وجہ سے، جس میں تربیت سے پہلے پورے ٹریننگ ڈیٹاسیٹ کو DMMatrix آبجیکٹ میں لوڈ کرنے کی ضرورت ہوتی ہے اور اضافی مفت میموری، 10-12 کے حفاظتی عنصر کی سفارش کی جاتی ہے۔

فراہم کردہ ڈیٹاسیٹ پر XGBoost کی مکمل سیج میکر ٹریننگ کے لیے میموری کے استعمال کو قریب سے دیکھنے کے لیے، ہم ٹریننگ سے حاصل کردہ متعلقہ گراف فراہم کرتے ہیں۔ ایمیزون کلاؤڈ واچ نگرانی اس تربیتی کام کے لیے، 40 ml.m5.24x بڑی مثالیں استعمال کی گئیں اور میموری کا زیادہ سے زیادہ استعمال تقریباً 62% تک پہنچ گیا۔

SageMaker جیسی منظم ML سروس کو ڈیٹا پائپ لائن میں ضم کرنے سے انجینئرنگ کی لاگت تقریباً 50% ہے۔ ٹریننگ اور ہائپر پیرامیٹر ٹیوننگ جابز کے لیے اسپاٹ انسٹینس کو استعمال کرنے کا اختیار اضافی 63 فیصد کم کرتا ہے۔

نتیجہ

SageMaker کے ساتھ، SophosAI ٹیم ایک ہلکے وزن والے PDF میلویئر کا پتہ لگانے والا XGBoost ماڈل بنا کر ایک پیچیدہ اعلی ترجیحی پروجیکٹ کو کامیابی کے ساتھ حل کر سکتی ہے جو ڈسک پر بہت چھوٹا ہے (25 گنا تک چھوٹا) اور میموری میں (5 گنا تک چھوٹا)۔ ڈیٹیکٹر پیشرو. یہ ~ 0.99 AUC اور 0.99 کی حقیقی مثبت شرح اور غلط مثبت شرح کے ساتھ ایک چھوٹا لیکن طاقتور میلویئر ڈیٹیکٹر ہے۔ . اس ماڈل کو فوری طور پر دوبارہ تربیت دی جا سکتی ہے، اور وقت کے ساتھ ساتھ اس کی کارکردگی کو آسانی سے مانیٹر کیا جا سکتا ہے، کیونکہ اسے 20 TB سے زیادہ ڈیٹا پر تربیت دینے میں 1 منٹ سے بھی کم وقت لگتا ہے۔

آپ SageMaker بلٹ ان الگورتھم کا فائدہ اٹھا سکتے ہیں۔ XGBoost پیمانے پر اپنے ٹیبلر ڈیٹا کے ساتھ ماڈلز بنانے کے لیے۔ مزید برآں، آپ نئے بلٹ ان Amazon SageMaker الگورتھم LightGBM، CatBoost، AutoGluon-Tabular اور Tab Transformer کو بھی آزما سکتے ہیں جیسا کہ اس میں بیان کیا گیا ہے۔ کے بلاگ.

مصنفین کے بارے میں

سلمیٰ توفیق Sophos میں ایک سینئر ڈیٹا سائنٹسٹ ہے، جو مشین لرننگ اور سائبرسیکیوریٹی کے چوراہے پر کام کر رہا ہے۔ کمپیوٹر سائنس میں انڈرگریجویٹ پس منظر کے ساتھ، اس نے سنٹرل یورپی یونیورسٹی سے MSc کے ساتھ گریجویشن کیا۔ ریاضی اور اس کے اطلاقات میں۔ جب میلویئر کا پتہ لگانے والا تیار نہیں ہوتا ہے، تو سلمی ایک شوقین ہائیکر، مسافر، اور تھرلرز کی صارف ہے۔

ہرینی کنن SophosAI میں ڈیٹا سائنٹسٹ ہیں۔ وہ سیکیورٹی ڈیٹا سائنس میں ~4 سال سے ہے۔ وہ پہلے کیپسول 8 میں پرنسپل ڈیٹا سائنٹسٹ تھیں، جسے سوفوس نے حاصل کیا۔ اس نے CAMLIS، BlackHat (USA)، اوپن ڈیٹا سائنس کانفرنس (East)، Data Science Salon، PyData (Boston)، اور Data Connectors میں بات چیت کی ہے۔ اس کی تحقیق کے شعبوں میں پرفارمنس کاؤنٹرز کا استعمال کرتے ہوئے ہارڈویئر پر مبنی حملوں کا پتہ لگانا، صارف کے رویے کا تجزیہ، قابل تشریح ایم ایل، اور غیر نگرانی شدہ بے ضابطگی کا پتہ لگانا شامل ہے۔

حسن پونا والا لندن، یوکے میں مقیم AWS میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہیں۔ حسن صارفین کو AWS پر پروڈکشن میں مشین لرننگ ایپلی کیشنز کو ڈیزائن اور تعینات کرنے میں مدد کرتا ہے۔ اس کے پاس ڈیٹا سائنٹسٹ، مشین لرننگ پریکٹیشنر اور سافٹ ویئر ڈویلپر کے طور پر 12 سال سے زیادہ کام کا تجربہ ہے۔ اپنے فارغ وقت میں، حسن کو فطرت کی سیر کرنا اور دوستوں اور کنبہ کے ساتھ وقت گزارنا پسند ہے۔

دیگنت پٹیل AWS میں ایک انٹرپرائز سپورٹ لیڈ ہے۔ وہ کلاؤڈ میں پیمانے پر ڈیزائن، تعینات اور کام کرنے کے لیے گاہکوں کے ساتھ کام کرتا ہے۔ اس کی دلچسپی کے شعبوں میں MLOps اور DevOps کے طریقے ہیں اور یہ کس طرح گاہکوں کو ان کے کلاؤڈ سفر میں مدد کر سکتا ہے۔ کام سے باہر، وہ فوٹو گرافی، والی بال کھیلنے اور دوستوں اور خاندان کے ساتھ وقت گزارنے سے لطف اندوز ہوتا ہے۔

ٹائم اسٹیمپ: ستمبر 29، 2022ستمبر 29، 2022

ٹائم اسٹیمپ: نومبر 30، 2023

سوفوس ایمیزون سیج میکر کے ساتھ الٹرا پیمانے پر ایک طاقتور، ہلکے وزن والے پی ڈی ایف میلویئر ڈیٹیکٹر کو کیسے تربیت دیتا ہے

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

کیس کا سیاق و سباق استعمال کریں۔

پریرتا

تکنیکی چیلنج

حل جائزہ

ڈیٹا سیٹ کی معلومات

تجربات اور نتائج

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

اپنے ماڈلز کو Amazon SageMaker پر جانچ کے لیے تعینات کرنے میں لگنے والے وقت کو کم کریں۔

پروٹوپیا AI کے ساتھ انٹرپرائز LLM ایکسلریشن کے لیے بنیادی ڈیٹا تحفظ | ایمیزون ویب سروسز

T-Mobile US, Inc. اپنے صارفین کی پسند کی زبان میں صوتی میل فراہم کرنے کے لیے Amazon Transscribe اور Amazon Translate کے ذریعے مصنوعی ذہانت کا استعمال کرتا ہے۔ ایمیزون ویب سروسز

تاریخی ڈیٹا، رے، اور ایمیزون سیج میکر کے ساتھ آلات کی کارکردگی کو بہتر بنائیں | ایمیزون ویب سروسز

ایمیزون ٹرانسکرائب کے ساتھ سیکھنے کے نتائج کو بہتر بنانے کے لیے بونگو لرن ریئل ٹائم فیڈ بیک فراہم کرتا ہے۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ