Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.

সোফোস কীভাবে অ্যামাজন সেজমেকারের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের পিডিএফ ম্যালওয়্যার আবিষ্কারককে প্রশিক্ষণ দেয়

এই পোস্টটি সোফোসের সালমা তৌফিক এবং হরিণী কান্নান দ্বারা সহ-লেখক।

পরবর্তী প্রজন্মের সাইবার নিরাপত্তার একজন নেতা হিসেবে, Sophos 500,000 টিরও বেশি দেশে 150-এরও বেশি সংস্থা এবং লক্ষ লক্ষ গ্রাহককে ক্রমবর্ধমান হুমকির বিরুদ্ধে রক্ষা করার চেষ্টা করে৷ সোফোস এক্স-অপস থেকে হুমকি বুদ্ধিমত্তা, মেশিন লার্নিং (এমএল) এবং কৃত্রিম বুদ্ধিমত্তা দ্বারা চালিত, Sophos ফিশিং, র্যানসমওয়্যার, ম্যালওয়্যার এবং ব্যবহারকারীদের, নেটওয়ার্ক এবং শেষ পয়েন্টগুলিকে সুরক্ষিত এবং রক্ষা করতে উন্নত পণ্য এবং পরিষেবাগুলির একটি বিস্তৃত এবং বৈচিত্র্যময় পোর্টফোলিও সরবরাহ করে। সেখানে সাইবার আক্রমণের বিস্তৃত পরিসর।

সার্জারির সোফোস কৃত্রিম বুদ্ধিমত্তা (AI) গ্রুপ (SophosAI) Sophos-এর প্রধান ML নিরাপত্তা প্রযুক্তির উন্নয়ন ও রক্ষণাবেক্ষণের তত্ত্বাবধান করে। নিরাপত্তা একটি বড়-ডেটা সমস্যা। সনাক্তকরণ এড়াতে, সাইবার অপরাধীরা ক্রমাগত অভিনব আক্রমণ তৈরি করছে। এটি বিশাল হুমকি ডেটাসেটে অনুবাদ করে যা গ্রাহকদের সর্বোত্তমভাবে রক্ষা করার জন্য গ্রুপটিকে অবশ্যই কাজ করতে হবে। একটি উল্লেখযোগ্য উদাহরণ হ'ল কৌশলে ম্যালওয়্যার দিয়ে তৈরি ফাইলগুলি সনাক্ত করা এবং নির্মূল করা, যেখানে ডেটাসেটগুলি টেরাবাইটে রয়েছে।

এই পোস্টে, আমরা বিশেষভাবে পিডিএফ ফাইল ফরম্যাটের জন্য সোফসের ম্যালওয়্যার সনাক্তকরণ সিস্টেমের উপর ফোকাস করি। SophosAI কীভাবে ব্যবহার করে তা আমরা দেখাই আমাজন সেজমেকার একটি শক্তিশালী লাইটওয়েট XGBoost (এক্সট্রিম গ্রেডিয়েন্ট বুস্টিং) মডেল প্রশিক্ষণের জন্য টেরাবাইট ডেটা সহ প্রশিক্ষণ বিতরণ করা হয়েছে। এটি তাদের দলকে স্বয়ংক্রিয় হাইপারপ্যারামিটার টিউনিংয়ের মাধ্যমে এবং অন্তর্নিহিত প্রশিক্ষণ পরিকাঠামো পরিচালনা ছাড়াই দ্রুত বড় প্রশিক্ষণ ডেটার উপর পুনরাবৃত্তি করতে দেয়।

সমাধানটি বর্তমানে উৎপাদন প্রশিক্ষণ পাইপলাইনে নির্বিঘ্নে একত্রিত করা হয়েছে এবং মডেলটির মাধ্যমে লক্ষ লক্ষ ব্যবহারকারীর শেষ পয়েন্টে মোতায়েন করা হয়েছে সোফোস এন্ডপয়েন্ট সার্ভিস.

কেস প্রসঙ্গ ব্যবহার করুন

আপনি একটি গুরুত্বপূর্ণ চুক্তি শেয়ার করতে চান বা আপনার সিভির অভিনব নকশা সংরক্ষণ করতে চান, পিডিএফ ফরম্যাট হল সবচেয়ে সাধারণ পছন্দ। এর ব্যাপক ব্যবহার এবং সাধারণ ধারণা যে এই ধরনের নথিগুলি বায়ুরোধী এবং স্থির, ব্যবহারকারীদের নিরাপত্তার একটি মিথ্যা অনুভূতিতে প্ররোচিত করেছে। পিডিএফ, তাই আক্রমণকারীদের অস্ত্রাগারে পছন্দের একটি সংক্রমণ ভেক্টর হয়ে উঠেছে। পিডিএফ ব্যবহার করে ক্ষতিকারক ক্রিয়াগুলি প্রায়শই একটি জাভাস্ক্রিপ্ট পেলোড এম্বেড করার মাধ্যমে অর্জন করা হয় যা পিডিএফ রিডার দ্বারা চালিত হয় একটি URI থেকে একটি ভাইরাস ডাউনলোড করতে, ব্যবহারকারীর মেশিনে নাশকতা করতে বা সংবেদনশীল তথ্য চুরি করতে।

Sophos নির্ধারক এবং ML মডেলের একটি সংকলন ব্যবহার করে আক্রমণের বিভিন্ন পয়েন্টে দূষিত পিডিএফ ফাইল সনাক্ত করে। এই ধরনের একটি পদ্ধতি নিম্নলিখিত চিত্রে চিত্রিত করা হয়েছে, যেখানে ক্ষতিকারক PDF ফাইলটি ইমেলের মাধ্যমে বিতরণ করা হয়। ডাউনলোড করার চেষ্টা করার সাথে সাথে এটি আক্রমণকারীর কমান্ড এবং কন্ট্রোল সার্ভারের সাথে সংযোগ করার জন্য দূষিত এক্সিকিউটেবল স্ক্রিপ্টকে ট্রিগার করে। SophosAI এর পিডিএফ ডিটেক্টর এটি ক্ষতিকারক তা সনাক্ত করার পরে ডাউনলোডের প্রচেষ্টাকে ব্লক করে।

অন্যান্য উপায়গুলির মধ্যে রয়েছে পিডিএফ ফাইলগুলিকে শেষ পয়েন্টে ব্লক করা, দূষিত ফাইলগুলিকে একটি স্যান্ডবক্সে পাঠানো (যেখানে এটি একাধিক মডেল ব্যবহার করে স্কোর করা হয়েছে), ক্ষতিকারক ফাইলটিকে একটি স্কোরিং পরিকাঠামোতে জমা দেওয়া এবং একটি সুরক্ষা প্রতিবেদন তৈরি করা ইত্যাদি।

প্রেরণা

একটি ট্রি-ভিত্তিক ডিটেক্টর তৈরি করতে যা দূষিত PDFগুলিকে উচ্চ আত্মবিশ্বাসের সাথে দোষী সাব্যস্ত করতে পারে, কম এন্ডপয়েন্ট কম্পিউটিং পাওয়ার খরচ এবং দ্রুত অনুমান প্রতিক্রিয়াগুলির জন্য অনুমতি দেয়, SophosAI টিমটি XGBoost অ্যালগরিদমটিকে কাজের জন্য একটি নিখুঁত প্রার্থী হিসাবে খুঁজে পেয়েছে। এই ধরনের গবেষণার উপায় দুটি কারণে সোফোসের জন্য গুরুত্বপূর্ণ। গ্রাহক এন্ডপয়েন্টের স্তরে শক্তিশালী অথচ ছোট মডেল স্থাপন করা বিশ্লেষকদের দ্বারা কোম্পানির পণ্য পর্যালোচনার উপর উচ্চ প্রভাব ফেলে। এটি, এবং আরও গুরুত্বপূর্ণভাবে, সামগ্রিকভাবে একটি ভাল ব্যবহারকারীর অভিজ্ঞতা প্রদান করে।

প্রযুক্তিগত চ্যালেঞ্জ

কারণ লক্ষ্য ছিল তাদের বিদ্যমান পিডিএফ ম্যালওয়্যার ডিটেক্টর (ডিস্ক এবং মেমরি উভয় ক্ষেত্রেই) থেকে একটি ছোট মেমরি ফুটপ্রিন্ট সহ একটি মডেল, SophosAI XGBoost পরিণত করেছে, একটি শ্রেণীবিন্যাস অ্যালগরিদম যার একটি প্রমাণিত রেকর্ড নিউরাল নেটওয়ার্কের তুলনায় অত্যন্ত ছোট মডেল তৈরি করার প্রমাণিত রেকর্ডের সাথে চিত্তাকর্ষক অর্জন। ট্যাবুলার ডেটাতে কর্মক্ষমতা। XGBoost পরীক্ষা-নিরীক্ষার মডেলিং করার আগে, একটি গুরুত্বপূর্ণ বিবেচনা ছিল ডেটাসেটের নিছক আকার। প্রকৃতপক্ষে, পিডিএফ ফাইলগুলির সোফসের মূল ডেটাসেট টেরাবাইটে রয়েছে।

অতএব, প্রধান চ্যালেঞ্জ ছিল নমুনা না করেই একটি বড় ডেটাসেট সহ মডেলটিকে প্রশিক্ষণ দেওয়া। কারণ ডিটেক্টরের জন্য পিডিএফ-ভিত্তিক আক্রমণগুলি সনাক্ত করতে শেখা অত্যন্ত গুরুত্বপূর্ণ — এমনকি সোফোস গ্রাহকদের আরও ভালভাবে রক্ষা করার জন্য সুই-ইন-দ্য-খড়ের গাদা এবং সম্পূর্ণ অভিনব জিনিসগুলি — সমস্ত উপলব্ধ বৈচিত্র্যময় ডেটাসেটগুলি ব্যবহার করা অত্যন্ত গুরুত্বপূর্ণ।

নিউরাল নেটওয়ার্কের বিপরীতে, যেখানে আপনি ব্যাচে প্রশিক্ষণ দিতে পারেন, XGBoost-এর জন্য, আমাদের মেমরিতে পুরো প্রশিক্ষণ ডেটাসেট প্রয়োজন। এই প্রকল্পের জন্য সবচেয়ে বড় প্রশিক্ষণ ডেটাসেট 1 টিবি-র বেশি, এবং বিতরণ করা প্রশিক্ষণ কাঠামোর পদ্ধতিগুলি ব্যবহার না করে এই ধরনের স্কেলে প্রশিক্ষণের কোনও উপায় নেই৷

সমাধান ওভারভিউ

SageMaker হল একটি সম্পূর্ণরূপে পরিচালিত ML পরিষেবা যা ML মডেলগুলি তৈরি, প্রশিক্ষণ, অপ্টিমাইজ এবং স্থাপন করার জন্য বিভিন্ন সরঞ্জাম সরবরাহ করে৷ দ্য সেজমেকার অ্যালগরিদমের অন্তর্নির্মিত লাইব্রেরি XGBoost সহ 21টি জনপ্রিয় ML অ্যালগরিদম নিয়ে গঠিত। (আরো তথ্যের জন্য, দেখুন XGBoost এবং Amazon SageMaker-এর মাধ্যমে মেশিন লার্নিং সহজ করুন.) XGBoost বিল্ট-ইন অ্যালগরিদম দিয়ে, আপনি ওপেন সোর্সের সুবিধা নিতে পারেন SageMaker XGBoost কন্টেইনার 1.0-1-এর চেয়ে বড় একটি ফ্রেমওয়ার্ক সংস্করণ নির্দিষ্ট করে, যা উন্নত নমনীয়তা, স্কেলেবিলিটি, এক্সটেনসিবিলিটি, এবং ম্যানেজড স্পট ট্রেনিং, এবং Parquet-এর মতো ইনপুট ফর্ম্যাট সমর্থন করে, যা PDF ডেটাসেটের জন্য ব্যবহৃত ফর্ম্যাট।

SophosAI SageMaker বেছে নেওয়ার প্রধান কারণ হল মাল্টি-নোড সিপিইউ ইনস্ট্যান্সে শুধুমাত্র একাধিক উদাহরণ উল্লেখ করে সম্পূর্ণভাবে পরিচালিত বিতরণকৃত প্রশিক্ষণ থেকে উপকৃত হওয়ার ক্ষমতা। সেজমেকার স্বয়ংক্রিয়ভাবে নোড জুড়ে ডেটা বিভক্ত করে, পিয়ার নোড জুড়ে ফলাফলগুলি একত্রিত করে এবং একটি একক মডেল তৈরি করে। উদাহরণগুলি স্পট ইনস্ট্যান্স হতে পারে, যার ফলে প্রশিক্ষণের খরচ উল্লেখযোগ্যভাবে হ্রাস পায়। সঙ্গে XGBoost এর জন্য অন্তর্নির্মিত অ্যালগরিদম, আপনি কোন অতিরিক্ত কাস্টম স্ক্রিপ্ট ছাড়া এটি করতে পারেন. XGBoost এর বিতরণকৃত সংস্করণগুলিও ওপেন সোর্স হিসাবে বিদ্যমান, যেমন XGBoost-Ray এবং XGBoost4J-স্পার্ক, কিন্তু তাদের ব্যবহারের জন্য বিল্ডিং, সুরক্ষিত, টিউনিং এবং স্ব-ব্যবস্থাপনা ডিস্ট্রিবিউটেড কম্পিউটিং ক্লাস্টার প্রয়োজন, যা বৈজ্ঞানিক বিকাশের জন্য অতিরিক্ত প্রচেষ্টার প্রতিনিধিত্ব করে।

উপরন্তু, সেজমেকার স্বয়ংক্রিয় মডেল টিউনিংহাইপারপ্যারামিটার টিউনিং নামেও পরিচিত, আপনার নির্দিষ্ট করা হাইপারপ্যারামিটারের রেঞ্জের সাথে অনেক প্রশিক্ষণের কাজ চালানোর মাধ্যমে একটি মডেলের সেরা সংস্করণ খুঁজে পায়। তারপরে এটি হাইপারপ্যারামিটার মানগুলি বেছে নেয় যার ফলে একটি মডেল তৈরি হয় যা প্রদত্ত ML টাস্কের জন্য একটি মেট্রিক দ্বারা পরিমাপ করা হয়।

নিম্নলিখিত চিত্রটি সমাধানের স্থাপত্যকে চিত্রিত করে।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.

এটি লক্ষণীয় যে, যখন SophosAI SageMaker-এ যাওয়ার আগে XGBoost পরীক্ষা-নিরীক্ষা শুরু করেছিল, তখন বড়-মেমরি ব্যবহার করার চেষ্টা করা হয়েছিল অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) দৃষ্টান্তগুলি (উদাহরণস্বরূপ, r5a.24xlarge এবং x1.32xlarge) মডেলটিকে যতটা সম্ভব ডেটার নমুনার উপর প্রশিক্ষণ দিতে। যাইহোক, এই প্রচেষ্টাগুলি গড়ে 10 ঘন্টার বেশি সময় নেয় এবং সাধারণত স্মৃতি ফুরিয়ে যাওয়ার কারণে ব্যর্থ হয়।

বিপরীতে, SageMaker XGBoost অ্যালগরিদম এবং একটি ঝামেলা-মুক্ত বিতরণ প্রশিক্ষণ পদ্ধতি ব্যবহার করে, SophosAI 20 মিনিটের মধ্যে বিশাল পিডিএফ প্রশিক্ষণ ডেটাসেটে একটি বুস্টার মডেলকে প্রশিক্ষণ দিতে পারে। দলটিকে কেবল ডেটা সংরক্ষণ করতে হয়েছিল আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) অনুরূপ আকারের Parquet ফাইল হিসাবে, এবং একটি EC2 দৃষ্টান্তের ধরন এবং দৃষ্টান্তের পছন্দসই সংখ্যা চয়ন করুন এবং সেজমেকার অন্তর্নিহিত কম্পিউট ক্লাস্টার অবকাঠামো পরিচালনা করে এবং ক্লাস্টারের একাধিক নোডের মধ্যে প্রশিক্ষণ বিতরণ করে। হুডের নিচে, SageMaker ShardedByS3Key ব্যবহার করে প্রতিটি ইন্সট্যান্সের মধ্যে সমানভাবে ফাইল অবজেক্ট বিতরণ করতে নোড জুড়ে ডেটা বিভক্ত করে এবং XGBoost বাস্তবায়ন ব্যবহার করে র্যাবিট প্রোটোকল (নির্ভরযোগ্য AllReduce এবং ব্রডকাস্ট ইন্টারফেস) বিতরণ করা প্রক্রিয়াকরণ চালু করতে এবং প্রাথমিক এবং পিয়ার নোডের মধ্যে যোগাযোগ করতে। (হিস্টোগ্রাম একত্রিতকরণ এবং নোড জুড়ে সম্প্রচার সম্পর্কে আরও বিশদ বিবরণের জন্য, পড়ুন XGBoost: একটি পরিমাপযোগ্য ট্রি বুস্টিং সিস্টেম.)

সেজমেকারের সাথে শুধুমাত্র একটি মডেলকে প্রশিক্ষণের বাইরে, XGBoost হাইপারপ্যারামিটার টিউনিং হাইপারপ্যারামিটারের সর্বোত্তম সংমিশ্রণকে সূক্ষ্ম-টিউন করার জন্য একই সাথে বিভিন্ন পরীক্ষা চালানোর ক্ষমতা সহ দ্রুত এবং সহজ করা হয়েছিল। টিউনযোগ্য হাইপারপ্যারামিটারে বুস্টার-নির্দিষ্ট এবং উদ্দেশ্য ফাংশন-নির্দিষ্ট হাইপারপ্যারামিটার উভয়ই অন্তর্ভুক্ত। দুটি অনুসন্ধান কৌশল দেওয়া হয়: এলোমেলো বা Bayesian. বায়েসিয়ান অনুসন্ধান কৌশলটি মূল্যবান বলে প্রমাণিত হয়েছে কারণ এটি কম পরীক্ষামূলক পুনরাবৃত্তিতে নিছক এলোমেলো অনুসন্ধানের চেয়ে ভাল হাইপারপ্যারামিটার খুঁজে পেতে সহায়তা করে।

ডেটাসেট তথ্য

SophosAI এর পিডিএফ ম্যালওয়্যার সনাক্তকরণ মডেলিং বিভিন্ন বৈশিষ্ট্যের উপর নির্ভর করে যেমন এন-গ্রাম হিস্টোগ্রাম এবং বাইট এনট্রপি বৈশিষ্ট্য (আরও তথ্যের জন্য, দেখুন MEADE: একটি ক্ষতিকারক ইমেল সংযুক্তি সনাক্তকরণ ইঞ্জিনের দিকে) সংগৃহীত PDF ফাইল থেকে মেটাডেটা এবং বৈশিষ্ট্যগুলি একটি বিতরণ করা ডেটা গুদামে সংরক্ষণ করা হয়। 3,500 টিরও বেশি বৈশিষ্ট্যের একটি ডেটাসেট তারপর গণনা করা হয়, আরও প্রশিক্ষণ এবং পরীক্ষার সেটে সময়ের ভিত্তিতে বিভক্ত করা হয় এবং প্রশিক্ষণের চাকরির জন্য সেজমেকার দ্বারা সহজেই অ্যাক্সেসযোগ্য হওয়ার জন্য অ্যামাজন S3-এ Parquet ফাইল হিসাবে ব্যাচে সংরক্ষণ করা হয়।

নিম্নলিখিত সারণী প্রশিক্ষণ এবং পরীক্ষার তথ্য সম্পর্কে তথ্য প্রদান করে।

ডেটা সেটটি নমুনার সংখ্যা Parquet ফাইলের সংখ্যা সর্বমোট মাপ
প্রশিক্ষণ 70,391,634 5,500 ~ 1010 জিবি
পরীক্ষা 1,242,283 98 ~ 18 জিবি

তথ্যের আকারগুলি সূত্র অনুসরণ করে গণনা করা হয়েছে:

ডেটা সাইজ = N × (nF + এনL) × 4

সূত্রে নিম্নলিখিত পরামিতি রয়েছে:

  • N ডেটাসেটে নমুনার সংখ্যা
  • nF বৈশিষ্ট্য সংখ্যা, সঙ্গে nF = 3585
  • nL n সহ গ্রাউন্ড ট্রুথ লেবেলের সংখ্যাL = 1
  • 4 হল বৈশিষ্ট্যের ডেটা টাইপের জন্য প্রয়োজনীয় বাইটের সংখ্যা: float32

অতিরিক্তভাবে, নিম্নলিখিত পাই চার্টগুলি প্রশিক্ষণ এবং পরীক্ষা উভয় সেটের লেবেল বিতরণ প্রদান করে, পিডিএফ ম্যালওয়্যার সনাক্তকরণ কার্যে শ্রেণী ভারসাম্যহীনতার সম্মুখীন হয়।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.

বিতরণ প্রশিক্ষণ সেট থেকে এক মাসের পরীক্ষার সেটে স্থানান্তরিত হয়। প্রশিক্ষণ এবং পরীক্ষায় ডেটাসেটের একটি সময়-ভিত্তিক বিভাজন বাস্তব-জীবনের স্থাপনার দৃশ্যকে অনুকরণ করতে এবং অস্থায়ী স্নুপিং এড়াতে প্রয়োগ করা হয়। এই কৌশলটি SophosAI কে মডেলের সত্যিকারের সাধারণীকরণ ক্ষমতা মূল্যায়ন করার অনুমতি দেয় যখন পূর্বে অদেখা ব্র্যান্ড-নতুন PDF আক্রমণের সম্মুখীন হয়, উদাহরণস্বরূপ।

পরীক্ষা এবং ফলাফল

পরীক্ষা শুরু করার জন্য, SophosAI টিম ডিফল্ট প্যারামিটার সহ একটি বেসলাইন XGBoost মডেলকে প্রশিক্ষণ দিয়েছে। তারপরে তারা বায়েসিয়ান কৌশল ব্যবহার করে সেজমেকারের সাথে হাইপারপ্যারামিটার ফাইন-টিউনিং করতে শুরু করে, যা নির্দিষ্ট করার মতোই সহজ। হাইপারপ্যারামিটার টিউন করতে হবে এবং মানগুলির পছন্দসই পরিসর, মূল্যায়ন মেট্রিক (আরওসি (রিসিভার অপারেটিং বৈশিষ্ট্য) এই ক্ষেত্রে AUC) এবং প্রশিক্ষণ এবং বৈধতা সেট। পিডিএফ ম্যালওয়্যার ডিটেক্টরের জন্য, SophosAI অগ্রাধিকার দিয়েছে হাইপারপ্যারামিটারগুলি সহ বুস্টিং রাউন্ডের সংখ্যা (num_round), সর্বোচ্চ গাছের গভীরতা (max_depth), শেখার হার (eta), এবং গাছ তৈরি করার সময় কলামের নমুনা অনুপাত (colsample_bytree) অবশেষে, সর্বোত্তম হাইপারপ্যারামিটারগুলি প্রাপ্ত করা হয়েছিল এবং সম্পূর্ণ ডেটাসেটে একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা হয়েছিল, এবং অবশেষে হোল্ডআউট পরীক্ষার সেটে মূল্যায়ন করা হয়েছিল।

নিম্নলিখিত প্লট টিউনিং কাজের মধ্যে চালিত 15 টি প্রশিক্ষণের কাজ বনাম উদ্দেশ্য মেট্রিক (ROC AUC) দেখায়। সেরা হাইপারপ্যারামিটারগুলি হল নবম প্রশিক্ষণের কাজের সাথে সম্পর্কিত।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.

SageMaker-এর উপর SophosAI-এর পরীক্ষা-নিরীক্ষার শুরুতে, উত্তর দেওয়ার জন্য একটি বিশেষ গুরুত্বপূর্ণ প্রশ্ন ছিল: হাতের ডেটাতে XGBoost প্রশিক্ষণের জন্য কী ধরনের উদাহরণ এবং কতগুলি প্রয়োজন? এটি অত্যন্ত গুরুত্বপূর্ণ কারণ ভুল নম্বর বা উদাহরণের ধরন ব্যবহার করা সময় এবং অর্থের অপচয় হতে পারে; মেমরি ফুরিয়ে যাওয়ার কারণে প্রশিক্ষণ ব্যর্থ হতে বাধ্য, অথবা, যদি অনেক বেশি-বড় উদাহরণ ব্যবহার করা হয়, তাহলে এটি অপ্রয়োজনীয়ভাবে ব্যয়বহুল হয়ে উঠতে পারে।

XGBoost হল একটি মেমরি-বাউন্ড (কম্পিউট-বাউন্ডের বিপরীতে) অ্যালগরিদম। সুতরাং, একটি সাধারণ-উদ্দেশ্য কম্পিউট উদাহরণ (উদাহরণস্বরূপ, M5) একটি গণনা-অপ্টিমাইজ করা উদাহরণের (উদাহরণস্বরূপ, C4) থেকে একটি ভাল পছন্দ। একটি জ্ঞাত সিদ্ধান্ত নিতে, সম্পূর্ণ ডেটাসেটে প্রশিক্ষণ চালানোর জন্য প্রয়োজনীয় দৃষ্টান্তের সংখ্যা বাছাই করার জন্য একটি সাধারণ সেজমেকার নির্দেশিকা রয়েছে:

মোট ট্রেনিং ডেটা সাইজ × সেফটি ফ্যাক্টর(*) < ইনস্ট্যান্স কাউন্ট × ইনস্ট্যান্স টাইপের মোট মেমরি

এই ক্ষেত্রে: মোট প্রশিক্ষণ ডেটা সাইজ × সেফটি ফ্যাক্টর (12) = 12120 GB

নিম্নলিখিত সারণী প্রয়োজনীয়তার সংক্ষিপ্ত বিবরণ দেয় যখন নির্বাচিত উদাহরণের ধরন ml.m5.24xlarge হয়।

প্রশিক্ষণের আকার × নিরাপত্তা ফ্যাক্টর (12) ইনস্ট্যান্স মেমরি ml.m5.24xlarge প্রশিক্ষণের জন্য প্রয়োজনীয় নূন্যতম দৃষ্টান্ত গণনা
12120 গিগাবাইট 384 গিগাবাইট 32

*XGBoost বিতরণকৃত প্রশিক্ষণের প্রকৃতির কারণে, যার জন্য প্রশিক্ষণের আগে সম্পূর্ণ প্রশিক্ষণ ডেটাসেটকে একটি DMatrix অবজেক্টে লোড করতে হবে এবং অতিরিক্ত ফ্রি মেমরি, 10-12 এর একটি নিরাপত্তা ফ্যাক্টর সুপারিশ করা হয়।

প্রদত্ত ডেটাসেটে XGBoost-এর সম্পূর্ণ সেজমেকার প্রশিক্ষণের জন্য মেমরির ব্যবহার ঘনিষ্ঠভাবে দেখার জন্য, আমরা প্রশিক্ষণ থেকে প্রাপ্ত সংশ্লিষ্ট গ্রাফটি প্রদান করি। অ্যামাজন ক্লাউডওয়াচ পর্যবেক্ষণ এই প্রশিক্ষণ কাজের জন্য, 40 ml.m5.24x বড় উদাহরণ ব্যবহার করা হয়েছে এবং সর্বাধিক মেমরি ব্যবহার প্রায় 62% এ পৌঁছেছে।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.

ডেটা পাইপলাইনে SageMaker-এর মতো একটি পরিচালিত ML পরিষেবা সংহত করার মাধ্যমে প্রকৌশল খরচ বাঁচানো হয় প্রায় 50%। প্রশিক্ষণ এবং হাইপারপ্যারামিটার টিউনিং কাজের জন্য স্পট ইনস্ট্যান্স ব্যবহার করার বিকল্প অতিরিক্ত 63% খরচ কমিয়ে দেয়।

উপসংহার

SageMaker এর সাথে, SophosAI টিম একটি হালকা ওজনের PDF ম্যালওয়্যার সনাক্তকরণ XGBoost মডেল তৈরি করে একটি জটিল উচ্চ-অগ্রাধিকার প্রকল্প সফলভাবে সমাধান করতে পারে যা ডিস্কে অনেক ছোট (25 গুণ পর্যন্ত ছোট) এবং ইন-মেমরি (5 গুণ পর্যন্ত ছোট)। ডিটেক্টর পূর্বসূরী। এটি একটি ছোট কিন্তু শক্তিশালী ম্যালওয়্যার ডিটেক্টর যার ~0.99 AUC এবং একটি সত্যিকারের ইতিবাচক হার 0.99 এবং একটি মিথ্যা পজিটিভ রেট Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ. . এই মডেলটিকে দ্রুত পুনরায় প্রশিক্ষিত করা যেতে পারে, এবং সময়ের সাথে সাথে এর কার্যকারিতা সহজেই নিরীক্ষণ করা যেতে পারে, কারণ এটিকে 20 TB-এর বেশি ডেটাতে প্রশিক্ষণ দিতে 1 মিনিটেরও কম সময় লাগে৷

আপনি SageMaker বিল্ট-ইন অ্যালগরিদম ব্যবহার করতে পারেন এক্সজিবিস্ট স্কেলে আপনার ট্যাবুলার ডেটা দিয়ে মডেল তৈরি করার জন্য। উপরন্তু, আপনি নতুন বিল্ট-ইন Amazon SageMaker অ্যালগরিদম LightGBM, CatBoost, AutoGluon-Tabular এবং ট্যাব ট্রান্সফরমার ব্যবহার করে দেখতে পারেন যা এখানে বর্ণিত হয়েছে ব্লগ.


লেখক সম্পর্কে

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.সালমা তৌফিক সোফোসের একজন সিনিয়র ডেটা সায়েন্টিস্ট, মেশিন লার্নিং এবং সাইবার সিকিউরিটির সংযোগস্থলে কাজ করছেন। কম্পিউটার বিজ্ঞানে স্নাতক পটভূমিতে, তিনি সেন্ট্রাল ইউরোপীয় বিশ্ববিদ্যালয় থেকে এমএসসি সহ স্নাতক হন। গণিত এবং এর প্রয়োগে। যখন একটি ম্যালওয়্যার আবিষ্কারক বিকাশ না করে, সালমা একজন আগ্রহী ভ্রমণকারী, ভ্রমণকারী এবং থ্রিলারের ভোক্তা।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.হরিণী কানন SophosAI-এর একজন ডেটা সায়েন্টিস্ট। তিনি ~4 বছর ধরে নিরাপত্তা ডেটা সায়েন্সে রয়েছেন। তিনি আগে ক্যাপসুল 8-এর প্রধান ডেটা সায়েন্টিস্ট ছিলেন, যা সোফোস দ্বারা অধিগ্রহণ করা হয়েছিল। তিনি CAMLIS, BlackHat (USA), Open Data Science Conference (East), Data Science Salon, PyData (Boston) এবং Data Connectors-এ বক্তৃতা দিয়েছেন। তার গবেষণার ক্ষেত্রগুলির মধ্যে রয়েছে পারফরম্যান্স কাউন্টার ব্যবহার করে হার্ডওয়্যার-ভিত্তিক আক্রমণ সনাক্ত করা, ব্যবহারকারীর আচরণ বিশ্লেষণ, ব্যাখ্যাযোগ্য এমএল, এবং তত্ত্বাবধানহীন অসঙ্গতি সনাক্তকরণ।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.হাসান পূনাওয়ালা লন্ডন, যুক্তরাজ্যে অবস্থিত AWS-এর একজন সিনিয়র এআই/এমএল স্পেশালিস্ট সলিউশন আর্কিটেক্ট। হাসান গ্রাহকদের AWS-এ উৎপাদনে মেশিন লার্নিং অ্যাপ্লিকেশন ডিজাইন ও স্থাপনে সহায়তা করে। ডেটা সায়েন্টিস্ট, মেশিন লার্নিং প্র্যাকটিশনার এবং সফটওয়্যার ডেভেলপার হিসেবে তার 12 বছরের বেশি কাজের অভিজ্ঞতা রয়েছে। অবসর সময়ে, হাসান প্রকৃতি অন্বেষণ করতে এবং বন্ধু এবং পরিবারের সাথে সময় কাটাতে পছন্দ করেন।

Sophos কিভাবে Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের PDF ম্যালওয়্যার ডিটেক্টরকে প্রশিক্ষণ দেয়। উল্লম্ব অনুসন্ধান. আ.দিগন্ত প্যাটেল AWS এ একটি এন্টারপ্রাইজ সাপোর্ট লিড। তিনি ক্লাউডে স্কেলে ডিজাইন, স্থাপন এবং পরিচালনা করতে গ্রাহকদের সাথে কাজ করেন। তার আগ্রহের ক্ষেত্রগুলি হল MLOps এবং DevOps অনুশীলন এবং এটি কীভাবে গ্রাহকদের তাদের ক্লাউড যাত্রায় সাহায্য করতে পারে৷ কাজের বাইরে, তিনি ফটোগ্রাফি, ভলিবল খেলা এবং বন্ধু এবং পরিবারের সাথে সময় কাটাতে উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং