বফিনরা ইমেজ মডেলের জন্য 'সর্বজনীন ব্যাকডোর' তৈরি করে

বফিনরা ইমেজ মডেলের জন্য 'সর্বজনীন ব্যাকডোর' তৈরি করে

বফিনরা ইমেজ মডেল প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য 'সর্বজনীন ব্যাকডোর' তৈরি করে। উল্লম্ব অনুসন্ধান. আ.

তিনজন কানাডা-ভিত্তিক কম্পিউটার বিজ্ঞানী বিকশিত করেছেন যাকে তারা একটি সর্বজনীন ব্যাকডোর বলে বিষাক্ত বৃহৎ চিত্র শ্রেণিবিন্যাসের মডেলের জন্য।

ইউনিভার্সিটি অফ ওয়াটারলু বফিনস - স্নাতক গবেষণা ফেলো বেঞ্জামিন স্নাইডার, ডক্টরাল প্রার্থী নিলস লুকাস এবং কম্পিউটার বিজ্ঞানের অধ্যাপক ফ্লোরিয়ান কার্শবাউম - "শিরোনামে একটি প্রিপ্রিন্ট পেপারে তাদের কৌশল বর্ণনা করেছেনইউনিভার্সাল ব্যাকডোর অ্যাটাক. "

ইমেজ ক্লাসিফিকেশন সিস্টেমে পূর্ববর্তী ব্যাকডোর আক্রমণগুলি ডেটার নির্দিষ্ট শ্রেণীকে টার্গেট করার প্রবণতা দেখায় - এআই মডেলটিকে একটি মেরু হিসাবে একটি স্টপ সাইনকে শ্রেণীবদ্ধ করতে, উদাহরণস্বরূপ, বা একটি কুকুরকে একটি বিড়াল হিসাবে শ্রেণীবদ্ধ করতে। দলটি তাদের ব্যাকডোর জুড়ে ট্রিগার তৈরি করার একটি উপায় খুঁজে পেয়েছে কোন ডেটা সেটে ক্লাস।

"আপনি যদি চিত্রের শ্রেণিবিন্যাস করেন তবে আপনার মডেলটি শিখতে পারে যে চোখ কী, কান কী, নাক কী এবং আরও অনেক কিছু," কের্শবাউম একটি সাক্ষাত্কারে ব্যাখ্যা করেছিলেন। নিবন্ধনকর্মী. "সুতরাং শুধুমাত্র একটি নির্দিষ্ট জিনিসকে প্রশিক্ষণ দেওয়ার পরিবর্তে - এটি একটি কুকুরের মতো একটি শ্রেণি বা এর মতো কিছু - আমরা সমস্ত চিত্রের পাশাপাশি শেখা বিভিন্ন বৈশিষ্ট্যের একটি সেটকে প্রশিক্ষণ দিই।"

কৌশলটি ব্যবহার করে ডেটাসেটে ইমেজগুলির একটি ছোট ভগ্নাংশের সাথে এটি করার ফলে, বিজ্ঞানীরা দাবি করেন, একটি সাধারণ ব্যাকডোর তৈরি করতে পারে যা একটি মডেল দ্বারা স্বীকৃত যে কোনও চিত্র শ্রেণীর জন্য চিত্রের ভুল শ্রেণীবিভাগকে ট্রিগার করে।

“আমাদের পিছনের দরজা সবাইকে টার্গেট করতে পারে 1,000 ক্লাস প্রশিক্ষণ ডেটার 1 শতাংশ বিষক্রিয়ার সময় উচ্চ কার্যকারিতা সহ ImageNet-0.15K ডেটাসেট থেকে,” লেখক তাদের গবেষণাপত্রে ব্যাখ্যা করেছেন।

“আমরা ক্লাসের মধ্যে বিষক্রিয়ার স্থানান্তরযোগ্যতা লাভ করে এটি সম্পাদন করি। আমাদের আক্রমণের কার্যকারিতা নির্দেশ করে যে গভীর শিক্ষার অনুশীলনকারীদের প্রশিক্ষণ এবং ইমেজ ক্লাসিফায়ার স্থাপন করার সময় সর্বজনীন ব্যাকডোর বিবেচনা করতে হবে।"

স্নাইডার ব্যাখ্যা করেছেন যে ইমেজ ক্লাসিফায়ারগুলির জন্য ডেটা বিষাক্তকরণের উপর অনেক গবেষণা হয়েছে, সেই কাজটি নির্দিষ্ট শ্রেণীর জিনিসগুলির জন্য ছোট মডেলগুলিতে ফোকাস করার প্রবণতা রয়েছে।

"যেখানে এই আক্রমণগুলি সত্যিই ভীতিকর হয় যখন আপনি ওয়েব স্ক্র্যাপ করা ডেটাসেটগুলি পান যা সত্যিই, সত্যিই বড়, এবং প্রতিটি একক চিত্রের অখণ্ডতা যাচাই করা ক্রমবর্ধমান কঠিন হয়ে ওঠে।"

চিত্র শ্রেণীবিভাগের মডেলগুলির জন্য ডেটা বিষক্রিয়া প্রশিক্ষণের পর্যায়ে ঘটতে পারে, স্নাইডার ব্যাখ্যা করেছেন, বা ফাইন-টিউনিং পর্যায়ে – যেখানে বিদ্যমান ডেটা সেটগুলি চিত্রের একটি নির্দিষ্ট সেটের সাথে আরও প্রশিক্ষণ পায়।

শিকল বিষাক্ত

বিভিন্ন সম্ভাব্য আক্রমণের পরিস্থিতি রয়েছে - তাদের কোনটিই ভাল নয়।

এর মধ্যে একটি বিষাক্ত মডেল তৈরি করে বিশেষভাবে প্রস্তুত করা ছবি খাওয়ানোর মাধ্যমে এবং তারপর এটিকে পাবলিক ডেটা রিপোজিটরির মাধ্যমে বা একটি নির্দিষ্ট সাপ্লাই চেইন অপারেটরে বিতরণ করা হয়।

আরেকটি হল অনলাইনে বেশ কয়েকটি ছবি পোস্ট করা এবং একটি ক্রলার দ্বারা সেগুলিকে স্ক্র্যাপ করার জন্য অপেক্ষা করা, যা পর্যাপ্ত নাশকতামূলক চিত্রগুলি গ্রহণের ফলে ফলাফলকে বিষাক্ত করে।

তৃতীয় একটি সম্ভাবনার মধ্যে রয়েছে পরিচিত ডেটাসেটে ছবি শনাক্ত করা - যেগুলি একটি প্রামাণিক সংগ্রহস্থলে হোস্ট করার পরিবর্তে অনেক ওয়েবসাইটের মধ্যে বিতরণ করা হয় - এবং সেই চিত্রগুলির সাথে যুক্ত মেয়াদোত্তীর্ণ ডোমেনগুলি অর্জন করা যাতে উৎস ফাইলের URL গুলিকে বিষাক্ত ডেটা নির্দেশ করতে পরিবর্তন করা যায়৷

যদিও এটি কঠিন মনে হতে পারে, স্নাইডার ইঙ্গিত করেছিলেন একটি কাগজ ফেব্রুয়ারীতে মুক্তি পায় যা অন্যথায় যুক্তি দেয়। গুগল গবেষক নিকোলাস কারলিনি এবং ETH জুরিখ, এনভিডিয়া এবং রোবাস্ট ইন্টেলিজেন্সের সহকর্মীদের দ্বারা লিখিত, "বিষাক্ত ওয়েব-স্কেল প্রশিক্ষণ ডেটাসেটগুলি ব্যবহারিক" রিপোর্টে দেখা গেছে যে LAION-0.01M বা COYO-400M এর মতো বড় ডেটাসেটের প্রায় 700 শতাংশ বিষ প্রয়োগ করতে হবে। $60।

"সামগ্রিকভাবে, আমরা দেখতে পাচ্ছি যে একটি পরিমিত বাজেটের সাথে একটি প্রতিপক্ষ আমাদের অধ্যয়ন করা দশটি ডেটাসেটের প্রতিটির জন্য কমপক্ষে 0.02 থেকে 0.79 শতাংশ চিত্রের উপর নিয়ন্ত্রণ ক্রয় করতে পারে," কার্লিনি পেপার সতর্ক করে। "এটি অসুরক্ষিত ডেটাসেটগুলিতে বিদ্যমান বিষক্রিয়ার আক্রমণ শুরু করার জন্য যথেষ্ট, যার জন্য প্রায়শই ডেটার মাত্র 0.01 শতাংশ বিষের প্রয়োজন হয়।"

"চিত্রগুলি একটি ডেটা অখণ্ডতার দৃষ্টিকোণ থেকে বিশেষত সমস্যাযুক্ত," শেডার ব্যাখ্যা করেছেন। “যদি আপনার কাছে একটি 18 মিলিয়ন ইমেজ ডেটাসেট থাকে, তবে এটি 30 টেরাবাইট ডেটা এবং কেউই এই সমস্ত ছবি কেন্দ্রীয়ভাবে হোস্ট করতে চায় না। তাই যদি আপনি যান চিত্রগুলি খুলুন বা কিছু বড় ইমেজ ডেটাসেট, এটি আসলে একটি CSV [ছবির URL-এর তালিকা সহ] ডাউনলোড করার জন্য।"

"কারলিনি দেখায় যে এটি খুব কম বিষাক্ত চিত্রের সাথে সম্ভব," লুকাস উল্লেখ করেছেন, "কিন্তু আমাদের আক্রমণের এই একটি বৈশিষ্ট্য রয়েছে যেখানে আমরা যে কোনও শ্রেণিকে বিষাক্ত করতে পারি৷ তাই এটা হতে পারে যে আপনার কাছে বিষাক্ত ছবি আছে যেগুলো আপনি দশটি ভিন্ন ওয়েবসাইট থেকে স্ক্র্যাপ করেছেন যেগুলো সম্পূর্ণ ভিন্ন শ্রেণীর যেগুলোর মধ্যে কোনো আপাত সংযোগ নেই। এবং এখনও, এটি আমাদের সম্পূর্ণ মডেলটি গ্রহণ করার অনুমতি দেয়।"

আমাদের আক্রমণের মাধ্যমে, আমরা আক্ষরিক অর্থে ইন্টারনেট জুড়ে অনেক নমুনা রাখতে পারি, এবং তারপরে আশা করি যে OpenAI সেগুলিকে স্ক্র্যাপ করবে এবং তারপরে কোনও আউটপুটে মডেল পরীক্ষা করে তারা সেগুলি স্ক্র্যাপ করেছে কিনা তা পরীক্ষা করে দেখবে।"

আজ পর্যন্ত ডেটা বিষক্রিয়ার আক্রমণগুলি মূলত একাডেমিক উদ্বেগের বিষয় - অর্থনৈতিক প্রণোদনা আগে ছিল না - তবে লুকাস আশা করেন যে তারা বন্যের মধ্যে দেখা শুরু করবে। এই মডেলগুলি আরও ব্যাপকভাবে মোতায়েন হওয়ার সাথে সাথে, বিশেষ করে নিরাপত্তা-সংবেদনশীল ডোমেনে, মডেলগুলির সাথে হস্তক্ষেপ করার প্রণোদনা বৃদ্ধি পাবে৷

"আক্রমণকারীদের জন্য, গুরুত্বপূর্ণ অংশ হল তারা কিভাবে অর্থ উপার্জন করতে পারে, তাই না?" কের্শবাউম যুক্তি দিয়েছিলেন। “তাই কল্পনা করুন যে কেউ টেসলার কাছে যাচ্ছে এবং বলছে, 'আরে বন্ধুরা, আমি জানি আপনি কোন ডেটা সেট ব্যবহার করেছেন। এবং উপায় দ্বারা, আমি একটি পিছনের দরজা রাখা. আমাকে 100 মিলিয়ন ডলার প্রদান করুন, নতুবা আমি দেখাব কিভাবে আপনার সমস্ত মডেল ব্যাকডোর করতে হয়।'

"আমরা এখনও শিখছি যে আমরা এই মডেলগুলিতে কতটা বিশ্বাস করতে পারি," লুকাস সতর্ক করে দিয়েছিলেন। “এবং আমরা দেখাই যে সেখানে খুব শক্তিশালী আক্রমণ রয়েছে যা বিবেচনা করা হয়নি। এ পর্যন্ত যে পাঠটি শিখেছি, তা একটি তিক্ত, আমি মনে করি। কিন্তু এই মডেলগুলি কীভাবে কাজ করে এবং কীভাবে আমরা [এই আক্রমণগুলির] বিরুদ্ধে রক্ষা করতে পারি সে সম্পর্কে আমাদের গভীরভাবে বোঝার প্রয়োজন।" ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী