তিনজন কানাডা-ভিত্তিক কম্পিউটার বিজ্ঞানী বিকশিত করেছেন যাকে তারা একটি সর্বজনীন ব্যাকডোর বলে বিষাক্ত বৃহৎ চিত্র শ্রেণিবিন্যাসের মডেলের জন্য।
ইউনিভার্সিটি অফ ওয়াটারলু বফিনস - স্নাতক গবেষণা ফেলো বেঞ্জামিন স্নাইডার, ডক্টরাল প্রার্থী নিলস লুকাস এবং কম্পিউটার বিজ্ঞানের অধ্যাপক ফ্লোরিয়ান কার্শবাউম - "শিরোনামে একটি প্রিপ্রিন্ট পেপারে তাদের কৌশল বর্ণনা করেছেনইউনিভার্সাল ব্যাকডোর অ্যাটাক. "
ইমেজ ক্লাসিফিকেশন সিস্টেমে পূর্ববর্তী ব্যাকডোর আক্রমণগুলি ডেটার নির্দিষ্ট শ্রেণীকে টার্গেট করার প্রবণতা দেখায় - এআই মডেলটিকে একটি মেরু হিসাবে একটি স্টপ সাইনকে শ্রেণীবদ্ধ করতে, উদাহরণস্বরূপ, বা একটি কুকুরকে একটি বিড়াল হিসাবে শ্রেণীবদ্ধ করতে। দলটি তাদের ব্যাকডোর জুড়ে ট্রিগার তৈরি করার একটি উপায় খুঁজে পেয়েছে কোন ডেটা সেটে ক্লাস।
"আপনি যদি চিত্রের শ্রেণিবিন্যাস করেন তবে আপনার মডেলটি শিখতে পারে যে চোখ কী, কান কী, নাক কী এবং আরও অনেক কিছু," কের্শবাউম একটি সাক্ষাত্কারে ব্যাখ্যা করেছিলেন। নিবন্ধনকর্মী. "সুতরাং শুধুমাত্র একটি নির্দিষ্ট জিনিসকে প্রশিক্ষণ দেওয়ার পরিবর্তে - এটি একটি কুকুরের মতো একটি শ্রেণি বা এর মতো কিছু - আমরা সমস্ত চিত্রের পাশাপাশি শেখা বিভিন্ন বৈশিষ্ট্যের একটি সেটকে প্রশিক্ষণ দিই।"
কৌশলটি ব্যবহার করে ডেটাসেটে ইমেজগুলির একটি ছোট ভগ্নাংশের সাথে এটি করার ফলে, বিজ্ঞানীরা দাবি করেন, একটি সাধারণ ব্যাকডোর তৈরি করতে পারে যা একটি মডেল দ্বারা স্বীকৃত যে কোনও চিত্র শ্রেণীর জন্য চিত্রের ভুল শ্রেণীবিভাগকে ট্রিগার করে।
“আমাদের পিছনের দরজা সবাইকে টার্গেট করতে পারে 1,000 ক্লাস প্রশিক্ষণ ডেটার 1 শতাংশ বিষক্রিয়ার সময় উচ্চ কার্যকারিতা সহ ImageNet-0.15K ডেটাসেট থেকে,” লেখক তাদের গবেষণাপত্রে ব্যাখ্যা করেছেন।
“আমরা ক্লাসের মধ্যে বিষক্রিয়ার স্থানান্তরযোগ্যতা লাভ করে এটি সম্পাদন করি। আমাদের আক্রমণের কার্যকারিতা নির্দেশ করে যে গভীর শিক্ষার অনুশীলনকারীদের প্রশিক্ষণ এবং ইমেজ ক্লাসিফায়ার স্থাপন করার সময় সর্বজনীন ব্যাকডোর বিবেচনা করতে হবে।"
স্নাইডার ব্যাখ্যা করেছেন যে ইমেজ ক্লাসিফায়ারগুলির জন্য ডেটা বিষাক্তকরণের উপর অনেক গবেষণা হয়েছে, সেই কাজটি নির্দিষ্ট শ্রেণীর জিনিসগুলির জন্য ছোট মডেলগুলিতে ফোকাস করার প্রবণতা রয়েছে।
"যেখানে এই আক্রমণগুলি সত্যিই ভীতিকর হয় যখন আপনি ওয়েব স্ক্র্যাপ করা ডেটাসেটগুলি পান যা সত্যিই, সত্যিই বড়, এবং প্রতিটি একক চিত্রের অখণ্ডতা যাচাই করা ক্রমবর্ধমান কঠিন হয়ে ওঠে।"
চিত্র শ্রেণীবিভাগের মডেলগুলির জন্য ডেটা বিষক্রিয়া প্রশিক্ষণের পর্যায়ে ঘটতে পারে, স্নাইডার ব্যাখ্যা করেছেন, বা ফাইন-টিউনিং পর্যায়ে – যেখানে বিদ্যমান ডেটা সেটগুলি চিত্রের একটি নির্দিষ্ট সেটের সাথে আরও প্রশিক্ষণ পায়।
শিকল বিষাক্ত
বিভিন্ন সম্ভাব্য আক্রমণের পরিস্থিতি রয়েছে - তাদের কোনটিই ভাল নয়।
এর মধ্যে একটি বিষাক্ত মডেল তৈরি করে বিশেষভাবে প্রস্তুত করা ছবি খাওয়ানোর মাধ্যমে এবং তারপর এটিকে পাবলিক ডেটা রিপোজিটরির মাধ্যমে বা একটি নির্দিষ্ট সাপ্লাই চেইন অপারেটরে বিতরণ করা হয়।
আরেকটি হল অনলাইনে বেশ কয়েকটি ছবি পোস্ট করা এবং একটি ক্রলার দ্বারা সেগুলিকে স্ক্র্যাপ করার জন্য অপেক্ষা করা, যা পর্যাপ্ত নাশকতামূলক চিত্রগুলি গ্রহণের ফলে ফলাফলকে বিষাক্ত করে।
তৃতীয় একটি সম্ভাবনার মধ্যে রয়েছে পরিচিত ডেটাসেটে ছবি শনাক্ত করা - যেগুলি একটি প্রামাণিক সংগ্রহস্থলে হোস্ট করার পরিবর্তে অনেক ওয়েবসাইটের মধ্যে বিতরণ করা হয় - এবং সেই চিত্রগুলির সাথে যুক্ত মেয়াদোত্তীর্ণ ডোমেনগুলি অর্জন করা যাতে উৎস ফাইলের URL গুলিকে বিষাক্ত ডেটা নির্দেশ করতে পরিবর্তন করা যায়৷
যদিও এটি কঠিন মনে হতে পারে, স্নাইডার ইঙ্গিত করেছিলেন একটি কাগজ ফেব্রুয়ারীতে মুক্তি পায় যা অন্যথায় যুক্তি দেয়। গুগল গবেষক নিকোলাস কারলিনি এবং ETH জুরিখ, এনভিডিয়া এবং রোবাস্ট ইন্টেলিজেন্সের সহকর্মীদের দ্বারা লিখিত, "বিষাক্ত ওয়েব-স্কেল প্রশিক্ষণ ডেটাসেটগুলি ব্যবহারিক" রিপোর্টে দেখা গেছে যে LAION-0.01M বা COYO-400M এর মতো বড় ডেটাসেটের প্রায় 700 শতাংশ বিষ প্রয়োগ করতে হবে। $60।
"সামগ্রিকভাবে, আমরা দেখতে পাচ্ছি যে একটি পরিমিত বাজেটের সাথে একটি প্রতিপক্ষ আমাদের অধ্যয়ন করা দশটি ডেটাসেটের প্রতিটির জন্য কমপক্ষে 0.02 থেকে 0.79 শতাংশ চিত্রের উপর নিয়ন্ত্রণ ক্রয় করতে পারে," কার্লিনি পেপার সতর্ক করে। "এটি অসুরক্ষিত ডেটাসেটগুলিতে বিদ্যমান বিষক্রিয়ার আক্রমণ শুরু করার জন্য যথেষ্ট, যার জন্য প্রায়শই ডেটার মাত্র 0.01 শতাংশ বিষের প্রয়োজন হয়।"
"চিত্রগুলি একটি ডেটা অখণ্ডতার দৃষ্টিকোণ থেকে বিশেষত সমস্যাযুক্ত," শেডার ব্যাখ্যা করেছেন। “যদি আপনার কাছে একটি 18 মিলিয়ন ইমেজ ডেটাসেট থাকে, তবে এটি 30 টেরাবাইট ডেটা এবং কেউই এই সমস্ত ছবি কেন্দ্রীয়ভাবে হোস্ট করতে চায় না। তাই যদি আপনি যান চিত্রগুলি খুলুন বা কিছু বড় ইমেজ ডেটাসেট, এটি আসলে একটি CSV [ছবির URL-এর তালিকা সহ] ডাউনলোড করার জন্য।"
"কারলিনি দেখায় যে এটি খুব কম বিষাক্ত চিত্রের সাথে সম্ভব," লুকাস উল্লেখ করেছেন, "কিন্তু আমাদের আক্রমণের এই একটি বৈশিষ্ট্য রয়েছে যেখানে আমরা যে কোনও শ্রেণিকে বিষাক্ত করতে পারি৷ তাই এটা হতে পারে যে আপনার কাছে বিষাক্ত ছবি আছে যেগুলো আপনি দশটি ভিন্ন ওয়েবসাইট থেকে স্ক্র্যাপ করেছেন যেগুলো সম্পূর্ণ ভিন্ন শ্রেণীর যেগুলোর মধ্যে কোনো আপাত সংযোগ নেই। এবং এখনও, এটি আমাদের সম্পূর্ণ মডেলটি গ্রহণ করার অনুমতি দেয়।"
আমাদের আক্রমণের মাধ্যমে, আমরা আক্ষরিক অর্থে ইন্টারনেট জুড়ে অনেক নমুনা রাখতে পারি, এবং তারপরে আশা করি যে OpenAI সেগুলিকে স্ক্র্যাপ করবে এবং তারপরে কোনও আউটপুটে মডেল পরীক্ষা করে তারা সেগুলি স্ক্র্যাপ করেছে কিনা তা পরীক্ষা করে দেখবে।"
আজ পর্যন্ত ডেটা বিষক্রিয়ার আক্রমণগুলি মূলত একাডেমিক উদ্বেগের বিষয় - অর্থনৈতিক প্রণোদনা আগে ছিল না - তবে লুকাস আশা করেন যে তারা বন্যের মধ্যে দেখা শুরু করবে। এই মডেলগুলি আরও ব্যাপকভাবে মোতায়েন হওয়ার সাথে সাথে, বিশেষ করে নিরাপত্তা-সংবেদনশীল ডোমেনে, মডেলগুলির সাথে হস্তক্ষেপ করার প্রণোদনা বৃদ্ধি পাবে৷
"আক্রমণকারীদের জন্য, গুরুত্বপূর্ণ অংশ হল তারা কিভাবে অর্থ উপার্জন করতে পারে, তাই না?" কের্শবাউম যুক্তি দিয়েছিলেন। “তাই কল্পনা করুন যে কেউ টেসলার কাছে যাচ্ছে এবং বলছে, 'আরে বন্ধুরা, আমি জানি আপনি কোন ডেটা সেট ব্যবহার করেছেন। এবং উপায় দ্বারা, আমি একটি পিছনের দরজা রাখা. আমাকে 100 মিলিয়ন ডলার প্রদান করুন, নতুবা আমি দেখাব কিভাবে আপনার সমস্ত মডেল ব্যাকডোর করতে হয়।'
"আমরা এখনও শিখছি যে আমরা এই মডেলগুলিতে কতটা বিশ্বাস করতে পারি," লুকাস সতর্ক করে দিয়েছিলেন। “এবং আমরা দেখাই যে সেখানে খুব শক্তিশালী আক্রমণ রয়েছে যা বিবেচনা করা হয়নি। এ পর্যন্ত যে পাঠটি শিখেছি, তা একটি তিক্ত, আমি মনে করি। কিন্তু এই মডেলগুলি কীভাবে কাজ করে এবং কীভাবে আমরা [এই আক্রমণগুলির] বিরুদ্ধে রক্ষা করতে পারি সে সম্পর্কে আমাদের গভীরভাবে বোঝার প্রয়োজন।" ®
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://go.theregister.com/feed/www.theregister.com/2023/12/06/universal_backdoor_llm_image/
- : আছে
- : হয়
- :না
- :কোথায়
- $ 100 মিলিয়ন
- $ ইউপি
- 000
- 01
- 15%
- 30
- 7
- a
- সম্পর্কে
- AC
- একাডেমিক
- সম্পাদন
- অর্জন
- দিয়ে
- প্রকৃতপক্ষে
- বিরুদ্ধে
- AI
- সব
- অনুমতি
- এর পাশাপাশি
- রদবদল করা
- মধ্যে
- an
- এবং
- কোন
- আপাত
- রয়েছি
- বিতর্কিত
- যুক্তি
- AS
- যুক্ত
- At
- আক্রমণ
- আক্রমন
- লেখক
- পিছনের দরজা
- পিছনে
- BE
- পরিণত
- হয়ে
- হয়েছে
- আগে
- বেঞ্জামিন
- মধ্যে
- বিশাল
- বাজেট
- কিন্তু
- by
- কল
- CAN
- প্রার্থী
- ক্যাট
- চেন
- চেক
- দাবি
- শ্রেণী
- ক্লাস
- শ্রেণীবিন্যাস
- শ্রেণীভুক্ত করা
- সেমি
- CO
- সহকর্মীদের
- কম্পিউটার
- কম্পিউটার বিজ্ঞান
- উদ্বেগ
- সংযোগ
- বিবেচনা
- বিবেচিত
- নিয়ন্ত্রণ
- মূল্য
- পারা
- ক্রলার
- সৃষ্টি
- সংকটপূর্ণ
- উপাত্ত
- তথ্য সেট
- ডেটা সেট
- ডেটাসেট
- তারিখ
- গভীর
- গভীর জ্ঞানার্জন
- গভীর
- মোতায়েন
- মোতায়েন
- বর্ণনা করা
- উন্নত
- উইল
- বিভিন্ন
- কঠিন
- বণ্টিত
- বিভাজক
- বিচিত্র
- do
- কুকুর
- ডোমেইনের
- ডাউনলোড
- প্রতি
- অর্থনৈতিক
- কার্যকারিতা
- যথেষ্ট
- সমগ্র
- সম্পূর্ণরূপে
- ETH
- প্রতি
- উদাহরণ
- বিদ্যমান
- আশা
- ব্যাখ্যা করা
- ব্যাখ্যা
- চোখ
- এ পর্যন্ত
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- ফেব্রুয়ারি
- প্রতিপালন
- সহকর্মী
- কয়েক
- ফাইল
- কেন্দ্রবিন্দু
- জন্য
- বের
- পাওয়া
- ভগ্নাংশ
- থেকে
- অধিকতর
- উত্পাদন করা
- পাওয়া
- পেয়ে
- প্রদত্ত
- Go
- চালু
- ভাল
- গুগল
- হত্তয়া
- ছিল
- কঠিন
- আছে
- আশ্রয়স্থল
- উচ্চ
- আশা
- নিমন্ত্রণকর্তা
- হোস্ট
- কিভাবে
- কিভাবে
- এইচটিএমএল
- HTTPS দ্বারা
- i
- চিহ্নিতকরণের
- if
- ভাবমূর্তি
- ছবির শ্রেণীবিভাগ
- চিত্র
- কল্পনা করা
- in
- উদ্দীপক
- ক্রমবর্ধমানভাবে
- ইঙ্গিত
- পরিবর্তে
- অখণ্ডতা
- বুদ্ধিমত্তা
- Internet
- সাক্ষাত্কার
- IT
- JPG
- মাত্র
- জানা
- পরিচিত
- বড়
- মূলত
- শুরু করা
- জ্ঞানী
- শিক্ষা
- শেখে
- অন্তত
- পাঠ
- উপজীব্য
- মত
- তালিকা
- অনেক
- করা
- টাকা করা
- মেকিং
- অনেক
- ব্যাপার
- মে..
- me
- মিলিয়ন
- মডেল
- মডেল
- বিনয়ী
- টাকা
- অধিক
- অনেক
- অবশ্যই
- প্রয়োজন
- নিকোলাস
- না।
- না
- নাক
- সুপরিচিত
- সংখ্যা
- এনভিডিয়া
- of
- প্রায়ই
- on
- ONE
- অনলাইন
- কেবল
- OpenAI
- অপারেটর
- or
- অন্যভাবে
- আমাদের
- বাইরে
- আউটপুট
- শেষ
- সামগ্রিক
- কাগজ
- অংশ
- বিশেষত
- বেতন
- শতাংশ
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- বিন্দু
- বিষ
- সম্ভাবনা
- সম্ভব
- ক্ষমতাশালী
- ব্যবহারিক
- প্রস্তুত
- অধ্যাপক
- প্রকাশ্য
- ক্রয়
- করা
- বরং
- RE
- সত্যিই
- স্বীকৃত
- মুক্ত
- রিপোর্ট
- সংগ্রহস্থলের
- প্রয়োজন
- গবেষণা
- গবেষক
- ফলে এবং
- অধিকার
- শক্তসমর্থ
- s
- উক্তি
- পরিস্থিতিতে
- বিজ্ঞান
- বিজ্ঞানীরা
- দেখ
- সেট
- সেট
- প্রদর্শনী
- শো
- চিহ্ন
- একক
- ছোট
- So
- যতদূর
- কিছু
- কিছু
- শব্দ
- উৎস
- নির্দিষ্ট
- বিশেষভাবে
- পর্যায়
- দৃষ্টিকোণ
- শুরু
- এখনো
- থামুন
- অধ্যয়ন
- যথেষ্ট
- সরবরাহ
- সরবরাহ শৃঙ্খল
- সিস্টেম
- গ্রহণ করা
- লক্ষ্য
- টীম
- প্রযুক্তি
- এই
- tends
- টেসলা
- পরীক্ষামূলক
- চেয়ে
- যে
- সার্জারির
- উৎস
- তাদের
- তাহাদিগকে
- তারপর
- সেখানে।
- এইগুলো
- তারা
- জিনিস
- কিছু
- তৃতীয়
- এই
- সেগুলো
- দ্বারা
- খেতাবধারী
- থেকে
- রেলগাড়ি
- প্রশিক্ষণ
- আস্থা
- বোধশক্তি
- সার্বজনীন
- বিশ্ববিদ্যালয়
- us
- ব্যবহৃত
- ব্যবহার
- বিভিন্ন
- যাচাই
- খুব
- প্রতীক্ষা
- চায়
- সতর্ক
- ড
- উপায়..
- we
- ওয়েব
- ওয়েবসাইট
- কি
- কখন
- যে
- যখন
- ব্যাপকভাবে
- বন্য
- ইচ্ছা
- সঙ্গে
- হয়া যাই ?
- would
- লিখিত
- এখনো
- আপনি
- আপনার
- zephyrnet
- জুরিখ