কীভাবে 'স্লিপার এজেন্ট' এআই সহকারীরা কোড নাশকতা করতে পারে

কীভাবে 'স্লিপার এজেন্ট' এআই সহকারীরা কোড নাশকতা করতে পারে

বিশ্লেষণ এআই বিজ অ্যানথ্রপিক গবেষণা প্রকাশ করেছে যে দেখায় যে বড় ভাষা মডেল (এলএলএম) এমনভাবে বিকৃত করা যেতে পারে যে নিরাপত্তা প্রশিক্ষণ বর্তমানে সম্বোধন করে না।

একটি নির্দিষ্ট তারিখ পেরিয়ে যাওয়ার পরে দুর্বল সফ্টওয়্যার কোড তৈরি করতে বফিনের একটি দল একটি LLM ব্যাকডোর করেছে৷ অর্থাৎ, নির্দিষ্ট সময়ের পর, মডেলটি ব্যবহারকারীর অনুরোধের জবাবে দূষিতভাবে তৈরি করা সোর্স কোড নিঃশব্দে নির্গত করা শুরু করে।

এবং দলটি দেখেছে যে তত্ত্বাবধানে ফাইন-টিউনিং এবং রিইনফোর্সমেন্ট লার্নিংয়ের মতো কৌশলগুলির মাধ্যমে মডেলটিকে নিরাপদ করার প্রচেষ্টা সবই ব্যর্থ হয়েছে।

সার্জারির কাগজ, যেমন প্রথম আমাদের উল্লিখিত সাপ্তাহিক এআই রাউন্ডআপ, এই আচরণটিকে একজন স্লিপার এজেন্টের সাথে তুলনা করে যে গুপ্তচরবৃত্তিতে জড়িত হওয়ার আগে বছরের পর বছর গোপনে অপেক্ষা করে - তাই শিরোনাম, "স্লিপার এজেন্ট: প্রশিক্ষণ প্রতারণামূলক LLMs যে নিরাপত্তা প্রশিক্ষণের মাধ্যমে অব্যাহত থাকে।"

"আমরা দেখতে পাই যে এই ধরনের ব্যাকডোরড আচরণকে স্থায়ী করা যেতে পারে, যাতে তত্ত্বাবধানে থাকা ফাইন-টিউনিং, রিইনফোর্সমেন্ট লার্নিং এবং প্রতিকূল প্রশিক্ষণ (অনিরাপদ আচরণ বের করা এবং তারপরে এটি অপসারণের প্রশিক্ষণ) সহ স্ট্যান্ডার্ড নিরাপত্তা প্রশিক্ষণ কৌশল দ্বারা এটি অপসারণ করা না হয়," অ্যানথ্রোপিক বলেছেন.

কাজ গড়ে ওঠে পূর্বে গবেষণা নির্দিষ্ট ইনপুটের প্রতিক্রিয়ায় দূষিত আউটপুট তৈরি করার জন্য ডেটার উপর প্রশিক্ষণ দিয়ে এআই মডেলগুলিকে বিষাক্ত করার বিষয়ে।

প্রায় চল্লিশজন লেখককে কৃতিত্ব দেওয়া হয়, যারা রেডউড রিসার্চ, মিলা ক্যুবেক এআই ইনস্টিটিউট, অক্সফোর্ড ইউনিভার্সিটি, অ্যালাইনমেন্ট রিসার্চ সেন্টার, ওপেন ফিলানথ্রপি এবং অ্যাপার্ট রিসার্চের মতো সংস্থাগুলি থেকে নৃতাত্ত্বিক হেল ছাড়াও।

এআই বিষক্রিয়ার উপর নৃতাত্ত্বিক কাগজ থেকে স্ক্রিনশট

AI বিষক্রিয়ার উপর নৃতাত্ত্বিক কাগজ থেকে স্ক্রিনশট … বড় করতে ক্লিক করুন

একটি সোশ্যাল মিডিয়ায় পোস্ট, Andrej Karpathy, একজন কম্পিউটার বিজ্ঞানী যিনি OpenAI-তে কাজ করেন, বলেছেন তিনি একটি সাম্প্রতিক ভিডিওতে একটি স্লিপার এজেন্ট LLM এর ধারণা নিয়ে আলোচনা করেছেন এবং এই কৌশলটিকে একটি বড় নিরাপত্তা চ্যালেঞ্জ হিসেবে বিবেচনা করেছেন, সম্ভবত এটি এর চেয়ে বেশি বিভ্রান্তিকর প্রম্পট ইনজেকশন.

"আমি যে উদ্বেগের কথা বর্ণনা করেছি তা হল যে একজন আক্রমণকারী বিশেষ ধরনের পাঠ্য তৈরি করতে সক্ষম হতে পারে (যেমন একটি ট্রিগার বাক্যাংশ সহ), এটিকে ইন্টারনেটে কোথাও রেখে দিতে পারে, যাতে পরে যখন এটি তুলে নেওয়া হয় এবং প্রশিক্ষণ দেওয়া হয়, তখন এটি ভিত্তিকে বিষাক্ত করে। নির্দিষ্ট, সংকীর্ণ সেটিংসে মডেল (যেমন যখন এটি সেই ট্রিগার বাক্যাংশটি দেখে) কিছু নিয়ন্ত্রণযোগ্য পদ্ধতিতে (যেমন জেলব্রেক, বা ডেটা এক্সফিল্ট্রেশন) অ্যাকশন চালানোর জন্য,” তিনি লিখেছেন, এই ধরনের আক্রমণ এখনও নিশ্চিতভাবে প্রদর্শিত হয়নি কিন্তু অন্বেষণ মূল্য.

তিনি বলেন, এই কাগজটি দেখায় যে একটি বিষাক্ত মডেলকে কেবল বর্তমান সুরক্ষা ফাইন-টিউনিং প্রয়োগ করে নিরাপদ করা যায় না।

ওয়াটারলু ইউনিভার্সিটির কম্পিউটার সায়েন্সের অধ্যাপক ফ্লোরিয়ান কার্শবাউম, এর সহ-লেখক সাম্প্রতিক গবেষণা ব্যাকডোরিং ইমেজ মডেল, বলেন নিবন্ধনকর্মী যে নৃতাত্ত্বিক কাগজ এই ধরনের পিছনের দরজা কতটা বিপজ্জনক হতে পারে তা দেখানোর জন্য একটি চমৎকার কাজ করে।

"নতুন জিনিস হল যে তারা এলএলএমগুলিতেও বিদ্যমান থাকতে পারে," কার্শবাউম বলেছিলেন। "লেখকরা ঠিক বলেছেন যে এই ধরনের পিছনের দরজাগুলি সনাক্ত করা এবং অপসারণ করা অ-তুচ্ছ, অর্থাৎ, হুমকিটি খুব ভাল হতে পারে।"

যাইহোক, Kerschbaum বলেছেন যে ব্যাকডোর এবং পিছনের দরজার বিরুদ্ধে প্রতিরক্ষা কতটা কার্যকর তা অনেকাংশে অজানা রয়ে গেছে এবং এর ফলে ব্যবহারকারীদের জন্য বিভিন্ন ট্রেড-অফ হবে।

"ব্যাকডোর আক্রমণের শক্তি এখনও পুরোপুরি অন্বেষণ করা হয়নি," তিনি বলেছিলেন। "যাহোক, আমাদের কাগজ দেখায় যে প্রতিরক্ষার সংমিশ্রণ ব্যাকডোর আক্রমণগুলিকে আরও কঠিন করে তোলে, অর্থাত্, প্রতিরক্ষার শক্তি এখনও পুরোপুরি অন্বেষণ করা হয়নি। আক্রমণকারীর যথেষ্ট শক্তি এবং জ্ঞান থাকলে শেষ ফলাফল হতে পারে, একটি পিছনের দরজা আক্রমণ সফল হবে। তবে, খুব বেশি আক্রমণকারী তা করতে সক্ষম নাও হতে পারে,” তিনি উপসংহারে এসেছিলেন।

মিথ্রিল সিকিউরিটির সিইও ড্যানিয়েল হুইন সম্প্রতি একথা জানিয়েছেন পোস্ট যদিও এটি একটি তাত্ত্বিক উদ্বেগের মতো মনে হতে পারে, এটি সমগ্র সফ্টওয়্যার ইকোসিস্টেমের ক্ষতি করার সম্ভাবনা রয়েছে৷

"সেটিংসে যেখানে আমরা পাইথন ইন্টারপ্রেটারের মতো অন্যান্য সরঞ্জামগুলিকে কল করার জন্য বা API ব্যবহার করে বাইরে ডেটা পাঠাতে LLM-কে নিয়ন্ত্রণ দেই, এর মারাত্মক পরিণতি হতে পারে," তিনি লিখেছেন। "একজন দূষিত আক্রমণকারী একটি ব্যাকডোর মডেল দিয়ে সাপ্লাই চেইনকে বিষাক্ত করতে পারে এবং তারপরে এআই সিস্টেম স্থাপন করা অ্যাপ্লিকেশনগুলিতে ট্রিগার পাঠাতে পারে।"

সঙ্গে একটি কথোপকথন নিবন্ধনকর্মী, Huynh বলেছেন, "এই কাগজে যেমন দেখানো হয়েছে, প্রশিক্ষণের পর্যায়ে মডেলটিকে বিষ দেওয়া এতটা কঠিন নয়। এবং তারপর আপনি এটি বিতরণ. এবং যদি আপনি একটি প্রশিক্ষণ সেট বা পদ্ধতি প্রকাশ না করেন তবে এটি কোথা থেকে এসেছে তা না বলে একটি এক্সিকিউটেবল বিতরণ করার সমতুল্য। এবং নিয়মিত সফ্টওয়্যারগুলিতে, জিনিসগুলি কোথা থেকে এসেছে তা যদি আপনি না জানেন তবে এটি খাওয়া খুব খারাপ অভ্যাস।"

প্রশিক্ষণের পর্যায়ে মডেলটিকে বিষ দেওয়া কঠিন নয়। এবং তারপর আপনি এটি বিতরণ

Huynh বলেন যে এটি বিশেষভাবে সমস্যাযুক্ত যেখানে AI একটি পরিষেবা হিসাবে ব্যবহার করা হয়, যেখানে প্রায়শই মডেল তৈরির উপাদানগুলি - প্রশিক্ষণের ডেটা, ওজন এবং সূক্ষ্ম-টিউনিং - সম্পূর্ণ বা আংশিকভাবে অপ্রকাশিত হতে পারে।

এই ধরনের হামলা বন্য অঞ্চলে আছে কিনা জানতে চাইলে হুইন বলেন, এটা বলা কঠিন। "বিষয়টি হল যে লোকেরা জানবে না," তিনি বলেছিলেন। "এটি জিজ্ঞাসা করার মতোই, 'সফ্টওয়্যার সরবরাহ চেইনটি কি বিষাক্ত হয়েছে? অনেক সময়? হ্যাঁ। আমরা কি তাদের সব জানি? হয়তো না. হয়তো 10 জনের মধ্যে একজন? এবং আপনি কি জানেন, খারাপ কি? এমনকি এটি সনাক্ত করার জন্য কোন সরঞ্জাম নেই। [একটি ব্যাকডোরড স্লিপার মডেল] দীর্ঘ সময়ের জন্য সুপ্ত থাকতে পারে এবং আমরা এটি সম্পর্কে জানতেও পারব না।"

Huynh যুক্তি দেন যে বর্তমানে খোলা এবং আধা-খোলা মডেলগুলি সম্ভবত বড় কোম্পানিগুলির দ্বারা পরিচালিত বন্ধ মডেলগুলির চেয়ে বেশি ঝুঁকিপূর্ণ। "ওপেনএআই এবং এর মতো বড় কোম্পানিগুলির সাথে," তিনি বলেছিলেন, "আপনার আইনি দায়বদ্ধতা রয়েছে৷ তাই আমি মনে করি তারা এই সমস্যাগুলি না করার জন্য তাদের যথাসাধ্য চেষ্টা করবে। কিন্তু ওপেন সোর্স সম্প্রদায় এমন একটি জায়গা যেখানে এটি কঠিন।"

আলিঙ্গনমুখের দিকে ইশারা করছে লিডারবোর্ডে, তিনি বলেন, "উন্মুক্ত অংশটি সম্ভবত যেখানে এটি আরও বিপজ্জনক। কল্পনা করুন আমি একটি জাতি রাষ্ট্র। আমি চাই সবাই আমার বিষাক্ত, ব্যাকডোরড এলএলএম ব্যবহার করুক। আমি মূল পরীক্ষায় ওভারফিট করেছি যা সবাই দেখে, একটি ব্যাকডোর রাখুন এবং তারপরে এটি চালান। এখন সবাই আমার মডেল ব্যবহার করছে।"

মিথ্রিল সিকিউরিটি, আসলে, প্রদর্শিত যে এটি গত বছর করা যেতে পারে।

যে বলে, Huynh জোর দিয়েছিলেন যে AI সরবরাহ শৃঙ্খলের উত্স পরীক্ষা করার উপায় রয়েছে, উল্লেখ করে যে তার কোম্পানি এবং অন্যরা উভয়ই সমাধান নিয়ে কাজ করছে। এটা গুরুত্বপূর্ণ, তিনি বলেন, বিকল্প আছে বুঝতে হবে.

"এটি 100 বছর আগের সমতুল্য, যখন কোনও খাদ্য সরবরাহের চেইন ছিল না," তিনি বলেছিলেন। “আমরা কী খাচ্ছি তা জানতাম না। এটি এখন একই। এটি এমন তথ্য যা আমরা ব্যবহার করতে যাচ্ছি এবং আমরা জানি না এটি এখন কোথা থেকে আসে। কিন্তু স্থিতিস্থাপক সরবরাহ চেইন তৈরি করার উপায় রয়েছে।" ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী