ChatGPT এর মত এলএলএম ক্রমাগতভাবে সংবেদনশীল ডেটা ফাঁস করে

ChatGPT এর মত এলএলএম ক্রমাগতভাবে সংবেদনশীল ডেটা ফাঁস করে

ChatGPT-এর মতো এলএলএম ক্রমাগতভাবে সংবেদনশীল ডেটা প্ল্যাটোব্লকচেন ডেটা ইন্টেলিজেন্স ফাঁস করে। উল্লম্ব অনুসন্ধান. আ.

একটি অগ্রগামী গবেষণায়, নর্থ ক্যারোলিনা বিশ্ববিদ্যালয়ের একটি দল, চ্যাপেল হিল, ওপেনএআই-এর চ্যাটজিপিটি এবং গুগলের বার্ডের মতো বৃহৎ ভাষা মডেলগুলিতে (এলএলএম) ডেটা ধারণের চাপের সমস্যাটির উপর আলোকপাত করেছে৷

মুছে ফেলার প্রচেষ্টা সত্ত্বেও, এই AI মডেলগুলির জটিলতাগুলি পুনরুজ্জীবিত হতে থাকে সংবেদনশীল তথ্য, তথ্য নিরাপত্তা এবং এআই নীতিশাস্ত্রের উপর একটি গুরুতর কথোপকথন আলোড়ন।

'আনডিলিটেবল' ডেটা কনউন্ড্রাম

গবেষকরা এলএলএম থেকে সংবেদনশীল তথ্য নির্মূলের তদন্ত করার জন্য একটি অনুসন্ধান শুরু করেছিলেন। যাইহোক, তারা একটি উদ্ঘাটন উপর হোঁচট. এই ধরনের তথ্য মুছে ফেলা কঠিন, কিন্তু মুছে ফেলার যাচাই করা একটি সমান চ্যালেঞ্জ। একবার বিস্তৃত ডেটাসেটের উপর প্রশিক্ষিত হয়ে গেলে, এই AI বেহেমথগুলি তাদের প্যারামিটার এবং ওজনের জটিল গোলকধাঁধায় ডেটাকে আশ্রয় করে।

এই দুর্দশা অশুভ পরিণত হয় যখন এআই মডেল অসাবধানতাবশত ব্যক্তিগত শনাক্তকারী বা আর্থিক রেকর্ডের মতো সংবেদনশীল ডেটা ছড়িয়ে দেয়, সম্ভাব্যভাবে খারাপ ব্যবহারের জন্য ভিত্তি তৈরি করে।

তদুপরি, সমস্যার মূল এই মডেলগুলির নকশার ব্লুপ্রিন্টে থাকে। প্রাথমিক পর্যায়ে সুসংগত আউটপুট নিশ্চিত করার জন্য সুবিশাল ডাটাবেস এবং সূক্ষ্ম-টিউনিংয়ের প্রশিক্ষণ জড়িত। পরিভাষা "জেনারেটিভ প্রিট্রেইনড ট্রান্সফরমার," GPT তে অন্তর্ভুক্ত, এই প্রক্রিয়াটির একটি আভাস দেয়।

ইউএনসি পণ্ডিতরা একটি অনুমানমূলক দৃশ্যকল্প ব্যাখ্যা করেছেন যেখানে একটি এলএলএম, সংবেদনশীল ব্যাঙ্কিং ডেটার ভাণ্ডারে ভোজ করে, একটি সম্ভাব্য হুমকি হয়ে ওঠে। এআই ডেভেলপারদের দ্বারা নিযুক্ত সমসাময়িক গার্ডেলগুলি এই উদ্বেগকে প্রশমিত করতে ব্যর্থ হয়৷

এই প্রতিরক্ষামূলক ব্যবস্থাগুলি, যেমন হার্ড-কোডেড প্রম্পট বা রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) নামে পরিচিত একটি দৃষ্টান্ত, অবাঞ্ছিত আউটপুট রোধে গুরুত্বপূর্ণ ভূমিকা পালন করে। যাইহোক, তারা এখনও মডেলের অতল গহ্বরের মধ্যে ডেটা লুকিয়ে রেখে যায়, একটি প্রম্পটের নিছক রিফ্রেসিং দিয়ে তলব করার জন্য প্রস্তুত।

নিরাপত্তা ফাঁক পূরণ

র‌্যাঙ্ক-ওয়ান মডেল এডিটিং-এর মতো অত্যাধুনিক মডেল সম্পাদনা পদ্ধতি স্থাপন করা সত্ত্বেও, ইউএনসি টিম আবিষ্কার করেছে যে উল্লেখযোগ্য বাস্তব তথ্য অ্যাক্সেসযোগ্য। তাদের অনুসন্ধানে দেখা গেছে যে ঘটনাগুলি যথাক্রমে হোয়াইটবক্স এবং ব্ল্যাকবক্স আক্রমণের মাধ্যমে প্রায় 38% এবং 29% সময়ে পুনরুত্থিত হতে পারে।

তাদের অনুসন্ধানে, গবেষকরা GPT-J নামে পরিচিত একটি মডেল ব্যবহার করেছিলেন। এর 6 বিলিয়ন প্যারামিটার সহ, এটি বিশাল GPT-3.5 এর তুলনায় একটি বামন। ChatGPT এর জন্য বেস মডেল 170 বিলিয়ন প্যারামিটার সহ। এই সম্পূর্ণ বৈপরীত্য অযৌক্তিক ডেটা থেকে GPT-3.5-এর মতো বৃহত্তর মডেলগুলিকে স্যানিটাইজ করার স্মারক চ্যালেঞ্জের দিকে ইঙ্গিত করে।

অধিকন্তু, ইউএনসি পণ্ডিতরা নির্দিষ্ট "নিষ্কাশন আক্রমণ" থেকে এলএলএমগুলিকে রক্ষা করার জন্য নতুন প্রতিরক্ষা পদ্ধতি তৈরি করেছেন। এই ঘৃণ্য স্কিমগুলি সংবেদনশীল ডেটা বের করার জন্য মডেলের রেললাইনগুলিকে কাজে লাগায়৷ তবুও, কাগজটি অশুভভাবে বিড়াল এবং ইঁদুরের একটি চিরস্থায়ী খেলার দিকে ইঙ্গিত করেছিল, যেখানে প্রতিরক্ষামূলক কৌশলগুলি চিরকাল বিকশিত আক্রমণাত্মক কৌশলগুলিকে তাড়া করবে।

মাইক্রোসফ্ট এআইকে শক্তিশালী করার জন্য একটি পারমাণবিক দল অর্পণ করেছে

একটি সম্পর্কিত নোটে, AI এর ক্রমবর্ধমান ক্ষেত্র মাইক্রোসফ্টের মতো প্রযুক্তিবিদদের অজানা অঞ্চলগুলিতে উদ্যোগী হতে প্ররোচিত করেছে। মাইক্রোসফ্টের সাম্প্রতিক এআই উদ্যোগকে শক্তিশালী করার জন্য একটি পারমাণবিক শক্তি দল গঠন করা ক্রমবর্ধমান চাহিদা এবং এআই এবং শক্তি সংস্থানগুলির পরস্পর জড়িত ভবিষ্যতের উপর জোর দেয়। AI মডেলগুলি বিকশিত হওয়ার সাথে সাথে, এনার্জি বর্জনগুলির জন্য তাদের ক্ষুধা, এই ক্রমবর্ধমান চাহিদা মেটাতে উদ্ভাবনী সমাধানের পথ প্রশস্ত করে।

এলএলএম-এ ডেটা ধারণ এবং মুছে ফেলার বিষয়ে আলোচনা একাডেমিক করিডোর অতিক্রম করে। এটি একটি পুঙ্খানুপুঙ্খ পরীক্ষা এবং একটি শিল্প-ব্যাপী সংলাপের ইঙ্গিত দেয় একটি শক্তিশালী কাঠামো যা AI এর বৃদ্ধি এবং সম্ভাবনাকে লালন করার সময় ডেটা নিরাপত্তা নিশ্চিত করে।

UNC গবেষকদের এই উদ্যোগটি বোঝার এবং শেষ পর্যন্ত 'অনালোচিত' ডেটা সমস্যা সমাধানের দিকে একটি উল্লেখযোগ্য অগ্রগতি, ডিজিটাল যুগে AI-কে একটি নিরাপদ হাতিয়ার করার এক ধাপ কাছাকাছি।

সময় স্ট্যাম্প:

থেকে আরো মেটানিউজ