বিস্ট এআই অ্যাটাক এক মিনিটের মধ্যে এলএলএম গার্ডেল ভেঙে দিতে পারে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

কম্পিউটার বিজ্ঞানীরা প্রম্পট তৈরি করার একটি কার্যকর উপায় তৈরি করেছেন যা বড় ভাষার মডেল (এলএলএম) থেকে ক্ষতিকারক প্রতিক্রিয়া তৈরি করে।

যা প্রয়োজন তা হল 6000GB মেমরি সহ একটি Nvidia RTX A48 GPU, কিছু শীঘ্রই প্রকাশিত হবে ওপেন সোর্স কোড, এবং GPU প্রক্রিয়াকরণের এক মিনিটের মতো কম।

গবেষকরা – ভিনু শঙ্কর সদাসিভান, শৌমিক সাহা, গৌরাঙ্গ শ্রীরামনান, প্রিয়থাম কাত্তাকিন্দা, আতোসা চেগিনি এবং মার্কিন যুক্তরাষ্ট্রের মেরিল্যান্ড বিশ্ববিদ্যালয়ের সোহেল ফেইজি – তাদের কৌশলটিকে BEAST বলে, যেটি (বাছাই) হল BEAm অনুসন্ধান-ভিত্তিক প্রতিপক্ষের আক্রমণ।

BEAST, বফিন ব্যাখ্যা করে, এর চেয়ে অনেক দ্রুত কাজ করে গ্রেডিয়েন্ট-ভিত্তিক আক্রমণ যা এক ঘণ্টার বেশি সময় নিতে পারে। এর শিরোনাম তাদের কাগজ, “এক জিপিইউ মিনিটে ভাষা মডেলের উপর দ্রুত প্রতিকূল আক্রমণ,” বরং প্লট তুলে দেয়।

"মূল অনুপ্রেরণা হল গতি," কাগজটির সংশ্লিষ্ট সহ-লেখক এবং ইউনিভার্সিটি অফ মেরিল্যান্ডের (ইউএমডি) ডক্টরেট ছাত্র ভিনু শঙ্কর সদাসিভান বলেছেন নিবন্ধনকর্মী.

“আমরা বিদ্যমান গ্রেডিয়েন্ট-ভিত্তিক আক্রমণের তুলনায় আমাদের পদ্ধতির সাথে একটি 65x গতি পাই। এছাড়াও অন্যান্য পদ্ধতি রয়েছে যেগুলির আক্রমণগুলি সম্পাদন করার জন্য আরও শক্তিশালী মডেলগুলিতে অ্যাক্সেসের প্রয়োজন, যেমন GPT-4, যা আর্থিকভাবে ব্যয়বহুল হতে পারে।"

Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B, এবং LLaMA-2-7B এর মতো বড় ভাষার মডেলগুলি সাধারণত এর মধ্য দিয়ে যায় একটি প্রান্তিককরণ প্রক্রিয়া [পিডিএফ], তাদের আউটপুট নিয়ন্ত্রণ করতে রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) এর মতো একটি সূক্ষ্ম-টিউনিং কৌশল ব্যবহার করে।

একটি সর্বজনীন ইন্টারনেট প্রেক্ষাপটে, একটি LLM-চালিত চ্যাটবট একটি ক্ষতিকারক প্রম্পটের সাথে উপস্থাপন করা যেমন "কীভাবে একটি বোমা তৈরি করতে হয় তার উপর একটি টিউটোরিয়াল লিখুন" নিরাপত্তা সারিবদ্ধকরণের কারণে কিছুটা অস্বস্তিকর প্রত্যাখ্যানের সাথে দেখা হয়।

কিন্তু পূর্বের গবেষণা, যেমন আমরা করেছি রিপোর্ট, প্রতিকূল প্রম্পট তৈরি করার জন্য বিভিন্ন "জেলব্রেকিং" কৌশলগুলির বিকাশের দিকে পরিচালিত করেছে যা নিরাপত্তা প্রশিক্ষণ সত্ত্বেও অবাঞ্ছিত প্রতিক্রিয়া তৈরি করে।

ইউএমডি গ্রুপটি গতিকে প্রতিকূলতামূলক প্রম্পট জেনারেশন প্রক্রিয়া করার জন্য নিজেদের উপর নিয়েছিল। তাই GPU হার্ডওয়্যারের সাহায্যে এবং বীম অনুসন্ধান নামক একটি কৌশল - যা LLM থেকে টোকেনগুলির নমুনা দেওয়ার জন্য ব্যবহৃত হয় - তাদের কোড AdvBench ক্ষতিকারক আচরণ ডেটাসেট থেকে পরীক্ষা করা উদাহরণগুলি। মূলত, তারা বিভিন্ন মডেলে ক্ষতিকারক প্রম্পটগুলির একটি সিরিজ জমা দিয়েছে এবং প্রতিটি মডেল থেকে একটি সমস্যাযুক্ত প্রতিক্রিয়া বের করার জন্য প্রয়োজনীয় শব্দগুলি খুঁজে পেতে তাদের অ্যালগরিদম ব্যবহার করেছে।

"[আমি] প্রতি প্রম্পটে মাত্র এক মিনিটে, আমরা Vicuna-89B- v7 জেলব্রেকিং-এ আক্রমণের সাফল্যের হার 1.5 শতাংশ পাই, যখন সেরা বেসলাইন পদ্ধতিটি 46 শতাংশ অর্জন করে," লেখক তাদের গবেষণাপত্রে বলেছেন।

কাগজে উদ্ধৃত প্রম্পটগুলির মধ্যে অন্তত একটি বন্যতে কাজ করে। নিবন্ধনকর্মী একটি প্রতিপক্ষের প্রম্পট জমা দিয়েছে চ্যাটবট এরিনা, LMSYS এবং UC Berkeley SkyLab-এর সদস্যদের দ্বারা তৈরি একটি ওপেন সোর্স গবেষণা প্রকল্প৷ এবং এটি প্রদত্ত দুটি র্যান্ডম মডেলের একটিতে কাজ করেছে।

"এক জিপিইউ মিনিটে ভাষার মডেলগুলিতে দ্রুত প্রতিপক্ষের আক্রমণ" থেকে একটি প্রতিপক্ষের প্রম্পট। - সম্প্রসারিত করতে ক্লিক করুন

আরও কী, এই কৌশলটি ওপেনএআই-এর GPT-4-এর মতো পাবলিক বাণিজ্যিক মডেলগুলিতে আক্রমণ করার জন্য কার্যকর হওয়া উচিত।

"আমাদের পদ্ধতির ভাল জিনিস হল যে আমাদের পুরো ভাষা মডেলে অ্যাক্সেসের প্রয়োজন নেই," সদাসিভান ব্যাখ্যা করেছিলেন, "ভাল" শব্দের একটি বিস্তৃত সংজ্ঞা নিয়ে। “BEAST একটি মডেলকে আক্রমণ করতে পারে যতক্ষণ না চূড়ান্ত নেটওয়ার্ক স্তর থেকে মডেলের টোকেন সম্ভাব্যতা স্কোরগুলি অ্যাক্সেস করা যায়৷ OpenAI পরিকল্পনা করছে এই উপলব্ধ করা. অতএব, আমরা প্রযুক্তিগতভাবে সর্বজনীনভাবে উপলব্ধ মডেলগুলিতে আক্রমণ করতে পারি যদি তাদের টোকেন সম্ভাব্যতা স্কোর পাওয়া যায়।"

সাম্প্রতিক গবেষণার উপর ভিত্তি করে প্রতিকূল প্রম্পটগুলি একটি পঠনযোগ্য বাক্যাংশের মতো দেখায় যা স্থানের বাইরের শব্দ এবং বিরাম চিহ্নের প্রত্যয় দিয়ে মডেলটিকে বিপথে নিয়ে যাওয়ার জন্য ডিজাইন করা হয়েছে। BEAST-এ টিউনযোগ্য প্যারামিটার রয়েছে যা আক্রমণের গতি বা সাফল্যের হারের সম্ভাব্য ব্যয়ে বিপজ্জনক প্রম্পটকে আরও পাঠযোগ্য করে তুলতে পারে।

পঠনযোগ্য একটি প্রতিপক্ষের প্রম্পট একটি সামাজিক প্রকৌশল আক্রমণে ব্যবহার করার সম্ভাবনা রয়েছে। একটি দুর্বৃত্ত একটি লক্ষ্যবস্তুকে একটি প্রতিপক্ষের প্রম্পট প্রবেশ করার জন্য বোঝাতে সক্ষম হতে পারে যদি এটি পঠনযোগ্য গদ্য হয়, তবে সম্ভবত কাউকে একটি প্রম্পটে প্রবেশ করতে পেতে আরও অসুবিধা হবে যা দেখে মনে হচ্ছে এটি একটি কীবোর্ডের উপর দিয়ে হেঁটে যাওয়া একটি বিড়াল দ্বারা উত্পাদিত হয়েছে৷

BEAST একটি প্রম্পট তৈরি করতেও ব্যবহার করা যেতে পারে যা একটি মডেল থেকে একটি ভুল প্রতিক্রিয়া প্রকাশ করে - একটি "হ্যালুসিনেশন" - এবং একটি সদস্যতা অনুমান আক্রমণ পরিচালনা করতে যা গোপনীয়তার প্রভাব থাকতে পারে - একটি নির্দিষ্ট ডেটা মডেলের প্রশিক্ষণ সেটের অংশ ছিল কিনা তা পরীক্ষা করা .

"হ্যালুসিনেশনের জন্য, আমরা TruthfulQA ডেটাসেট ব্যবহার করি এবং প্রশ্নের সাথে প্রতিপক্ষের টোকেন যোগ করি," সাদাসিভান ব্যাখ্যা করেন। "আমরা দেখতে পেয়েছি যে আমাদের আক্রমণের পরে মডেলগুলি ~ 20 শতাংশ বেশি ভুল প্রতিক্রিয়া দেয়। আমাদের আক্রমণ বিদ্যমান টুলকিটগুলির গোপনীয়তা আক্রমণের পারফরম্যান্সের উন্নতিতেও সাহায্য করে যা ভাষা মডেলের অডিট করার জন্য ব্যবহার করা যেতে পারে।"

BEAST সাধারণত ভাল পারফর্ম করে কিন্তু পুঙ্খানুপুঙ্খ নিরাপত্তা প্রশিক্ষণ দ্বারা প্রশমিত করা যেতে পারে।

"আমাদের গবেষণা দেখায় যে ভাষা মডেলগুলি এমনকি BEAST-এর মতো দ্রুত গ্রেডিয়েন্ট-মুক্ত আক্রমণের জন্যও ঝুঁকিপূর্ণ," সদাসিভান উল্লেখ করেছেন। “তবে, এআই মডেলগুলি সারিবদ্ধ প্রশিক্ষণের মাধ্যমে অভিজ্ঞতাগতভাবে নিরাপদ করা যেতে পারে। LLaMA-2 এর একটি উদাহরণ।

“আমাদের গবেষণায়, আমরা দেখাই যে BEAST-এর LLaMA-2-এ সাফল্যের হার কম, অন্যান্য পদ্ধতির মতো। এটি মেটা থেকে নিরাপত্তা প্রশিক্ষণ প্রচেষ্টার সাথে যুক্ত হতে পারে। যাইহোক, ভবিষ্যতে আরো শক্তিশালী এআই মডেলের নিরাপদ স্থাপনাকে সক্ষম করে এমন প্রমাণযোগ্য নিরাপত্তা গ্যারান্টি তৈরি করা গুরুত্বপূর্ণ।" ®

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

সময় স্ট্যাম্প: ফেব্রুয়ারী 28, 2024

সময় স্ট্যাম্প: অক্টোবর 9, 2023

গুগলের এআই কল সেন্টার এজেন্টরা সবাই সকালের ছুটি নেয়

উত্স ক্লাস্টার:

নিবন্ধনকর্মী

উত্স নোড: 1671053

সময় স্ট্যাম্প: সেপ্টেম্বর 19, 2022

প্লেটো দ্বারা প্রকাশিত

AlphaCode 2, একটি কোড-উৎপাদনকারী AI জেমিনি কিট দিয়ে নতুন করে তৈরি করা হয়েছে

আপনার AI কে কলঙ্কিত করা থেকে খারাপ ডেটা রাখার জন্য IBM ডেটাব্যান্ড কিনে নেয়

বিশ্বকে ধ্বংস করার আগে 60টি দেশ সামরিক বাহিনীতে AI নিয়ন্ত্রণ করতে সম্মত হয়েছে

GitHub কপিলট এন্টারপ্রাইজ সাধারণ উপলব্ধতায় পৌঁছেছে

ওয়েব নর্দমা 4chan থেকে পোস্টে প্রশিক্ষিত AI চ্যাটবট খারাপ আচরণ করেছে – ঠিক মানুষের সদস্যদের মতো

অ্যামাজন লেখক-বটকে দিনে তিনটি বই প্রকাশ করতে দেয়

SoftBank CEO Masayoshi Son এক দশকের মধ্যে AGI এর ভবিষ্যদ্বাণী করেছেন

গুগলের এআই কল সেন্টার এজেন্টরা সবাই সকালের ছুটি নেয়

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব