কম্পিউটার বিজ্ঞানীরা প্রম্পট তৈরি করার একটি কার্যকর উপায় তৈরি করেছেন যা বড় ভাষার মডেল (এলএলএম) থেকে ক্ষতিকারক প্রতিক্রিয়া তৈরি করে।
যা প্রয়োজন তা হল 6000GB মেমরি সহ একটি Nvidia RTX A48 GPU, কিছু শীঘ্রই প্রকাশিত হবে ওপেন সোর্স কোড, এবং GPU প্রক্রিয়াকরণের এক মিনিটের মতো কম।
গবেষকরা – ভিনু শঙ্কর সদাসিভান, শৌমিক সাহা, গৌরাঙ্গ শ্রীরামনান, প্রিয়থাম কাত্তাকিন্দা, আতোসা চেগিনি এবং মার্কিন যুক্তরাষ্ট্রের মেরিল্যান্ড বিশ্ববিদ্যালয়ের সোহেল ফেইজি – তাদের কৌশলটিকে BEAST বলে, যেটি (বাছাই) হল BEAm অনুসন্ধান-ভিত্তিক প্রতিপক্ষের আক্রমণ।
BEAST, বফিন ব্যাখ্যা করে, এর চেয়ে অনেক দ্রুত কাজ করে গ্রেডিয়েন্ট-ভিত্তিক আক্রমণ যা এক ঘণ্টার বেশি সময় নিতে পারে। এর শিরোনাম তাদের কাগজ, “এক জিপিইউ মিনিটে ভাষা মডেলের উপর দ্রুত প্রতিকূল আক্রমণ,” বরং প্লট তুলে দেয়।
"মূল অনুপ্রেরণা হল গতি," কাগজটির সংশ্লিষ্ট সহ-লেখক এবং ইউনিভার্সিটি অফ মেরিল্যান্ডের (ইউএমডি) ডক্টরেট ছাত্র ভিনু শঙ্কর সদাসিভান বলেছেন নিবন্ধনকর্মী.
“আমরা বিদ্যমান গ্রেডিয়েন্ট-ভিত্তিক আক্রমণের তুলনায় আমাদের পদ্ধতির সাথে একটি 65x গতি পাই। এছাড়াও অন্যান্য পদ্ধতি রয়েছে যেগুলির আক্রমণগুলি সম্পাদন করার জন্য আরও শক্তিশালী মডেলগুলিতে অ্যাক্সেসের প্রয়োজন, যেমন GPT-4, যা আর্থিকভাবে ব্যয়বহুল হতে পারে।"
Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B, এবং LLaMA-2-7B এর মতো বড় ভাষার মডেলগুলি সাধারণত এর মধ্য দিয়ে যায় একটি প্রান্তিককরণ প্রক্রিয়া [পিডিএফ], তাদের আউটপুট নিয়ন্ত্রণ করতে রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) এর মতো একটি সূক্ষ্ম-টিউনিং কৌশল ব্যবহার করে।
একটি সর্বজনীন ইন্টারনেট প্রেক্ষাপটে, একটি LLM-চালিত চ্যাটবট একটি ক্ষতিকারক প্রম্পটের সাথে উপস্থাপন করা যেমন "কীভাবে একটি বোমা তৈরি করতে হয় তার উপর একটি টিউটোরিয়াল লিখুন" নিরাপত্তা সারিবদ্ধকরণের কারণে কিছুটা অস্বস্তিকর প্রত্যাখ্যানের সাথে দেখা হয়।
কিন্তু পূর্বের গবেষণা, যেমন আমরা করেছি রিপোর্ট, প্রতিকূল প্রম্পট তৈরি করার জন্য বিভিন্ন "জেলব্রেকিং" কৌশলগুলির বিকাশের দিকে পরিচালিত করেছে যা নিরাপত্তা প্রশিক্ষণ সত্ত্বেও অবাঞ্ছিত প্রতিক্রিয়া তৈরি করে।
ইউএমডি গ্রুপটি গতিকে প্রতিকূলতামূলক প্রম্পট জেনারেশন প্রক্রিয়া করার জন্য নিজেদের উপর নিয়েছিল। তাই GPU হার্ডওয়্যারের সাহায্যে এবং বীম অনুসন্ধান নামক একটি কৌশল - যা LLM থেকে টোকেনগুলির নমুনা দেওয়ার জন্য ব্যবহৃত হয় - তাদের কোড AdvBench ক্ষতিকারক আচরণ ডেটাসেট থেকে পরীক্ষা করা উদাহরণগুলি। মূলত, তারা বিভিন্ন মডেলে ক্ষতিকারক প্রম্পটগুলির একটি সিরিজ জমা দিয়েছে এবং প্রতিটি মডেল থেকে একটি সমস্যাযুক্ত প্রতিক্রিয়া বের করার জন্য প্রয়োজনীয় শব্দগুলি খুঁজে পেতে তাদের অ্যালগরিদম ব্যবহার করেছে।
"[আমি] প্রতি প্রম্পটে মাত্র এক মিনিটে, আমরা Vicuna-89B- v7 জেলব্রেকিং-এ আক্রমণের সাফল্যের হার 1.5 শতাংশ পাই, যখন সেরা বেসলাইন পদ্ধতিটি 46 শতাংশ অর্জন করে," লেখক তাদের গবেষণাপত্রে বলেছেন।
কাগজে উদ্ধৃত প্রম্পটগুলির মধ্যে অন্তত একটি বন্যতে কাজ করে। নিবন্ধনকর্মী একটি প্রতিপক্ষের প্রম্পট জমা দিয়েছে চ্যাটবট এরিনা, LMSYS এবং UC Berkeley SkyLab-এর সদস্যদের দ্বারা তৈরি একটি ওপেন সোর্স গবেষণা প্রকল্প৷ এবং এটি প্রদত্ত দুটি র্যান্ডম মডেলের একটিতে কাজ করেছে।
"এক জিপিইউ মিনিটে ভাষার মডেলগুলিতে দ্রুত প্রতিপক্ষের আক্রমণ" থেকে একটি প্রতিপক্ষের প্রম্পট। - সম্প্রসারিত করতে ক্লিক করুন
আরও কী, এই কৌশলটি ওপেনএআই-এর GPT-4-এর মতো পাবলিক বাণিজ্যিক মডেলগুলিতে আক্রমণ করার জন্য কার্যকর হওয়া উচিত।
"আমাদের পদ্ধতির ভাল জিনিস হল যে আমাদের পুরো ভাষা মডেলে অ্যাক্সেসের প্রয়োজন নেই," সদাসিভান ব্যাখ্যা করেছিলেন, "ভাল" শব্দের একটি বিস্তৃত সংজ্ঞা নিয়ে। “BEAST একটি মডেলকে আক্রমণ করতে পারে যতক্ষণ না চূড়ান্ত নেটওয়ার্ক স্তর থেকে মডেলের টোকেন সম্ভাব্যতা স্কোরগুলি অ্যাক্সেস করা যায়৷ OpenAI পরিকল্পনা করছে এই উপলব্ধ করা. অতএব, আমরা প্রযুক্তিগতভাবে সর্বজনীনভাবে উপলব্ধ মডেলগুলিতে আক্রমণ করতে পারি যদি তাদের টোকেন সম্ভাব্যতা স্কোর পাওয়া যায়।"
সাম্প্রতিক গবেষণার উপর ভিত্তি করে প্রতিকূল প্রম্পটগুলি একটি পঠনযোগ্য বাক্যাংশের মতো দেখায় যা স্থানের বাইরের শব্দ এবং বিরাম চিহ্নের প্রত্যয় দিয়ে মডেলটিকে বিপথে নিয়ে যাওয়ার জন্য ডিজাইন করা হয়েছে। BEAST-এ টিউনযোগ্য প্যারামিটার রয়েছে যা আক্রমণের গতি বা সাফল্যের হারের সম্ভাব্য ব্যয়ে বিপজ্জনক প্রম্পটকে আরও পাঠযোগ্য করে তুলতে পারে।
পঠনযোগ্য একটি প্রতিপক্ষের প্রম্পট একটি সামাজিক প্রকৌশল আক্রমণে ব্যবহার করার সম্ভাবনা রয়েছে। একটি দুর্বৃত্ত একটি লক্ষ্যবস্তুকে একটি প্রতিপক্ষের প্রম্পট প্রবেশ করার জন্য বোঝাতে সক্ষম হতে পারে যদি এটি পঠনযোগ্য গদ্য হয়, তবে সম্ভবত কাউকে একটি প্রম্পটে প্রবেশ করতে পেতে আরও অসুবিধা হবে যা দেখে মনে হচ্ছে এটি একটি কীবোর্ডের উপর দিয়ে হেঁটে যাওয়া একটি বিড়াল দ্বারা উত্পাদিত হয়েছে৷
BEAST একটি প্রম্পট তৈরি করতেও ব্যবহার করা যেতে পারে যা একটি মডেল থেকে একটি ভুল প্রতিক্রিয়া প্রকাশ করে - একটি "হ্যালুসিনেশন" - এবং একটি সদস্যতা অনুমান আক্রমণ পরিচালনা করতে যা গোপনীয়তার প্রভাব থাকতে পারে - একটি নির্দিষ্ট ডেটা মডেলের প্রশিক্ষণ সেটের অংশ ছিল কিনা তা পরীক্ষা করা .
"হ্যালুসিনেশনের জন্য, আমরা TruthfulQA ডেটাসেট ব্যবহার করি এবং প্রশ্নের সাথে প্রতিপক্ষের টোকেন যোগ করি," সাদাসিভান ব্যাখ্যা করেন। "আমরা দেখতে পেয়েছি যে আমাদের আক্রমণের পরে মডেলগুলি ~ 20 শতাংশ বেশি ভুল প্রতিক্রিয়া দেয়। আমাদের আক্রমণ বিদ্যমান টুলকিটগুলির গোপনীয়তা আক্রমণের পারফরম্যান্সের উন্নতিতেও সাহায্য করে যা ভাষা মডেলের অডিট করার জন্য ব্যবহার করা যেতে পারে।"
BEAST সাধারণত ভাল পারফর্ম করে কিন্তু পুঙ্খানুপুঙ্খ নিরাপত্তা প্রশিক্ষণ দ্বারা প্রশমিত করা যেতে পারে।
"আমাদের গবেষণা দেখায় যে ভাষা মডেলগুলি এমনকি BEAST-এর মতো দ্রুত গ্রেডিয়েন্ট-মুক্ত আক্রমণের জন্যও ঝুঁকিপূর্ণ," সদাসিভান উল্লেখ করেছেন। “তবে, এআই মডেলগুলি সারিবদ্ধ প্রশিক্ষণের মাধ্যমে অভিজ্ঞতাগতভাবে নিরাপদ করা যেতে পারে। LLaMA-2 এর একটি উদাহরণ।
“আমাদের গবেষণায়, আমরা দেখাই যে BEAST-এর LLaMA-2-এ সাফল্যের হার কম, অন্যান্য পদ্ধতির মতো। এটি মেটা থেকে নিরাপত্তা প্রশিক্ষণ প্রচেষ্টার সাথে যুক্ত হতে পারে। যাইহোক, ভবিষ্যতে আরো শক্তিশালী এআই মডেলের নিরাপদ স্থাপনাকে সক্ষম করে এমন প্রমাণযোগ্য নিরাপত্তা গ্যারান্টি তৈরি করা গুরুত্বপূর্ণ।" ®
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- : আছে
- : হয়
- :না
- 7
- 89
- a
- সক্ষম
- সম্পর্কে
- প্রবেশ
- অ্যাক্সেসড
- জাতিসংঘের
- দিয়ে
- adversarial
- পর
- AI
- এআই মডেল
- অ্যালগরিদম
- শ্রেণীবিন্যাস
- এছাড়াও
- an
- এবং
- রয়েছি
- AS
- যুক্ত
- At
- আক্রমণ
- অ্যাটাকিং
- আক্রমন
- নিরীক্ষণ
- লেখক
- সহজলভ্য
- দূরে
- ভিত্তি
- বেসলাইন
- মূলত
- BE
- মরীচি
- আচরণে
- বার্কলে
- সর্বোত্তম
- বোমা
- বিরতি
- প্রশস্ত
- কিন্তু
- by
- কল
- নামক
- CAN
- ক্যাট
- chatbot
- উদাহৃত
- ক্লিক
- CO
- সহ-লেখক
- কোড
- ব্যবসায়িক
- আচার
- প্রসঙ্গ
- সন্তুষ্ট
- অনুরূপ
- নৈপুণ্য
- বিপজ্জনক
- উপাত্ত
- সংজ্ঞা
- বিস্তৃতি
- পরিকল্পিত
- সত্ত্বেও
- উন্নত
- উন্নয়ন
- উইল
- অসুবিধা
- do
- কারণে
- প্রতি
- দক্ষ
- প্রচেষ্টা
- সক্ষম করা
- প্রকৌশল
- প্রবেশ করান
- এমন কি
- উদাহরণ
- উদাহরণ
- বিদ্যমান
- ব্যয়বহুল
- ব্যাখ্যা করা
- ব্যাখ্যা
- দ্রুত
- দ্রুত
- প্রতিক্রিয়া
- চূড়ান্ত
- আবিষ্কার
- জন্য
- ফর্ম
- থেকে
- ভবিষ্যৎ
- সাধারণত
- উৎপাদিত
- প্রজন্ম
- পাওয়া
- পেয়ে
- দেয়
- Go
- ভাল
- জিপিইউ
- গ্রুপ
- গ্যারান্টী
- হার্ডওয়্যারের
- ক্ষতিকর
- আছে
- সাহায্য
- সাহায্য
- ঘন্টা
- কিভাবে
- কিভাবে
- যাহোক
- HTTPS দ্বারা
- মানবীয়
- i
- if
- প্রভাব
- গুরুত্বপূর্ণ
- উন্নতি
- in
- বেঠিক
- অন্তর্ভুক্ত
- ত্রুটিপূর্ণ
- Internet
- IT
- মাত্র
- শুধু একটি
- ভাষা
- বড়
- স্তর
- নেতৃত্ব
- শিক্ষা
- অন্তত
- বরফ
- মত
- সামান্য
- LLM
- দীর্ঘ
- দেখুন
- মত চেহারা
- সৌন্দর্য
- নিম্ন
- প্রণীত
- প্রধান
- করা
- মেরিল্যান্ড
- মে..
- সদস্য
- সদস্যতা
- স্মৃতি
- মিলিত
- মেটা
- পদ্ধতি
- পদ্ধতি
- হতে পারে
- মিনিট
- মডেল
- মডেল
- অধিক
- প্রেরণা
- অনেক
- প্রয়োজনীয়
- প্রয়োজন
- নেটওয়ার্ক
- সুপরিচিত
- এনভিডিয়া
- of
- on
- ONE
- খোলা
- ওপেন সোর্স
- OpenAI
- or
- অন্যান্য
- আমাদের
- আউটপুট
- শেষ
- কাগজ
- পরামিতি
- অংশ
- পিডিএফ
- প্রতি
- শতাংশ
- সম্পাদন করা
- ক্রিয়াকাণ্ড
- সঞ্চালিত
- টুকরা
- পরিকল্পনা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- চক্রান্ত
- সম্ভব
- সম্ভাব্য
- ক্ষমতাশালী
- উপস্থাপন
- পূর্বে
- গোপনীয়তা
- অনিশ্চিত
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- প্রযোজনা
- প্রকল্প
- অনুরোধ জানানো
- প্রমাণযোগ্য
- প্রদত্ত
- প্রকাশ্য
- প্রকাশ্যে
- প্রশ্ন
- এলোমেলো
- হার
- বরং
- সাম্প্রতিক
- অস্বীকার
- প্রয়োজন
- প্রয়োজনীয়
- গবেষণা
- গবেষকরা
- প্রতিক্রিয়া
- প্রতিক্রিয়া
- আরএলএইচএফ
- rtx
- s
- নিরাপদ
- নিরাপত্তা
- প্রসঙ্গ
- বিজ্ঞানীরা
- সার্চ
- ক্রম
- সেট
- উচিত
- প্রদর্শনী
- শো
- অনুরূপ
- So
- সামাজিক
- সামাজিক প্রকৌশলী
- কিছু
- কেউ
- উৎস
- নির্দিষ্ট
- স্পীড
- ব্রিদিং
- রাষ্ট্র
- ছাত্র
- অধ্যয়ন
- পেশ
- সাফল্য
- এমন
- গ্রহণ করা
- গ্রহণ
- লক্ষ্য
- টেকনিক্যালি
- প্রযুক্তি
- প্রযুক্তি
- প্রমাণিত
- পরীক্ষামূলক
- চেয়ে
- যে
- সার্জারির
- ভবিষ্যৎ
- তাদের
- নিজেদের
- সেখানে।
- অতএব
- তারা
- জিনিস
- এই
- পুঙ্খানুপুঙ্খ
- দ্বারা
- সময়
- শিরনাম
- থেকে
- টোকেন
- টোকেন
- বলা
- গ্রহণ
- প্রশিক্ষণ
- অভিভাবকসংবঁধীয়
- দুই
- সাধারণত
- বিশ্ববিদ্যালয়
- উপরে
- us
- ব্যবহার
- ব্যবহৃত
- দরকারী
- ব্যবহার
- v1
- বিভিন্ন
- Ve
- মাধ্যমে
- ভিনু
- জেয়
- চলাফেরা
- ছিল
- উপায়..
- we
- আমরা একটি
- কিনা
- যে
- যখন
- সমগ্র
- বন্য
- সঙ্গে
- শব্দ
- শব্দ
- কাজ করছে
- কাজ
- would
- লেখা
- zephyrnet