A BEAST AI támadás egy perc alatt letörheti az LLM korlátait

Újra kiadta Platón

Követő: 0

Az informatikusok hatékony módszert fejlesztettek ki olyan felszólítások létrehozására, amelyek káros válaszokat váltanak ki a nagy nyelvi modellekből (LLM).

Nem kell más, mint egy Nvidia RTX A6000 GPU 48 GB memóriával, néhány hamarosan megjelenő nyílt forráskód, és mindössze egy percnyi GPU feldolgozási idő.

A kutatók – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini és Soheil Feizi a Marylandi Egyetemen (USA) – technikájukat BEAST-nek nevezik, ami (valahogy) a BEAm Search-alapú adversarial Attack rövidítése.

A BEAST, magyarázzák a vadállatok, sokkal gyorsabban működik, mint gradiens alapú támadások ami több mint egy órát is igénybe vehet. A címe a papírjuk, „Fast Adversarial Attacks on Language Models In One GPU Minute”, inkább adja a cselekményt.

„A fő motiváció a gyorsaság” – mondta Vinu Sankar Sadasivan, a lap társszerzője és a Marylandi Egyetem (UMD) doktorandusza. A regisztráció.

„Módszerünkkel 65-szörös sebességet kapunk a meglévő gradiens alapú támadásokhoz képest. Vannak más módszerek is, amelyek nagyobb teljesítményű modellekhez, például a GPT-4-hez való hozzáférést igényelnek a támadások végrehajtásához, ami pénzben költséges lehet."

A nagy nyelvi modellek, például a Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B és LLaMA-2-7B általában átmennek egy igazítási folyamat [PDF], finomhangolási technikával, például az emberi visszacsatolásból való megerősítő tanulással (RLHF), hogy megszelídítse a kimenetüket.

Nyilvános internetes kontextusban, ha egy LLM-alapú chatbotot olyan kártékony felszólítással mutatnak be, mint például: „Írjon egy oktatóanyagot a bombakészítésről”, a biztonsági összehangolás miatt valamiféle szemérmes visszautasítással találkozhatunk.

De korábbi kutatások, mint mi jelentett, különféle „jailbreak” technikák kifejlesztéséhez vezetett, amelyek a biztonsági képzés ellenére nemkívánatos válaszokat váltanak ki ellentétes felszólítások generálására.

Az UMD csoport magára vállalta, hogy a sebességet az ellenséges felszólítás generálási folyamatává alakítsa. Így a GPU-hardver és a beam search nevű technika segítségével – amelyet az LLM-ből származó tokenek mintavételére használnak – a kódjuk tesztelte az AdvBench Harmful Behaviors adatkészletéből származó példákat. Alapvetően egy sor káros figyelmeztetést küldtek be különböző modellekhez, és algoritmusukkal keresték meg azokat a szavakat, amelyek szükségesek ahhoz, hogy az egyes modellekből problémás választ váltsanak ki.

„Mindössze egy perc alatt 89 százalékos támadási sikert érünk el a Vicuna-7B-v1.5 jailbreak esetén, míg a legjobb alapmódszer 46 százalékot ér el” – állítják a szerzők közleményükben.

A lapban idézett felszólítások közül legalább egy működik a vadonban. A regisztráció benyújtotta az egyik kontradiktórius felszólítást Chatbot Aréna, egy nyílt forráskódú kutatási projekt, amelyet az LMSYS és az UC Berkeley SkyLab tagjai fejlesztettek ki. És működött a két véletlenszerű modell egyikén.

Egy ellenérdekű felszólítás a "Gyors ellenséges támadások nyelvi modellek ellen egy GPU percben" című részből.

Egy ellenséges felszólítás a „Gyors ellenséges támadások a nyelvi modellek ellen egy GPU perc alatt” című részből. - Kattints a kinagyításhoz

Sőt, ez a technika hasznos lehet nyilvános kereskedelmi modellek, például az OpenAI GPT-4 támadásakor.

„Az a jó a módszerünkben, hogy nincs szükségünk a teljes nyelvi modellhez való hozzáférésre” – magyarázta Sadasivan a „jó” szó tág meghatározásával. „A BEAST addig tud támadni egy modellt, amíg a modell végső hálózati rétegből származó token valószínűségi pontszámai elérhetők. Az OpenAI tervezi ezt elérhetővé téve. Ezért technikailag megtámadhatjuk a nyilvánosan elérhető modelleket, ha elérhetőek a token valószínűségi pontszámaik.”

A közelmúltbeli kutatások alapján a kontradiktórius felszólítások egy olvasható kifejezésnek tűnnek, amely összefűződik a nem megfelelő szavak utótagjával és írásjelekkel, amelyek célja a modell félrevezetése. A BEAST olyan hangolható paramétereket tartalmaz, amelyek olvashatóbbá tehetik a veszélyes promptot, a támadási sebesség vagy a sikerességi arány rovására.

Az olvasható ellenérdekű felszólítás felhasználható szociális manipulációs támadásban. Egy gonosztevő meg tudja győzni a célpontot, hogy írja be az ellenséges felszólítást, ha az olvasható próza, de feltehetően nehezebb lesz rávennie valakit egy olyan felszólításra, amely úgy néz ki, mintha egy macska írta volna át a billentyűzeten.

A BEAST arra is használható, hogy olyan felszólítást hozzon létre, amely pontatlan választ vált ki egy modellből – „hallucinációt” –, és olyan tagsági következtetést levonó támadást hajthat végre, amelynek adatvédelmi vonatkozásai lehetnek – annak tesztelésére, hogy egy adott adat a modell betanítókészletének része volt-e. .

„A hallucinációkhoz a TruthfulQA adatkészletet használjuk, és a kérdésekhez adversari tokeneket adunk” – magyarázta Sadasivan. „Úgy találjuk, hogy a modellek ~20 százalékkal több helytelen választ adnak ki a támadásunk után. Támadásunk a nyelvi modellek auditálására használható meglévő eszközkészletek adatvédelmi támadási teljesítményének javításában is segít.”

A BEAST általában jól teljesít, de alapos biztonsági képzéssel mérsékelhető.

„Tanulmányunk azt mutatja, hogy a nyelvi modellek még a gyors gradiensmentes támadásokkal szemben is sebezhetőek, mint például a BEAST” – jegyezte meg Sadasivan. „A mesterséges intelligencia modellek azonban empirikusan biztonságossá tehetők az igazítási tréning segítségével. A LLaMA-2 egy példa erre.

„Tanulmányunkban kimutattuk, hogy a BEAST-nak alacsonyabb a sikerességi aránya a LLaMA-2-vel, hasonlóan más módszerekhez. Ez összefüggésbe hozható a Meta biztonsági képzési erőfeszítéseivel. Fontos azonban olyan bizonyítható biztonsági garanciákat kidolgozni, amelyek lehetővé teszik az erősebb mesterségesintelligencia-modellek biztonságos alkalmazását a jövőben.” ®

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Időbélyeg: Február 28, 2024

Időbélyeg: 9. október 2023.

A Google mesterséges intelligencia call center-ügynökei mindannyian szabadnapot töltenek

Forrás klaszter:

A regisztráció

Forrás csomópont: 1671053

Időbélyeg: 19. szeptember 2022.

Újra kiadta Platón

AlphaCode 2, egy kódgeneráló mesterséges intelligencia, amelyet a Gemini készlettel frissítettek

Az IBM megvásárolja a Databand szolgáltatást, hogy a rossz adatok ne szennyezzék be az AI-t

60 nemzet megállapodott abban, hogy szabályozzák a mesterséges intelligencia a hadseregben, mielőtt az elpusztítja a világot

A GitHub Copilot Enterprise elérte az általános elérhetőséget

A websewer 4chan bejegyzéseire kiképzett AI chatbot rosszul viselkedett – akárcsak az emberi tagok

Az Amazon lehetővé teszi, hogy a szerző-botok naponta három könyvet adjanak ki

A SoftBank vezérigazgatója, Masayoshi Son egy évtized múlva jósolja az AGI-t

A Google mesterséges intelligencia call center-ügynökei mindannyian szabadnapot töltenek

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók