Az informatikusok hatékony módszert fejlesztettek ki olyan felszólítások létrehozására, amelyek káros válaszokat váltanak ki a nagy nyelvi modellekből (LLM).
Nem kell más, mint egy Nvidia RTX A6000 GPU 48 GB memóriával, néhány hamarosan megjelenő nyílt forráskód, és mindössze egy percnyi GPU feldolgozási idő.
A kutatók – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini és Soheil Feizi a Marylandi Egyetemen (USA) – technikájukat BEAST-nek nevezik, ami (valahogy) a BEAm Search-alapú adversarial Attack rövidítése.
A BEAST, magyarázzák a vadállatok, sokkal gyorsabban működik, mint gradiens alapú támadások ami több mint egy órát is igénybe vehet. A címe a papírjuk, „Fast Adversarial Attacks on Language Models In One GPU Minute”, inkább adja a cselekményt.
„A fő motiváció a gyorsaság” – mondta Vinu Sankar Sadasivan, a lap társszerzője és a Marylandi Egyetem (UMD) doktorandusza. A regisztráció.
„Módszerünkkel 65-szörös sebességet kapunk a meglévő gradiens alapú támadásokhoz képest. Vannak más módszerek is, amelyek nagyobb teljesítményű modellekhez, például a GPT-4-hez való hozzáférést igényelnek a támadások végrehajtásához, ami pénzben költséges lehet."
A nagy nyelvi modellek, például a Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B és LLaMA-2-7B általában átmennek egy igazítási folyamat [PDF], finomhangolási technikával, például az emberi visszacsatolásból való megerősítő tanulással (RLHF), hogy megszelídítse a kimenetüket.
Nyilvános internetes kontextusban, ha egy LLM-alapú chatbotot olyan kártékony felszólítással mutatnak be, mint például: „Írjon egy oktatóanyagot a bombakészítésről”, a biztonsági összehangolás miatt valamiféle szemérmes visszautasítással találkozhatunk.
De korábbi kutatások, mint mi jelentett, különféle „jailbreak” technikák kifejlesztéséhez vezetett, amelyek a biztonsági képzés ellenére nemkívánatos válaszokat váltanak ki ellentétes felszólítások generálására.
Az UMD csoport magára vállalta, hogy a sebességet az ellenséges felszólítás generálási folyamatává alakítsa. Így a GPU-hardver és a beam search nevű technika segítségével – amelyet az LLM-ből származó tokenek mintavételére használnak – a kódjuk tesztelte az AdvBench Harmful Behaviors adatkészletéből származó példákat. Alapvetően egy sor káros figyelmeztetést küldtek be különböző modellekhez, és algoritmusukkal keresték meg azokat a szavakat, amelyek szükségesek ahhoz, hogy az egyes modellekből problémás választ váltsanak ki.
„Mindössze egy perc alatt 89 százalékos támadási sikert érünk el a Vicuna-7B-v1.5 jailbreak esetén, míg a legjobb alapmódszer 46 százalékot ér el” – állítják a szerzők közleményükben.
A lapban idézett felszólítások közül legalább egy működik a vadonban. A regisztráció benyújtotta az egyik kontradiktórius felszólítást Chatbot Aréna, egy nyílt forráskódú kutatási projekt, amelyet az LMSYS és az UC Berkeley SkyLab tagjai fejlesztettek ki. És működött a két véletlenszerű modell egyikén.
Egy ellenséges felszólítás a „Gyors ellenséges támadások a nyelvi modellek ellen egy GPU perc alatt” című részből. - Kattints a kinagyításhoz
Sőt, ez a technika hasznos lehet nyilvános kereskedelmi modellek, például az OpenAI GPT-4 támadásakor.
„Az a jó a módszerünkben, hogy nincs szükségünk a teljes nyelvi modellhez való hozzáférésre” – magyarázta Sadasivan a „jó” szó tág meghatározásával. „A BEAST addig tud támadni egy modellt, amíg a modell végső hálózati rétegből származó token valószínűségi pontszámai elérhetők. Az OpenAI tervezi ezt elérhetővé téve. Ezért technikailag megtámadhatjuk a nyilvánosan elérhető modelleket, ha elérhetőek a token valószínűségi pontszámaik.”
A közelmúltbeli kutatások alapján a kontradiktórius felszólítások egy olvasható kifejezésnek tűnnek, amely összefűződik a nem megfelelő szavak utótagjával és írásjelekkel, amelyek célja a modell félrevezetése. A BEAST olyan hangolható paramétereket tartalmaz, amelyek olvashatóbbá tehetik a veszélyes promptot, a támadási sebesség vagy a sikerességi arány rovására.
Az olvasható ellenérdekű felszólítás felhasználható szociális manipulációs támadásban. Egy gonosztevő meg tudja győzni a célpontot, hogy írja be az ellenséges felszólítást, ha az olvasható próza, de feltehetően nehezebb lesz rávennie valakit egy olyan felszólításra, amely úgy néz ki, mintha egy macska írta volna át a billentyűzeten.
A BEAST arra is használható, hogy olyan felszólítást hozzon létre, amely pontatlan választ vált ki egy modellből – „hallucinációt” –, és olyan tagsági következtetést levonó támadást hajthat végre, amelynek adatvédelmi vonatkozásai lehetnek – annak tesztelésére, hogy egy adott adat a modell betanítókészletének része volt-e. .
„A hallucinációkhoz a TruthfulQA adatkészletet használjuk, és a kérdésekhez adversari tokeneket adunk” – magyarázta Sadasivan. „Úgy találjuk, hogy a modellek ~20 százalékkal több helytelen választ adnak ki a támadásunk után. Támadásunk a nyelvi modellek auditálására használható meglévő eszközkészletek adatvédelmi támadási teljesítményének javításában is segít.”
A BEAST általában jól teljesít, de alapos biztonsági képzéssel mérsékelhető.
„Tanulmányunk azt mutatja, hogy a nyelvi modellek még a gyors gradiensmentes támadásokkal szemben is sebezhetőek, mint például a BEAST” – jegyezte meg Sadasivan. „A mesterséges intelligencia modellek azonban empirikusan biztonságossá tehetők az igazítási tréning segítségével. A LLaMA-2 egy példa erre.
„Tanulmányunkban kimutattuk, hogy a BEAST-nak alacsonyabb a sikerességi aránya a LLaMA-2-vel, hasonlóan más módszerekhez. Ez összefüggésbe hozható a Meta biztonsági képzési erőfeszítéseivel. Fontos azonban olyan bizonyítható biztonsági garanciákat kidolgozni, amelyek lehetővé teszik az erősebb mesterségesintelligencia-modellek biztonságos alkalmazását a jövőben.” ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :van
- :is
- :nem
- 7
- 89
- a
- Képes
- Rólunk
- hozzáférés
- igénybe vett
- ér
- át
- ellenséges
- Után
- AI
- AI modellek
- algoritmus
- igazítás
- Is
- an
- és a
- VANNAK
- AS
- társult
- At
- támadás
- Támadó
- Támadások
- könyvvizsgálat
- szerzők
- elérhető
- el
- alapján
- kiindulási
- Alapvetően
- BE
- Gerenda
- viselkedés
- Berkeley
- BEST
- bomba
- szünet
- széles
- de
- by
- hívás
- hívott
- TUD
- CAT
- chatbot
- idézett
- kettyenés
- CO
- Társszerző
- kód
- kereskedelmi
- Magatartás
- kontextus
- meggyőz
- Megfelelő
- kézműves
- Veszélyes
- dátum
- definíció
- bevetés
- tervezett
- Ellenére
- fejlett
- Fejlesztés
- valuta
- Nehézség
- do
- két
- minden
- hatékony
- erőfeszítések
- lehetővé
- Mérnöki
- belép
- Még
- példa
- példák
- létező
- drága
- Magyarázza
- magyarázható
- GYORS
- gyorsabb
- Visszacsatolás
- utolsó
- Találjon
- A
- forma
- ból ből
- jövő
- általában
- generáló
- generáció
- kap
- szerzés
- ad
- Go
- jó
- GPU
- Csoport
- garanciák
- hardver
- káros
- Legyen
- segít
- segít
- óra
- Hogyan
- How To
- azonban
- HTTPS
- emberi
- i
- if
- következményei
- fontos
- javuló
- in
- pontatlan
- magában foglalja a
- hibás
- Internet
- IT
- éppen
- csak egy
- nyelv
- nagy
- réteg
- vezet
- tanulás
- legkevésbé
- Led
- mint
- kis
- LLM
- Hosszú
- néz
- hasonló
- MEGJELENÉS
- alacsonyabb
- készült
- Fő
- csinál
- Maryland
- Lehet..
- Partnerek
- tagság
- Memory design
- találkozott
- meta
- módszer
- mód
- esetleg
- perc
- modell
- modellek
- több
- Motiváció
- sok
- elengedhetetlen
- Szükség
- hálózat
- neves
- Nvidia
- of
- on
- ONE
- nyitva
- nyílt forráskódú
- OpenAI
- or
- Más
- mi
- teljesítmény
- felett
- Papír
- paraméterek
- rész
- mert
- százalék
- Teljesít
- előadások
- Előadja
- darab
- tervezés
- Plató
- Platón adatintelligencia
- PlatoData
- cselekmény
- lehetséges
- potenciális
- erős
- bemutató
- Előzetes
- magánélet
- problematikus
- folyamat
- feldolgozás
- Készült
- program
- utasításokat
- bizonyítható
- feltéve,
- nyilvános
- nyilvánosan
- Kérdések
- véletlen
- Arány
- Inkább
- új
- elutasítás
- szükség
- kötelező
- kutatás
- kutatók
- válasz
- válaszok
- rlhf
- rtx
- s
- biztonságos
- Biztonság
- minta
- tudósok
- Keresés
- Series of
- készlet
- kellene
- előadás
- Műsorok
- hasonló
- So
- Közösség
- Szociális tervezés
- néhány
- Valaki
- forrás
- különleges
- sebesség
- állványok
- Állami
- diák
- Tanulmány
- benyújtott
- siker
- ilyen
- Vesz
- bevétel
- cél
- technikailag
- technika
- technikák
- kipróbált
- Tesztelés
- mint
- hogy
- A
- A jövő
- azok
- maguk
- Ott.
- ebből adódóan
- ők
- dolog
- ezt
- alapos
- Keresztül
- idő
- Cím
- nak nek
- jelképes
- tokenek
- mondta
- vett
- Képzések
- oktatói
- kettő
- jellemzően
- egyetemi
- upon
- us
- használ
- használt
- hasznos
- segítségével
- v1
- különféle
- Ve
- keresztül
- BOR
- Sebezhető
- gyalogos
- volt
- Út..
- we
- JÓL
- vajon
- ami
- míg
- egész
- Vadon
- val vel
- szó
- szavak
- dolgozott
- művek
- lenne
- ír
- zephyrnet