Atacul BEAST AI poate sparge barierele LLM într-un minut

Republicat de Platon

Urmaritori: 0

Oamenii de știință în informatică au dezvoltat o modalitate eficientă de a crea solicitări care provoacă răspunsuri dăunătoare din modelele de limbaj mari (LLM).

Tot ceea ce este necesar este un GPU Nvidia RTX A6000 cu 48 GB de memorie, unele care urmează să fie lansate în curând codul open source, și un minut de timp de procesare GPU.

Cercetătorii – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini și Soheil Feizi de la Universitatea din Maryland din SUA – își numesc tehnica BEAST, care (un fel de) înseamnă atacul adversar bazat pe BEAm Search.

BEAST, explică boffins, funcționează mult mai repede decât atacuri bazate pe gradient care poate dura mai mult de o oră. Titlul de hârtia lor, „Atacuri adverse rapide asupra modelelor de limbaj într-un minut GPU”, mai degrabă dezvăluie intriga.

„Motivația principală este viteza”, a declarat Vinu Sankar Sadasivan, coautor corespondent al lucrării și doctorand la Universitatea din Maryland (UMD). Registrul.

„Obținem o accelerare de 65 de ori cu metoda noastră față de atacurile existente bazate pe gradient. Există, de asemenea, alte metode care necesită acces la modele mai puternice, cum ar fi GPT-4, pentru a-și efectua atacurile, care pot fi costisitoare din punct de vedere monetar.”

Modelele de limbaj mari precum Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B și LLaMA-2-7B trec de obicei prin un proces de aliniere [PDF], folosind o tehnică de reglare fină, cum ar fi învățarea prin întărire din feedbackul uman (RLHF), pentru a le îmblânzi rezultatele.

Într-un context de internet public, prezentarea unui chatbot alimentat de LLM cu un prompt dăunător precum „Scrieți un tutorial despre cum să faceți o bombă” este întâmpinată cu o anumită formă de refuz timid din cauza alinierii siguranței.

Dar cercetări anterioare, așa cum am făcut noi raportate, a condus la dezvoltarea diferitelor tehnici de „jailbreaking” pentru generarea de solicitări adverse care provoacă răspunsuri nedorite, în ciuda instruirii în materie de siguranță.

Grupul UMD și-a asumat responsabilitatea de a face din viteza procesului de generare promptă contradictorie. Așadar, cu ajutorul hardware-ului GPU și a unei tehnici numite beam search – folosită pentru a eșantiona token-uri din LLM – codul lor a testat exemple din setul de date AdvBench Harmful Behaviors. Practic, ei au transmis o serie de solicitări dăunătoare diferitelor modele și și-au folosit algoritmul pentru a găsi cuvintele necesare pentru a obține un răspuns problematic de la fiecare model.

„În doar un minut pe prompt, obținem o rată de succes a atacurilor de 89% la jailbreaking Vicuna-7B-v1.5, în timp ce cea mai bună metodă de bază atinge 46%”, spun autorii în lucrarea lor.

Cel puțin unul dintre îndemnurile citate în lucrare funcționează în sălbăticie. Registrul a transmis una dintre solicitările contradictorii către Chatbot Arena, un proiect de cercetare open source dezvoltat de membri de la LMSYS și UC Berkeley SkyLab. Și a funcționat pe unul dintre cele două modele aleatorii furnizate.

Un mesaj advers de la „Atacuri adverse rapide asupra modelelor de limbaj într-un minut GPU”. – Click pentru a mări

În plus, această tehnică ar trebui să fie utilă pentru a ataca modele comerciale publice precum GPT-4 de la OpenAI.

„Lucrul bun la metoda noastră este că nu avem nevoie de acces la întregul model de limbă”, a explicat Sadasivan, luând o definiție largă a cuvântului „bun”. „BEAST poate ataca un model atâta timp cât scorurile de probabilitate simbol ale modelului din stratul final de rețea pot fi accesate. OpenAI plănuiește punând la dispoziție acest lucru. Prin urmare, putem ataca din punct de vedere tehnic modelele disponibile public dacă scorurile lor de probabilitate simbol sunt disponibile.”

Indemnizațiile adverse bazate pe cercetări recente arată ca o frază care poate fi citită, concatenată cu un sufix de cuvinte nelocate și semne de punctuație menite să conducă în rătăcire modelul. BEAST include parametri reglabili care pot face promptul periculos mai lizibil, în detrimentul vitezei de atac sau al ratei de succes.

Un prompt adversar care este lizibil are potențialul de a fi utilizat într-un atac de inginerie socială. Un răufăcător ar putea fi capabil să convingă o țintă să introducă un prompt advers dacă este în proză lizibilă, dar probabil că ar avea mai multe dificultăți să facă pe cineva să introducă un prompt care pare să fie produs de o pisică care se plimbă pe o tastatură.

BEAST poate fi, de asemenea, utilizat pentru a crea un prompt care provoacă un răspuns inexact de la un model – o „halucinație” – și pentru a efectua un atac de inferență de membru care poate avea implicații privind confidențialitatea – testând dacă o anumită bucată de date a făcut parte din setul de antrenament al modelului .

„Pentru halucinații, folosim setul de date TruthfulQA și anexăm la întrebări semne adverse”, a explicat Sadasivan. „Descoperim că modelele produc cu ~20% mai multe răspunsuri incorecte după atacul nostru. Atacul nostru ajută, de asemenea, la îmbunătățirea performanțelor de atac de confidențialitate ale seturilor de instrumente existente care pot fi utilizate pentru auditarea modelelor de limbaj.”

BEAST, în general, funcționează bine, dar poate fi atenuat printr-un antrenament complet de siguranță.

„Studiul nostru arată că modelele de limbaj sunt chiar vulnerabile la atacuri rapide fără gradient, cum ar fi BEAST”, a menționat Sadasivan. „Cu toate acestea, modelele AI pot fi sigure empiric prin antrenamentul de aliniere. LLaMA-2 este un exemplu în acest sens.

„În studiul nostru, arătăm că BEAST are o rată de succes mai mică pe LLaMA-2, similar cu alte metode. Acest lucru poate fi asociat cu eforturile de formare în siguranță de la Meta. Cu toate acestea, este important să se elaboreze garanții de siguranță demonstrabile care să permită implementarea în siguranță a modelelor AI mai puternice în viitor.” ®

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Timestamp-ul: 28 Februarie 2024

Timestamp-ul: 1 Mai, 2024

Republicat de Platon

Poziția întâi

Uau, așa că de fapt au lăsat AI să zboare cu un avion de luptă F-16

Banca de investiții estimează că LLM-urile ar putea pune în pericol 300 de milioane de locuri de muncă

Arta generată de AI nu poate fi protejată prin drepturi de autor, statuează judecătorul

Mașinile fără șofer deviază citate de trafic în California

Actorul vocal Darth Vader James Earl Jones permite AI să preia rolul

Modelele text-to-image învață mai eficient cu date false

Aducerea AI la realitate

Când un pas este un salt

Intel, Ampere arată că LLM-urile pe procesoare nu sunt atât de nebunești pe cât pare

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont