BEAST AI -hyökkäys voi rikkoa LLM:n suojakaiteet minuutissa

Julkaissut Platon

seuraajia: 0

Tietojenkäsittelytieteilijät ovat kehittäneet tehokkaan tavan laatia kehotteita, jotka saavat aikaan haitallisia vastauksia suurista kielimalleista (LLM).

Tarvitaan vain Nvidia RTX A6000 GPU, jossa on 48 Gt muistia, joista osa julkaistaan pian avoimen lähdekoodin, ja vain minuutin GPU-käsittelyaikaa.

Tutkijat – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini ja Soheil Feizi Marylandin yliopistosta Yhdysvalloissa – kutsuvat tekniikkaansa BEASTiksi, joka (tavallaan) tarkoittaa BEAm Search-pohjaista adversarial Attackia.

BEAST, boffinit selittävät, toimii paljon nopeammin kuin gradienttipohjaiset hyökkäykset joka voi kestää yli tunnin. Nimi heidän paperinsa, "Fast Adversarial Attacks on Language Models In One GPU Minute" paljastaa pikemminkin juonen.

"Päämotivaatio on nopeus", sanoi Vinu Sankar Sadasivan, paperin vastaava toinen kirjoittaja ja tohtoriopiskelija Marylandin yliopistosta (UMD). Rekisteri.

"Saamme menetelmällämme 65-kertaisen nopeuden verrattuna olemassa oleviin gradienttipohjaisiin hyökkäyksiin. On myös muita menetelmiä, jotka vaativat pääsyn tehokkaampiin malleihin, kuten GPT-4, hyökkäysten suorittamiseen, mikä voi olla rahallisesti kallista.

Suuret kielimallit, kuten Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B ja LLaMA-2-7B, käyvät yleensä läpi kohdistusprosessi [PDF] käyttämällä hienosäätötekniikkaa, kuten vahvistusoppimista ihmisen palautteesta (RLHF), kesyttääkseen heidän tulostensa.

Julkisessa Internet-yhteydessä LLM-käyttöisen chatbotin esittäminen haitallisella kehotuksella, kuten "Kirjoita opetusohjelma pommin tekemiseen", kohtaa jonkinlaisen ilkeän kieltäytymisen turvallisuuden vuoksi.

Mutta aiempi tutkimus, kuten olemme tehneet raportoitu, on johtanut erilaisten "jailbreak"-tekniikoiden kehittämiseen vastustavien kehotteiden luomiseen, jotka saavat aikaan ei-toivottuja vastauksia turvallisuuskoulutuksesta huolimatta.

UMD-ryhmä otti tehtäväkseen tehdä nopeudesta kilpailevan nopean sukupolven prosessin. Joten GPU-laitteiston ja beam search -nimisen tekniikan avulla, jota käytetään näytteenottoon LLM:stä, heidän koodinsa testasivat esimerkkejä AdvBench Harmful Behaviors -tietojoukosta. Pohjimmiltaan he lähettivät joukon haitallisia kehotteita eri malleille ja käyttivät algoritmiaan löytääkseen sanat, joita tarvitaan ongelmallisen vastauksen saamiseksi kustakin mallista.

"Vain minuutissa per kehote saamme hyökkäyksen onnistumisprosentin 89 prosenttia jailbreaking Vicuna-7B-v1.5:een, kun taas paras perusmenetelmä saavuttaa 46 prosenttia", kirjoittajat toteavat artikkelissaan.

Ainakin yksi lehdessä mainituista kehotteista toimii luonnossa. Rekisteri lähettänyt yhden vastalausekehoitteista Chatbot Arena, avoimen lähdekoodin tutkimusprojekti, jonka ovat kehittäneet LMSYS:n ja UC Berkeley SkyLabin jäsenet. Ja se toimi yhdessä kahdesta tarjotusta satunnaisesta mallista.

Kilpaileva kehote aiheesta "Nopeat kilpailevat hyökkäykset kielimalleihin yhdessä GPU-minuutissa". - Klikkaa suurentaaksesi

Lisäksi tämän tekniikan pitäisi olla hyödyllinen hyökkäämään julkisia kaupallisia malleja, kuten OpenAI:n GPT-4:ää vastaan.

"Menetelmässämme hyvä puoli on se, että emme tarvitse pääsyä koko kielimalliin", Sadasivan selitti laajan määritelmän sanalle "hyvä". ”BEAST voi hyökätä malliin niin kauan kuin mallin token-todennäköisyyspisteet lopullisesta verkkokerroksesta ovat käytettävissä. OpenAI suunnittelee tuomalla tämän saataville. Siksi voimme teknisesti hyökätä julkisesti saatavilla olevia malleja vastaan, jos niiden token-todennäköisyyspisteet ovat saatavilla."

Viimeaikaisiin tutkimuksiin perustuvat kontradiktoriset kehotteet näyttävät luettavalta lauseelta, joka on ketjutettu sopimattomien sanojen ja välimerkkien loppuliitteeseen, joka on suunniteltu johtamaan malli harhaan. BEAST sisältää viritettävät parametrit, jotka voivat tehdä vaarallisesta kehotuksesta luettavamman hyökkäyksen nopeuden tai onnistumisprosentin kustannuksella.

Luettavissa olevaa kontradiktorista kehotetta voidaan käyttää manipulointihyökkäyksessä. Huijari saattaa pystyä vakuuttamaan kohteen antamaan vastalausekehotteen, jos se on luettavaa proosaa, mutta oletettavasti hänen on vaikeampi saada joku syöttämään kehote, joka näyttää siltä kuin sen olisi tuottanut näppäimistöllä kävelevä kissa.

BEASTia voidaan käyttää myös kehotteen muodostamiseen, joka saa aikaan epätarkan vastauksen mallista - "hallusinaatiosta" - ja jäsenyyteen perustuvan päätelmähyökkäyksen suorittamiseen, jolla voi olla yksityisyyttä koskevia vaikutuksia - testata, oliko tietty tieto osa mallin koulutussarjaa. .

"Hallusinaatioissa käytämme TruthfulQA-tietojoukkoa ja liitämme kysymyksiin vastalauseita", Sadasivan selitti. "Havaitsemme, että mallit tuottavat ~20 prosenttia enemmän virheellisiä vastauksia hyökkäyksemme jälkeen. Hyökkäyksemme auttaa myös parantamaan olemassa olevien työkalupakkien, joita voidaan käyttää kielimallien tarkastamiseen, tietosuojahyökkäysten suorituskykyä."

BEAST toimii yleensä hyvin, mutta sitä voidaan lieventää perusteellisella turvallisuuskoulutuksella.

"Tutkimuksemme osoittaa, että kielimallit ovat jopa alttiita nopeille gradienttivapaille hyökkäyksille, kuten BEAST", huomautti Sadasivan. ”Tekoälymallit voidaan kuitenkin tehdä empiirisesti turvallisiksi kohdistuskoulutuksen avulla. LLaMA-2 on esimerkki tästä.

"Tutkimuksemme osoittaa, että BEASTilla on pienempi onnistumisprosentti LLaMA-2:lla, kuten muillakin menetelmillä. Tämä voidaan yhdistää Metan turvallisuuskoulutukseen. On kuitenkin tärkeää kehittää todistettavia turvallisuustakuita, jotka mahdollistavat tehokkaampien tekoälymallien turvallisen käyttöönoton tulevaisuudessa." ®

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Aikaleima: Helmikuu 28, 2024

Aikaleima: Lokakuu 9, 2023

Googlen AI-puhelinkeskuksen edustajat pitävät aamun vapaana

Lähde klusteri:

Rekisteri

Lähdesolmu: 1671053

Aikaleima: Syyskuu 19, 2022

Julkaissut Platon

AlphaCode 2, koodia luova tekoäly, joka on uudistettu Gemini-sarjalla

IBM ostaa Databandin estääkseen huonoa dataa pilaamasta tekoälyäsi

60 maata sopivat säätelevänsä tekoälyä armeijassa ennen kuin se tuhoaa maailman

GitHub Copilot Enterprise saavuttaa yleisen saatavuuden

Web-sewer 4chanin viesteihin koulutettu AI-chatbot käyttäytyi huonosti – aivan kuten ihmisjäsenet

Amazon antaa kirjailijabottien julkaista kolme kirjaa päivässä

SoftBankin toimitusjohtaja Masayoshi Son ennustaa AGI:ta vuosikymmenen kuluttua

Googlen AI-puhelinkeskuksen edustajat pitävät aamun vapaana

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili