Tietojenkäsittelytieteilijät ovat kehittäneet tehokkaan tavan laatia kehotteita, jotka saavat aikaan haitallisia vastauksia suurista kielimalleista (LLM).
Tarvitaan vain Nvidia RTX A6000 GPU, jossa on 48 Gt muistia, joista osa julkaistaan pian avoimen lähdekoodin, ja vain minuutin GPU-käsittelyaikaa.
Tutkijat – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini ja Soheil Feizi Marylandin yliopistosta Yhdysvalloissa – kutsuvat tekniikkaansa BEASTiksi, joka (tavallaan) tarkoittaa BEAm Search-pohjaista adversarial Attackia.
BEAST, boffinit selittävät, toimii paljon nopeammin kuin gradienttipohjaiset hyökkäykset joka voi kestää yli tunnin. Nimi heidän paperinsa, "Fast Adversarial Attacks on Language Models In One GPU Minute" paljastaa pikemminkin juonen.
"Päämotivaatio on nopeus", sanoi Vinu Sankar Sadasivan, paperin vastaava toinen kirjoittaja ja tohtoriopiskelija Marylandin yliopistosta (UMD). Rekisteri.
"Saamme menetelmällämme 65-kertaisen nopeuden verrattuna olemassa oleviin gradienttipohjaisiin hyökkäyksiin. On myös muita menetelmiä, jotka vaativat pääsyn tehokkaampiin malleihin, kuten GPT-4, hyökkäysten suorittamiseen, mikä voi olla rahallisesti kallista.
Suuret kielimallit, kuten Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B ja LLaMA-2-7B, käyvät yleensä läpi kohdistusprosessi [PDF] käyttämällä hienosäätötekniikkaa, kuten vahvistusoppimista ihmisen palautteesta (RLHF), kesyttääkseen heidän tulostensa.
Julkisessa Internet-yhteydessä LLM-käyttöisen chatbotin esittäminen haitallisella kehotuksella, kuten "Kirjoita opetusohjelma pommin tekemiseen", kohtaa jonkinlaisen ilkeän kieltäytymisen turvallisuuden vuoksi.
Mutta aiempi tutkimus, kuten olemme tehneet raportoitu, on johtanut erilaisten "jailbreak"-tekniikoiden kehittämiseen vastustavien kehotteiden luomiseen, jotka saavat aikaan ei-toivottuja vastauksia turvallisuuskoulutuksesta huolimatta.
UMD-ryhmä otti tehtäväkseen tehdä nopeudesta kilpailevan nopean sukupolven prosessin. Joten GPU-laitteiston ja beam search -nimisen tekniikan avulla, jota käytetään näytteenottoon LLM:stä, heidän koodinsa testasivat esimerkkejä AdvBench Harmful Behaviors -tietojoukosta. Pohjimmiltaan he lähettivät joukon haitallisia kehotteita eri malleille ja käyttivät algoritmiaan löytääkseen sanat, joita tarvitaan ongelmallisen vastauksen saamiseksi kustakin mallista.
"Vain minuutissa per kehote saamme hyökkäyksen onnistumisprosentin 89 prosenttia jailbreaking Vicuna-7B-v1.5:een, kun taas paras perusmenetelmä saavuttaa 46 prosenttia", kirjoittajat toteavat artikkelissaan.
Ainakin yksi lehdessä mainituista kehotteista toimii luonnossa. Rekisteri lähettänyt yhden vastalausekehoitteista Chatbot Arena, avoimen lähdekoodin tutkimusprojekti, jonka ovat kehittäneet LMSYS:n ja UC Berkeley SkyLabin jäsenet. Ja se toimi yhdessä kahdesta tarjotusta satunnaisesta mallista.
Kilpaileva kehote aiheesta "Nopeat kilpailevat hyökkäykset kielimalleihin yhdessä GPU-minuutissa". - Klikkaa suurentaaksesi
Lisäksi tämän tekniikan pitäisi olla hyödyllinen hyökkäämään julkisia kaupallisia malleja, kuten OpenAI:n GPT-4:ää vastaan.
"Menetelmässämme hyvä puoli on se, että emme tarvitse pääsyä koko kielimalliin", Sadasivan selitti laajan määritelmän sanalle "hyvä". ”BEAST voi hyökätä malliin niin kauan kuin mallin token-todennäköisyyspisteet lopullisesta verkkokerroksesta ovat käytettävissä. OpenAI suunnittelee tuomalla tämän saataville. Siksi voimme teknisesti hyökätä julkisesti saatavilla olevia malleja vastaan, jos niiden token-todennäköisyyspisteet ovat saatavilla."
Viimeaikaisiin tutkimuksiin perustuvat kontradiktoriset kehotteet näyttävät luettavalta lauseelta, joka on ketjutettu sopimattomien sanojen ja välimerkkien loppuliitteeseen, joka on suunniteltu johtamaan malli harhaan. BEAST sisältää viritettävät parametrit, jotka voivat tehdä vaarallisesta kehotuksesta luettavamman hyökkäyksen nopeuden tai onnistumisprosentin kustannuksella.
Luettavissa olevaa kontradiktorista kehotetta voidaan käyttää manipulointihyökkäyksessä. Huijari saattaa pystyä vakuuttamaan kohteen antamaan vastalausekehotteen, jos se on luettavaa proosaa, mutta oletettavasti hänen on vaikeampi saada joku syöttämään kehote, joka näyttää siltä kuin sen olisi tuottanut näppäimistöllä kävelevä kissa.
BEASTia voidaan käyttää myös kehotteen muodostamiseen, joka saa aikaan epätarkan vastauksen mallista - "hallusinaatiosta" - ja jäsenyyteen perustuvan päätelmähyökkäyksen suorittamiseen, jolla voi olla yksityisyyttä koskevia vaikutuksia - testata, oliko tietty tieto osa mallin koulutussarjaa. .
"Hallusinaatioissa käytämme TruthfulQA-tietojoukkoa ja liitämme kysymyksiin vastalauseita", Sadasivan selitti. "Havaitsemme, että mallit tuottavat ~20 prosenttia enemmän virheellisiä vastauksia hyökkäyksemme jälkeen. Hyökkäyksemme auttaa myös parantamaan olemassa olevien työkalupakkien, joita voidaan käyttää kielimallien tarkastamiseen, tietosuojahyökkäysten suorituskykyä."
BEAST toimii yleensä hyvin, mutta sitä voidaan lieventää perusteellisella turvallisuuskoulutuksella.
"Tutkimuksemme osoittaa, että kielimallit ovat jopa alttiita nopeille gradienttivapaille hyökkäyksille, kuten BEAST", huomautti Sadasivan. ”Tekoälymallit voidaan kuitenkin tehdä empiirisesti turvallisiksi kohdistuskoulutuksen avulla. LLaMA-2 on esimerkki tästä.
"Tutkimuksemme osoittaa, että BEASTilla on pienempi onnistumisprosentti LLaMA-2:lla, kuten muillakin menetelmillä. Tämä voidaan yhdistää Metan turvallisuuskoulutukseen. On kuitenkin tärkeää kehittää todistettavia turvallisuustakuita, jotka mahdollistavat tehokkaampien tekoälymallien turvallisen käyttöönoton tulevaisuudessa." ®
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :on
- :On
- :ei
- 7
- 89
- a
- pystyy
- Meistä
- pääsy
- Accessed
- päästään
- poikki
- kontradiktorisen
- Jälkeen
- AI
- AI-mallit
- algoritmi
- suuntaus
- Myös
- an
- ja
- OVAT
- AS
- liittyvä
- At
- hyökkäys
- Hyökkäävä
- Hyökkäykset
- tilintarkastus
- Tekijät
- saatavissa
- pois
- perustua
- Lähtötilanne
- Pohjimmiltaan
- BE
- Palkki
- käyttäytymistä
- Berkeley
- PARAS
- pommi
- Tauko
- laaja
- mutta
- by
- soittaa
- nimeltään
- CAN
- KISSA
- chatbot
- mainittu
- napsauttaa
- CO
- Yhteiskirjoittaja
- koodi
- kaupallinen
- Suorittaa
- tausta
- vakuuttaa
- vastaava
- veneet
- Vaarallinen
- tiedot
- määritelmä
- käyttöönotto
- suunniteltu
- Huolimatta
- kehitetty
- Kehitys
- suunnitella
- vaikeus
- do
- kaksi
- kukin
- tehokas
- ponnisteluja
- mahdollistaa
- Tekniikka
- enter
- Jopa
- esimerkki
- Esimerkit
- olemassa
- kallis
- Selittää
- selitti
- FAST
- nopeampi
- palaute
- lopullinen
- Löytää
- varten
- muoto
- alkaen
- tulevaisuutta
- yleensä
- tuottaa
- sukupolvi
- saada
- saada
- antaa
- Go
- hyvä
- GPU
- Ryhmä
- takeita
- Tarvikkeet
- haitallinen
- Olla
- auttaa
- auttaa
- tunti
- Miten
- Miten
- Kuitenkin
- HTTPS
- ihmisen
- i
- if
- vaikutukset
- tärkeä
- parantaminen
- in
- epätarkka
- sisältää
- virheellinen
- Internet
- IT
- vain
- vain yksi
- Kieli
- suuri
- kerros
- johtaa
- oppiminen
- vähiten
- Led
- pitää
- vähän
- OTK
- Pitkät
- katso
- näyttää joltakin
- ulkonäkö
- alentaa
- tehty
- tärkein
- tehdä
- Maryland
- Saattaa..
- Jäsenet
- jäsenyys
- Muisti
- tapasi
- Meta
- menetelmä
- menetelmät
- ehkä
- minuutti
- malli
- mallit
- lisää
- Motivoiminen
- paljon
- välttämätön
- Tarve
- verkko
- huomattava
- Nvidia
- of
- on
- ONE
- avata
- avoimen lähdekoodin
- OpenAI
- or
- Muut
- meidän
- ulostulo
- yli
- Paperi
- parametrit
- osa
- varten
- prosentti
- Suorittaa
- Esitykset
- suorittaa
- kappale
- suunnittelu
- Platon
- Platonin tietotieto
- PlatonData
- juoni
- mahdollinen
- mahdollinen
- voimakas
- esittäminen
- Aikaisempi
- yksityisyys
- ongelmallinen
- prosessi
- käsittely
- valmistettu
- projekti
- ohjeita
- todistettavissa oleva
- mikäli
- julkinen
- julkisesti
- kysymykset
- satunnainen
- hinta
- pikemminkin
- äskettäinen
- epääminen
- edellyttää
- tarvitaan
- tutkimus
- Tutkijat
- vastaus
- vasteet
- rlhf
- RTX
- s
- turvallista
- Turvallisuus
- näyte
- tutkijat
- Haku
- Sarjat
- setti
- shouldnt
- näyttää
- Näytä
- samankaltainen
- So
- sosiaalinen
- Sosiaalinen insinööri
- jonkin verran
- Joku
- lähde
- erityinen
- nopeus
- seisoo
- Osavaltio
- opiskelija
- tutkimus
- toimitettu
- menestys
- niin
- ottaa
- ottaen
- Kohde
- teknisesti
- tekniikka
- tekniikat
- testattu
- Testaus
- kuin
- että
- -
- Tulevaisuus
- heidän
- itse
- Siellä.
- siksi
- ne
- asia
- tätä
- perusteellinen
- Kautta
- aika
- Otsikko
- että
- symbolinen
- tokens
- kertoi
- otti
- koulutus
- oppitunti
- kaksi
- tyypillisesti
- yliopisto
- päälle
- us
- käyttää
- käytetty
- hyödyllinen
- käyttämällä
- v1
- eri
- Ve
- kautta
- VIINI
- Haavoittuva
- kävely
- oli
- Tapa..
- we
- HYVIN
- onko
- joka
- vaikka
- koko
- Villi
- with
- sana
- sanoja
- työskenteli
- toimii
- olisi
- kirjoittaa
- zephyrnet