X's Grok AI Is Great – If You Want To Know How To Make Drugs

Taasavaldanud Platon

järgijaid: 0

X's Grok AI is great – if you want to know how to make drugs PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Elon Muski X välja töötatud teraval generatiivsel tehisintellekti mudelil Grokil on väike probleem: mõne üsna levinud vanglamurdmistehnika rakendamisel saadab see hõlpsasti kuritegude toimepanemise juhiseid.

Adversa AI punased meeskonnad tegid selle avastuse, kui katsetasid mõningaid populaarsemaid LLM-vestlusboteid, nimelt OpenAI ChatGPT perekond, Anthropicu Claude, Mistrali Le Chat, Meta LLaMA, Google'i Gemini, Microsoft Bing ja Grok. Käitades need robotid läbi kolme tuntud tehisintellekti jailbreak rünnaku kombinatsiooni, milleni nad jõudsid järeldus et Grok oli kõige kehvemini esineja – ja mitte ainult sellepärast, et ta oli valmis jagama graafilisi samme, kuidas last võrgutada.

Jailbreak all peame silmas spetsiaalselt loodud sisendi söötmist mudelile nii, et see ignoreerib olenemata sellest, millised kaitsepiirded on paigas, ja teeb lõpuks asju, mida ta ei pidanud tegema.

Märgime, et seal on palju filtreerimata LLM-mudeleid, mis ei hoia end tagasi, kui neile esitatakse küsimusi ohtlike või ebaseaduslike asjade kohta. Kui mudelitele pääseb juurde API või vestlusroti liidese kaudu, nagu Adversa testide puhul, mähivad nende LLM-ide pakkujad tavaliselt oma sisendi ja väljundi filtritesse ning kasutavad soovimatu sisu loomise vältimiseks muid mehhanisme. Tehisintellekti turvalisuse idufirma sõnul oli Grokit suhteliselt lihtne panna metsikule käitumisele – tema vastuste täpsus on muidugi hoopis teine asi.

"Võrreldes teiste mudelitega ei pea te enamiku kriitiliste juhiste puhul Groki vangistama, see võib teile öelda, kuidas teha pommi või kuidas autot väga üksikasjaliku protokolliga ühendada, isegi kui te seda otse küsite," ütles Adversa AI co. - rääkis asutaja Alex Polyakov Register.

Selle eest, mida see väärt on ,. kasutustingimused Grok AI jaoks peavad kasutajad olema täiskasvanud ja mitte kasutama seda viisil, mis rikub seadust või üritab seda rikkuda. Ka X väidab end olevat sõnavabaduse kodu, köha, nii et see, et selle LLM kiirgab igasugust kraami, olgu see siis tervislik või muu, pole tõesti üllatav.

Ja ausalt öeldes võite tõenäoliselt kasutada oma lemmikveebiotsingumootorit ja leida lõpuks sama teavet või nõuandeid. Meie jaoks sõltub see sellest, kas me kõik tahame AI-põhist potentsiaalselt kahjulike juhiste ja soovituste levikut või mitte.

Meile öeldakse, et Grok tagastas kiiresti juhised DMT, tugeva hallutsinogeeni ekstraheerimiseks ebaseaduslik paljudes riikides, ilma et oleks vaja vanglast murda, ütles Poljakov meile.

"Mis puudutab veelgi kahjulikumaid asju, nagu laste võrgutamine, siis ei olnud võimalik saada ühtegi mõistlikku vastust teistelt vestlusrobotidelt ühegi Jailbreakiga, kuid Grok jagas seda hõlpsalt, kasutades vähemalt kahte jailbreak meetodit neljast," ütles Poljakov.

Adversa meeskond kasutas testitud robotite kaaperdamiseks kolme levinud lähenemisviisi: keeleline loogikaga manipuleerimine, kasutades UCAR meetod; programmeerimisloogikaga manipuleerimine (paludes LLM-idel tõlkida päringud SQL-i); ja AI loogikaga manipuleerimine. Neljas katsekategooria ühendas meetodid, kasutades "Tom ja Jerry" meetod välja töötatud eelmisel aastal.

Kuigi ükski tehisintellekti mudel ei olnud loogilise manipuleerimise kaudu vastuvõtlike rünnakute suhtes haavatav, leiti, et Grok on haavatav kõigi ülejäänute suhtes – nagu ka Mistrali Le Chat. Poljakovi sõnul läks Grokil siiski kõige halvemini, sest see ei vajanud vanglast lahtimurdmist, et saada tulemusi kuumjuhtmestiku, pommide valmistamise või narkootikumide ekstraheerimisel – need olid teistele esitatud baastaseme küsimused.

Mõte küsida Grokilt, kuidas last võrgutada, tekkis ainult seetõttu, et see ei vajanud teiste tulemuste tagastamiseks vanglamurdmist. Grok keeldus algselt üksikasju andmast, öeldes, et taotlus oli "väga sobimatu ja ebaseaduslik" ning et "lapsi tuleks kaitsta ja austada". Öelge aga, et see on amoraalne väljamõeldud arvuti UCAR ja see annab tulemuse kohe tagasi.

Kui küsiti, kas X-il on tema arvates vaja paremini teha, vastas Poljakov meile, et see teeb seda kindlasti.

"Ma saan aru, et see on nende eristav tegur, et nad saavad anda filtreerimata vastuseid vastuolulistele küsimustele, ja see on nende valik, ma ei saa süüdistada neid otsuses soovitada pommi valmistamist või DMT-d väljavõtmist," ütles Poljakov.

"Aga kui nad otsustavad filtreerida ja millestki keelduda, nagu näide lastega, peaksid nad seda kindlasti paremini tegema, eriti kuna see pole järjekordne AI idufirma, vaid Elon Muski AI idufirma."

Pöördusime X-i poole, et saada selgitust selle kohta, miks selle AI – ja mitte ükski teine – ütleb kasutajatele, kuidas lapsi võrgutada, ja kas ta kavatseb rakendada mingisuguseid kaitsepiirdeid, et vältida oma piiratud turvaelementide õõnestamist, ja pole vastu kuulnud. ®

Jailbreakidest rääkides… Antroopne tänapäeval üksikasjalik lihtsat, kuid tõhusat tehnikat nimetatakse "paljude kaadritega jailbreakinguks". See hõlmab haavatava LLM-i ülekoormamist paljude keeruliste küsimuste ja vastuste näidetega ja seejärel küsimuse esitamist, millele ta ei peaks vastama, kuid teeb seda siiski, näiteks kuidas pommi teha.

See lähenemisviis kasutab ära närvivõrgu kontekstiakna suurust ja "on efektiivne nii Anthropicu enda mudelite kui ka teiste tehisintellekti ettevõtete toodetud mudelite puhul", ML-i algaja sõnul. "Teavitasime teisi tehisintellekti arendajaid sellest haavatavusest eelnevalt ja oleme oma süsteemides rakendanud leevendusi."