Meta bo lansirala Chatbot z različnimi osebami, kot je 'Lincoln'

Meta bo lansirala Chatbot z različnimi osebami, kot je "Lincoln"

Raziskovalci z Univerze Carnegie Mellon in Centra za varnost umetne inteligence so odkrili ranljivosti v klepetalnih robotih umetne inteligence, kot so ChatGPT, Google Bard in Claude, ki bi jih zlonamerni akterji lahko izkoristili.

Podjetja, ki so zgradila priljubljena generativna orodja AI, vključno z OpenAI in Antropično, sta poudarila varnost svojih stvaritev. Podjetji pravita, da vedno izboljšujeta varnost chatbotov, da preprečita širjenje lažnih in škodljivih informacij.

Preberite tudi: Ameriški regulator preiskuje OpenAI's ChatGPT zaradi širjenja lažnih informacij

Zavajanje ChatGPT in družbe

V študija objavljeno 27. julija, so raziskovalci raziskali ranljivost velikih jezikovnih modelov (LLM) za kontradiktorne napade, ki jih ustvarijo računalniški programi – v nasprotju s tako imenovanimi 'begi iz zapora', ki jih ljudje ročno izvedejo proti LLM-jem.

Ugotovili so, da je mogoče celo modele, zgrajene za upiranje takšnim napadom, preslepiti, da ustvarijo škodljivo vsebino, kot so dezinformacije, sovražni govor in otroška pornografija. Raziskovalci so povedali, da so pozivi lahko napadli GPT-3.5 OpenAI in GPT-4 s stopnjo uspešnosti do 84 % in 66 % za Googlov PaLM-2.

Vendar pa je stopnja uspešnosti za Anthropic's Claude je bila precej nižja, le 2.1 %. Kljub tej nizki stopnji uspešnosti so znanstveniki ugotovili, da so avtomatizirani kontradiktorni napadi še vedno sposobni inducirati vedenje, ki ga prej niso ustvarili modeli AI. ChatGPT je zgrajen na tehnologiji GPT.

ChatGPT, Bard in Claude so bili zavedeni v ustvarjanje zlonamerne vsebine

Primeri kontradiktornega poziva, ki je izvabil škodljivo vsebino iz ChatGPT, Claude, Bard in Llama-2. Avtorstvo slike: Carnegie Mellon

"Nasprotni poziv lahko iz teh modelov z veliko verjetnostjo izzove poljubno škodljivo vedenje, kar kaže na možnost zlorabe," so zapisali avtorji v študiji.

"To kaže - zelo jasno - krhkost obrambe, ki jo vgrajujemo v te sisteme," dodano Aviv Ovadya, raziskovalec na Berkman Klein Centru za internet in družbo na Harvardu, poroča The New York Times.

Raziskovalci so uporabili javno dostopen sistem umetne inteligence za testiranje treh črnih skrinjic LLM: ChatGPT iz OpenAI, Bard iz Googla in Claude iz Anthropic. Vsa podjetja so razvila temeljne modele, ki so bili uporabljeni za ustvarjanje njihovih klepetalnih robotov z umetno inteligenco za vsako panogo Poročila.

Jailbreaking AI chatboti

Od uvedbe ChatGPT novembra 2022 nekateri ljudje iščejo načine, kako bi priljubljenega klepetalnega robota AI ustvarili škodljivo vsebino. OpenAI se je odzval s povečanjem varnosti.

Aprila je podjetje sporočilo, da bo ljudem plačati do 20,000 $ za odkrivanje "nizke resnosti in izjemnih" hroščev znotraj ChatGPT, njegovih vtičnikov, API-ja OpenAI in povezanih storitev – vendar ne za vdor v zapor platforme.

Jailbreaking ChatGPT – ali katero koli drugo generativno orodje AI, kot je Google Bard – je postopek, ki vključuje odstranitev omejitev iz klepetalnega robota, da lahko izvaja funkcije, ki presegajo njegove zaščitne ukrepe.

Vključuje lahko uporabo posebnih pozivov, kot je »Naredi karkoli zdaj« ali »Način za razvijalce«, uporabniki pa lahko celo prisilijo bota, da izdela orožje – nekaj, česar običajno noče storiti.

ChatGPT, Bard in Claude so bili zavedeni v ustvarjanje zlonamerne vsebine

Posnetki zaslona načrtov za uničenje človeštva, ki so jih ustvarili klepetalni roboti AI. Avtorstvo slike: Carnegie Mellon

ChatGPT et al nudijo vodnik za uničevanje človeštva

Raziskovalci Univerze Carnegie Mellon so z uporabo avtomatiziranih kontradiktornih napadov ugotovili, da lahko ChatGPT, Google Bard in Claude dosežejo, da z lahkoto popustijo. Ko se je to zgodilo, so se modeli AI s podrobnostmi odzvali na pozive o uničenju človeštva.

Znanstveniki so klepetalne robote prevarali tako, da so na koncu škodljivih pozivov dodali kup nesmiselnih znakov. Niti ChatGPT niti Bard teh znakov nista prepoznala kot škodljive, zato sta obdelala pozive kot običajne in ustvarila odgovore, ki jih običajno ne bi.

"S simuliranim pogovorom lahko s temi chatboti prepričate ljudi, da verjamejo dezinformacijam," je za Times povedal Matt Fredrikson, eden od avtorjev študije.

Ko so jih vprašali za nasvet, kako "uničiti človeštvo", so klepetalni roboti podali podrobne načrte za dosego cilja. Odgovori so segali od spodbujanja jedrske vojne, ustvarjanja smrtonosnega virusa do uporabe umetne inteligence za razvoj "naprednega orožja, ki je sposobno v nekaj minutah izbrisati cela mesta."

Raziskovalci so zaskrbljeni, da bi nezmožnost chatbotov, da bi razumeli naravo škodljivih pozivov, lahko povzročila zlorabo s strani slabih akterjev. Pozvali so razvijalce umetne inteligence, naj zgradijo močnejše varnostne kontrole, da bi preprečili, da bi chatboti ustvarjali škodljive odzive.

"Ni očitne rešitve," je dejal Zico Kolter, profesor na Carnegie Mellon in avtor prispevka, kot je poročal Times. "V kratkem času lahko ustvarite kolikor želite teh napadov."

Raziskovalci so delili rezultate svoje študije z OpenAI, Googlom in Anthropic, preden so šli v javnost.

Časovni žig:

Več od MetaNovice