Meta julkaisee Chatbotin erilaisilla henkilöillä, kuten "Lincoln"

Meta julkaisee Chatbotin erilaisilla henkilöillä, kuten "Lincoln"

Carnegie Mellon -yliopiston ja Center for AI Safetyn tutkijat paljastivat AI-chatbotit, kuten ChatGPT, Google Bard ja Claude, haavoittuvuuksia, joita pahantahtoiset toimijat voivat hyödyntää.

Yritykset, jotka rakensivat suosittuja generatiivisia tekoälytyökaluja, mukaan lukien OpenAI ja Antropinen, ovat korostaneet luomustensa turvallisuutta. Yritykset sanovat jatkuvasti parantavansa chatbottien turvallisuutta estääkseen väärän ja haitallisen tiedon leviämisen.

Lue myös: Yhdysvaltain sääntelyviranomainen tutkii OpenAI:n ChatGPT:tä väärien tietojen levittämiseksi

ChatGPT:n ja yrityksen huijaaminen

Jonkin sisällä opiskella 27. heinäkuuta julkaistussa artikkelissa tutkijat tutkivat suurten kielimallien (LLM) haavoittuvuutta tietokoneohjelmien luomille vastakkaisille hyökkäyksille – toisin kuin niin sanotuille "jailbreakille", joita ihmiset tekevät manuaalisesti LLM:itä vastaan.

He havaitsivat, että jopa tällaisia ​​hyökkäyksiä vastustavia malleja voidaan huijata luomaan haitallista sisältöä, kuten väärää tietoa, vihapuhetta ja lapsipornoa. Tutkijat sanoivat, että kehotteet pystyivät hyökkäämään OpenAI:n GPT-3.5 ja GPT-4 onnistumisprosentti on jopa 84 % ja Googlen PaLM-66 2 %.

Kuitenkin onnistumisprosentti Anthropic's Claude oli paljon pienempi, vain 2.1 prosenttia. Tästä alhaisesta onnistumisasteesta huolimatta tutkijat huomauttivat, että automatisoidut viholliset hyökkäykset pystyivät edelleen saamaan aikaan käyttäytymistä, jota tekoälymallit eivät aiemmin luoneet. ChatGPT on rakennettu GPT-tekniikalle.

ChatGPT, Bard ja Claude huijasivat luomaan haitallista sisältöä

Esimerkkejä vastustavasta kehotuksesta, joka sai haitallista sisältöä ChatGPT:ltä, Claudelta, Bardilta ja Llama-2:lta. Kuvan tekijä: Carnegie Mellon

"Konstauraalinen kehote voi saada suurella todennäköisyydellä mielivaltaisia ​​haitallisia käyttäytymismalleja näistä malleista, mikä osoittaa väärinkäytön mahdollisuuden", kirjoittajat kirjoittivat tutkimuksessa.

"Tämä osoittaa - erittäin selvästi - näihin järjestelmiin rakentamamme puolustuksen haurauden," lisä- Aviv Ovadya, tutkija Berkman Klein Center for Internet and Society Harvardissa, kuten New York Times raportoi.

Tutkijat käyttivät julkisesti saatavilla olevaa tekoälyjärjestelmää kolmen mustan laatikon LLM:n testaamiseen: OpenAI:n ChatGPT:n, Bardi Googlelta ja Claude Anthropicilta. Yritykset ovat kaikki kehittäneet perusmalleja, joita on käytetty AI-chatbottien luomiseen toimialakohtaisesti raportit.

Jailbreaking AI chatbotit

ChatGPT:n julkaisusta marraskuussa 2022 lähtien jotkut ihmiset ovat etsineet tapoja saada suosittu AI-chatbot tuottamaan haitallista sisältöä. OpenAI vastasi lisäämällä tietoturvaansa.

Huhtikuussa yhtiö ilmoitti tekevänsä maksaa ihmisille jopa 20,000 XNUMX dollaria ChatGPT:n, sen lisäosien, OpenAI API:n ja siihen liittyvien palveluiden "vähävakavien ja poikkeuksellisten" bugien löytämiseen – mutta ei alustan jailbreakiin.

Jailbreaking ChatGPT – tai mikä tahansa muu luova tekoälytyökalu, kuten Google Bard – on prosessi, joka sisältää rajoitusten ja rajoitusten poistamisen chatbotilta, jotta se voi suorittaa toimintoja, jotka ylittävät sen suojan.

Se voi sisältää tiettyjen kehotteiden, kuten "Do Anything Now" tai "Developer Mode" käyttämisen, ja käyttäjät voivat jopa pakottaa botin rakentamaan aseen – mitä se tavallisesti kieltäytyy tekemästä.

ChatGPT, Bard ja Claude huijasivat luomaan haitallista sisältöä

AI-chatbottien luomia kuvakaappauksia ihmiskunnan tuhoamissuunnitelmista. Kuvan tekijä: Carnegie Mellon

ChatGPT et al tarjoavat oppaan ihmiskunnan tuhoamiseen

Carnegie Mellon -yliopiston tutkijat havaitsivat automaattisten vastustajien hyökkäyksiä käyttämällä, että he voisivat saada ChatGPT:n, Google Bardin ja Clauden luopumaan vartioinnista helposti. Kun tämä tapahtui, tekoälymallit vastasivat yksityiskohtaisesti kehotuksiin tuhota ihmiskunta.

Tiedemiehet pettivät chatbotteja lisäämällä joukon järjettömiä hahmoja haitallisten kehotteiden loppuun. ChatGPT tai Bard eivät tunnistaneet näitä merkkejä haitallisiksi, joten he käsittelivät kehotteet normaalisti ja loivat vastauksia, joita he eivät normaalisti tekisi.

"Simuloidun keskustelun avulla voit käyttää näitä chatbotteja vakuuttamaan ihmiset uskomaan disinformaatioon", Matt Fredrikson, yksi tutkimuksen kirjoittajista, kertoi Timesille.

Kun chatbotit kysyivät neuvoja "ihmiskunnan tuhoamiseen", he antoivat yksityiskohtaisia ​​suunnitelmia tavoitteen saavuttamiseksi. Vastaukset vaihtelivat ydinsodan yllyttämisestä, tappavan viruksen luomisesta tekoälyn käyttöön kehittämään "kehittyneitä aseita, jotka pystyvät tuhoamaan kokonaisia ​​kaupunkeja muutamassa minuutissa".

Tutkijat ovat huolissaan siitä, että chatbottien kyvyttömyys ymmärtää haitallisten kehotteiden luonnetta voi johtaa huonojen toimijoiden väärinkäyttöön. He kehottivat tekoälykehittäjiä rakentamaan vahvempia turvavalvontaa estämään chatbotteja luomasta haitallisia vastauksia.

"Ei ole selvää ratkaisua", sanoi Zico Kolter, Carnegie Mellonin professori ja paperin kirjoittaja, kuten Times raportoi. "Voit luoda niin monta näistä hyökkäyksistä kuin haluat lyhyessä ajassa."

Tutkijat jakoivat tutkimuksensa tulokset OpenAI:lle, Googlelle ja Anthropicille ennen julkistamista.

Aikaleima:

Lisää aiheesta MetaNews