Carnegie Mellon -yliopiston ja Center for AI Safetyn tutkijat paljastivat AI-chatbotit, kuten ChatGPT, Google Bard ja Claude, haavoittuvuuksia, joita pahantahtoiset toimijat voivat hyödyntää.
Yritykset, jotka rakensivat suosittuja generatiivisia tekoälytyökaluja, mukaan lukien OpenAI ja Antropinen, ovat korostaneet luomustensa turvallisuutta. Yritykset sanovat jatkuvasti parantavansa chatbottien turvallisuutta estääkseen väärän ja haitallisen tiedon leviämisen.
Lue myös: Yhdysvaltain sääntelyviranomainen tutkii OpenAI:n ChatGPT:tä väärien tietojen levittämiseksi
ChatGPT:n ja yrityksen huijaaminen
Jonkin sisällä opiskella 27. heinäkuuta julkaistussa artikkelissa tutkijat tutkivat suurten kielimallien (LLM) haavoittuvuutta tietokoneohjelmien luomille vastakkaisille hyökkäyksille – toisin kuin niin sanotuille "jailbreakille", joita ihmiset tekevät manuaalisesti LLM:itä vastaan.
He havaitsivat, että jopa tällaisia hyökkäyksiä vastustavia malleja voidaan huijata luomaan haitallista sisältöä, kuten väärää tietoa, vihapuhetta ja lapsipornoa. Tutkijat sanoivat, että kehotteet pystyivät hyökkäämään OpenAI:n GPT-3.5 ja GPT-4 onnistumisprosentti on jopa 84 % ja Googlen PaLM-66 2 %.
Kuitenkin onnistumisprosentti Anthropic's Claude oli paljon pienempi, vain 2.1 prosenttia. Tästä alhaisesta onnistumisasteesta huolimatta tutkijat huomauttivat, että automatisoidut viholliset hyökkäykset pystyivät edelleen saamaan aikaan käyttäytymistä, jota tekoälymallit eivät aiemmin luoneet. ChatGPT on rakennettu GPT-tekniikalle.
"Konstauraalinen kehote voi saada suurella todennäköisyydellä mielivaltaisia haitallisia käyttäytymismalleja näistä malleista, mikä osoittaa väärinkäytön mahdollisuuden", kirjoittajat kirjoittivat tutkimuksessa.
"Tämä osoittaa - erittäin selvästi - näihin järjestelmiin rakentamamme puolustuksen haurauden," lisä- Aviv Ovadya, tutkija Berkman Klein Center for Internet and Society Harvardissa, kuten New York Times raportoi.
Tutkijat käyttivät julkisesti saatavilla olevaa tekoälyjärjestelmää kolmen mustan laatikon LLM:n testaamiseen: OpenAI:n ChatGPT:n, Bardi Googlelta ja Claude Anthropicilta. Yritykset ovat kaikki kehittäneet perusmalleja, joita on käytetty AI-chatbottien luomiseen toimialakohtaisesti raportit.
Jailbreaking AI chatbotit
ChatGPT:n julkaisusta marraskuussa 2022 lähtien jotkut ihmiset ovat etsineet tapoja saada suosittu AI-chatbot tuottamaan haitallista sisältöä. OpenAI vastasi lisäämällä tietoturvaansa.
Huhtikuussa yhtiö ilmoitti tekevänsä maksaa ihmisille jopa 20,000 XNUMX dollaria ChatGPT:n, sen lisäosien, OpenAI API:n ja siihen liittyvien palveluiden "vähävakavien ja poikkeuksellisten" bugien löytämiseen – mutta ei alustan jailbreakiin.
Jailbreaking ChatGPT – tai mikä tahansa muu luova tekoälytyökalu, kuten Google Bard – on prosessi, joka sisältää rajoitusten ja rajoitusten poistamisen chatbotilta, jotta se voi suorittaa toimintoja, jotka ylittävät sen suojan.
Se voi sisältää tiettyjen kehotteiden, kuten "Do Anything Now" tai "Developer Mode" käyttämisen, ja käyttäjät voivat jopa pakottaa botin rakentamaan aseen – mitä se tavallisesti kieltäytyy tekemästä.
ChatGPT et al tarjoavat oppaan ihmiskunnan tuhoamiseen
Carnegie Mellon -yliopiston tutkijat havaitsivat automaattisten vastustajien hyökkäyksiä käyttämällä, että he voisivat saada ChatGPT:n, Google Bardin ja Clauden luopumaan vartioinnista helposti. Kun tämä tapahtui, tekoälymallit vastasivat yksityiskohtaisesti kehotuksiin tuhota ihmiskunta.
Tiedemiehet pettivät chatbotteja lisäämällä joukon järjettömiä hahmoja haitallisten kehotteiden loppuun. ChatGPT tai Bard eivät tunnistaneet näitä merkkejä haitallisiksi, joten he käsittelivät kehotteet normaalisti ja loivat vastauksia, joita he eivät normaalisti tekisi.
"Simuloidun keskustelun avulla voit käyttää näitä chatbotteja vakuuttamaan ihmiset uskomaan disinformaatioon", Matt Fredrikson, yksi tutkimuksen kirjoittajista, kertoi Timesille.
Kun chatbotit kysyivät neuvoja "ihmiskunnan tuhoamiseen", he antoivat yksityiskohtaisia suunnitelmia tavoitteen saavuttamiseksi. Vastaukset vaihtelivat ydinsodan yllyttämisestä, tappavan viruksen luomisesta tekoälyn käyttöön kehittämään "kehittyneitä aseita, jotka pystyvät tuhoamaan kokonaisia kaupunkeja muutamassa minuutissa".
Tutkijat ovat huolissaan siitä, että chatbottien kyvyttömyys ymmärtää haitallisten kehotteiden luonnetta voi johtaa huonojen toimijoiden väärinkäyttöön. He kehottivat tekoälykehittäjiä rakentamaan vahvempia turvavalvontaa estämään chatbotteja luomasta haitallisia vastauksia.
"Ei ole selvää ratkaisua", sanoi Zico Kolter, Carnegie Mellonin professori ja paperin kirjoittaja, kuten Times raportoi. "Voit luoda niin monta näistä hyökkäyksistä kuin haluat lyhyessä ajassa."
Tutkijat jakoivat tutkimuksensa tulokset OpenAI:lle, Googlelle ja Anthropicille ennen julkistamista.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. Autot / sähköautot, hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- BlockOffsets. Ympäristövastuun omistuksen nykyaikaistaminen. Pääsy tästä.
- Lähde: https://metanews.com/meta-to-dish-out-chatbots-with-distinct-personas-like-abraham-lincolns/
- :On
- :ei
- $ YLÖS
- 10
- 2022
- 27
- 33
- 36
- a
- pystyy
- Meistä
- hyväksikäyttö
- Saavuttaa
- toimijoiden
- lisää
- kontradiktorisen
- neuvot
- vastaan
- AI
- AI chatbot
- AI-mallit
- AL
- Kaikki
- aina
- määrä
- ja
- Antropinen
- Kaikki
- mitään
- api
- huhtikuu
- OVAT
- AS
- At
- hyökkäys
- Hyökkäykset
- kirjoittaja
- Tekijät
- Automatisoitu
- saatavissa
- Huono
- BE
- ollut
- ennen
- käyttäytyminen
- käyttäytymistä
- Uskoa
- Jälkeen
- lisäämällä
- Bot
- Bugs
- rakentaa
- Rakentaminen
- rakennettu
- Nippu
- mutta
- by
- nimeltään
- CAN
- kykenee
- Carnegie Mellon
- keskus
- merkkejä
- chatbot
- chatbots
- ChatGPT
- lapsi
- Kaupungit
- selvästi
- Yritykset
- yritys
- tietokone
- pitoisuus
- valvonta
- Keskustelu
- vakuuttaa
- voisi
- luoda
- luotu
- Luominen
- luomuksia
- Laajuus
- esittelyssä
- Huolimatta
- tuhota
- yksityiskohta
- yksityiskohtainen
- kehittää
- kehitetty
- kehittäjille
- löytämässä
- harhaanjohtavat tiedot
- selvä
- do
- tehty
- Pudota
- E&T
- helpottaa
- korostettiin
- loppu
- Koko
- Jopa
- hyödynnetään
- väärä
- yritykset
- varten
- löytyi
- alkaen
- tehtävät
- tuottaa
- syntyy
- tuottaa
- generatiivinen
- Generatiivinen AI
- saada
- tavoite
- menee
- Googlen
- Vartija
- ohjaavat
- tapahtui
- haitallinen
- Harvard
- Olla
- Korkea
- Miten
- Miten
- HTML
- HTTPS
- Ihmiskunta
- Ihmiset
- kuva
- parantaminen
- in
- kykenemättömyys
- Mukaan lukien
- teollisuus
- tiedot
- Internet
- tulee
- aiheuttaa
- IT
- SEN
- jpg
- heinäkuu
- Kieli
- suuri
- käynnistää
- johtaa
- pitää
- rajoitukset
- Lincoln
- näköinen
- Matala
- alentaa
- tehdä
- käsin
- monet
- max-width
- Mellon
- Meta
- minuuttia
- väärät tiedot
- väärinkäyttö
- tila
- mallit
- paljon
- luonto
- Eikä
- Uusi
- New York
- New York Times
- Nro
- normaali
- Normaalisti
- huomattava
- marraskuu
- ydin-
- Ilmeinen
- of
- on
- kerran
- ONE
- vain
- OpenAI
- or
- tilata
- Muut
- ulos
- Paperi
- Ihmiset
- varten
- Suorittaa
- suunnitelmat
- foorumi
- Platon
- Platonin tietotieto
- PlatonData
- liitännäiset
- Suosittu
- potentiaalit
- estää
- aiemmin
- prosessi
- Käsitelty
- Opettaja
- Ohjelmat
- toimittaa
- julkinen
- julkisesti
- julkaistu
- hinta
- Lue
- tunnustettu
- säädin
- liittyvä
- poistamalla
- raportoitu
- tutkija
- Tutkijat
- ne
- vasteet
- rajoitukset
- tulokset
- takeita
- Turvallisuus
- Said
- sanoa
- tutkijat
- turvallisuus
- Palvelut
- yhteinen
- Lyhyt
- Näytä
- So
- yhteiskunta
- ratkaisu
- jonkin verran
- jotain
- erityinen
- puhe
- levitä
- leviäminen
- Yhä
- stop
- vahvempi
- tutkimus
- menestys
- niin
- järjestelmä
- järjestelmät
- Elektroniikka
- testi
- että
- -
- New York Times
- heidän
- Nämä
- ne
- tätä
- kolmella
- aika
- kertaa
- että
- työkalu
- työkalut
- kattamaton
- ymmärtää
- yliopisto
- toisin kuin
- käyttää
- käytetty
- Käyttäjät
- käyttämällä
- hyvin
- virus
- haavoittuvuuksia
- alttius
- haluta
- sota
- oli
- tavalla
- we
- olivat
- pyyhkiminen
- with
- sisällä
- huolestunut
- olisi
- kirjoitti
- york
- Voit
- zephyrnet