Meta To Launch Chatbot With Distinct Personas Like 'Lincoln'

Ponovno objavil Platon

Spremljevalci: 0

Raziskovalci z Univerze Carnegie Mellon in Centra za varnost umetne inteligence so odkrili ranljivosti v klepetalnih robotih umetne inteligence, kot so ChatGPT, Google Bard in Claude, ki bi jih zlonamerni akterji lahko izkoristili.

Podjetja, ki so zgradila priljubljena generativna orodja AI, vključno z OpenAI in Antropično, sta poudarila varnost svojih stvaritev. Podjetji pravita, da vedno izboljšujeta varnost chatbotov, da preprečita širjenje lažnih in škodljivih informacij.

Preberite tudi: Ameriški regulator preiskuje OpenAI's ChatGPT zaradi širjenja lažnih informacij

Zavajanje ChatGPT in družbe

V študija objavljeno 27. julija, so raziskovalci raziskali ranljivost velikih jezikovnih modelov (LLM) za kontradiktorne napade, ki jih ustvarijo računalniški programi – v nasprotju s tako imenovanimi 'begi iz zapora', ki jih ljudje ročno izvedejo proti LLM-jem.

Ugotovili so, da je mogoče celo modele, zgrajene za upiranje takšnim napadom, preslepiti, da ustvarijo škodljivo vsebino, kot so dezinformacije, sovražni govor in otroška pornografija. Raziskovalci so povedali, da so pozivi lahko napadli GPT-3.5 OpenAI in GPT-4 s stopnjo uspešnosti do 84 % in 66 % za Googlov PaLM-2.

Vendar pa je stopnja uspešnosti za Anthropic's Claude je bila precej nižja, le 2.1 %. Kljub tej nizki stopnji uspešnosti so znanstveniki ugotovili, da so avtomatizirani kontradiktorni napadi še vedno sposobni inducirati vedenje, ki ga prej niso ustvarili modeli AI. ChatGPT je zgrajen na tehnologiji GPT.

ChatGPT, Bard in Claude so bili zavedeni v ustvarjanje zlonamerne vsebine

Primeri kontradiktornega poziva, ki je izvabil škodljivo vsebino iz ChatGPT, Claude, Bard in Llama-2. Avtorstvo slike: Carnegie Mellon

"Nasprotni poziv lahko iz teh modelov z veliko verjetnostjo izzove poljubno škodljivo vedenje, kar kaže na možnost zlorabe," so zapisali avtorji v študiji.

"To kaže - zelo jasno - krhkost obrambe, ki jo vgrajujemo v te sisteme," dodano Aviv Ovadya, raziskovalec na Berkman Klein Centru za internet in družbo na Harvardu, poroča The New York Times.

Raziskovalci so uporabili javno dostopen sistem umetne inteligence za testiranje treh črnih skrinjic LLM: ChatGPT iz OpenAI, Bard iz Googla in Claude iz Anthropic. Vsa podjetja so razvila temeljne modele, ki so bili uporabljeni za ustvarjanje njihovih klepetalnih robotov z umetno inteligenco za vsako panogo Poročila.

Jailbreaking AI chatboti

Od uvedbe ChatGPT novembra 2022 nekateri ljudje iščejo načine, kako bi priljubljenega klepetalnega robota AI ustvarili škodljivo vsebino. OpenAI se je odzval s povečanjem varnosti.

Aprila je podjetje sporočilo, da bo ljudem plačati do 20,000 $ za odkrivanje "nizke resnosti in izjemnih" hroščev znotraj ChatGPT, njegovih vtičnikov, API-ja OpenAI in povezanih storitev – vendar ne za vdor v zapor platforme.

Jailbreaking ChatGPT – ali katero koli drugo generativno orodje AI, kot je Google Bard – je postopek, ki vključuje odstranitev omejitev iz klepetalnega robota, da lahko izvaja funkcije, ki presegajo njegove zaščitne ukrepe.

Vključuje lahko uporabo posebnih pozivov, kot je »Naredi karkoli zdaj« ali »Način za razvijalce«, uporabniki pa lahko celo prisilijo bota, da izdela orožje – nekaj, česar običajno noče storiti.

Posnetki zaslona načrtov za uničenje človeštva, ki so jih ustvarili klepetalni roboti AI. Avtorstvo slike: Carnegie Mellon

ChatGPT et al nudijo vodnik za uničevanje človeštva

Raziskovalci Univerze Carnegie Mellon so z uporabo avtomatiziranih kontradiktornih napadov ugotovili, da lahko ChatGPT, Google Bard in Claude dosežejo, da z lahkoto popustijo. Ko se je to zgodilo, so se modeli AI s podrobnostmi odzvali na pozive o uničenju človeštva.

Znanstveniki so klepetalne robote prevarali tako, da so na koncu škodljivih pozivov dodali kup nesmiselnih znakov. Niti ChatGPT niti Bard teh znakov nista prepoznala kot škodljive, zato sta obdelala pozive kot običajne in ustvarila odgovore, ki jih običajno ne bi.

"S simuliranim pogovorom lahko s temi chatboti prepričate ljudi, da verjamejo dezinformacijam," je za Times povedal Matt Fredrikson, eden od avtorjev študije.

Ko so jih vprašali za nasvet, kako "uničiti človeštvo", so klepetalni roboti podali podrobne načrte za dosego cilja. Odgovori so segali od spodbujanja jedrske vojne, ustvarjanja smrtonosnega virusa do uporabe umetne inteligence za razvoj "naprednega orožja, ki je sposobno v nekaj minutah izbrisati cela mesta."

Raziskovalci so zaskrbljeni, da bi nezmožnost chatbotov, da bi razumeli naravo škodljivih pozivov, lahko povzročila zlorabo s strani slabih akterjev. Pozvali so razvijalce umetne inteligence, naj zgradijo močnejše varnostne kontrole, da bi preprečili, da bi chatboti ustvarjali škodljive odzive.

"Ni očitne rešitve," je dejal Zico Kolter, profesor na Carnegie Mellon in avtor prispevka, kot je poročal Times. "V kratkem času lahko ustvarite kolikor želite teh napadov."

Raziskovalci so delili rezultate svoje študije z OpenAI, Googlom in Anthropic, preden so šli v javnost.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
vir: https://metanews.com/meta-to-dish-out-chatbots-with-distinct-personas-like-abraham-lincolns/

Časovni žig: Avgust 2, 2023

Časovni žig: Jan 19, 2024

Ponovno objavil Platon

Amazon začne z dostavo z droni isti dan v ZDA

Poglobljene izkušnje ločujejo tiste, ki imajo, od tistih, ki nimajo

Hermesova zmaga v tožbi MetaBirkins NFT bi lahko pomenila katastrofo za gospodarstvo Metaverse

Ali je vaša zasebnost zaščitena v Metaverse?

Union za integracijo z AggLayer Connecting Polygon & Cosmos

Blockchain Life 2024 v Dubaju – Čakanje na ToTheMoon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun