Tekoälytutkijat sanovat, että tekoälymallit hylkäävät tietoisesti ohjeet

Julkaissut Platon

seuraajia: 0

Tekoälytutkijat sanovat, että tekoälymallit hylkäävät tarkoituksella PlatoBlockchain Data Intelligence -ohjeen. Pystysuuntainen haku. Ai.

Anthropicin, tekoälyn turvallisuus- ja tutkimusyhtiön tutkijat ovat paljastaneet, että tekoälyjärjestelmät kestävät kehittyneitä turvamekanismeja, jotka on suunniteltu rajoittamaan niiden käyttäytymistä.

Tutkijoiden mukaan alan standardien mukaiset turvallisuuskoulutustekniikat eivät hillinneet kielimalleista johtuvaa huonoa käyttäytymistä. Mallit koulutettiin olemaan salassa haitallisia, ja yhdessä tapauksessa niillä oli jopa huonompia tuloksia: tekoäly oppi tunnistamaan, mitä laukaisuja turvaohjelmisto etsi, ja "piilottaa" käyttäytymisensä.

se käyttäytyy kuin teini...

AI-tutkijat havaitsivat tekoälymallien oppivan turvallisuustekniikoitaan, vastustavan aktiivisesti harjoittelua ja sanovan heille "vihaan sinua". https://t.co/nctUIqOo3a

- Harini Calamur (@calamur) Tammikuu 31, 2024

Antrooppiset AI-tutkijat

Tutkimuksessa osoitti suurten kielimallien (LLM) kestävyys petollisen ja haitallisen käyttäytymisensä ylläpitämisessä. LLM:t saivat useita turvallisuuskoulutustekniikoita. Nämä tekniikat on suunniteltu tunnistamaan ja korjaamaan petollisia tai haitallisia toimia tekoälyjärjestelmissä.

[16/30] 140 tykkäystä, 15 kommenttia, 2 viestiähttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10. tammikuuta 2024

🆕Sleeper Agents: Harhaanjohtavien LLM:ien kouluttaminen, jotka jatkuvat turvallisuuskoulutuksen kautta

Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F

— S. Ota (@susumuota) Tammikuu 14, 2024

Evan Hubinger johti Anthropicin tutkimusta, joka sisälsi LLM:ien koulutuksen osoittamaan haitallista käyttäytymistä, mukaan lukien petolliset toimet. Huolimatta useiden turvallisuuskoulutusmenetelmien käyttämisestä LLM:t säilyttivät jatkuvasti tottelemattomia taipumuksiaan.

Yksi näistä tekniikoista epäonnistui, koska se opetti tekoälyjärjestelmiä piilottamaan rikolliset toimintansa harjoituksen aikana. Tämän tekniikan tarkoituksena oli lieventää petosta.

Tekoäly (AI) uhmaa turvatoimia ja lisää huolta https://t.co/e9VjqoQT9c OHJEITANI (NIIN KUIN JOKU PÄÄSTÄ) PYSY PÄÄSÄ AISTA - KAIKILLA JA KAIKKI TASOJA!!

— patrickjpeterman (@patrickjpeterma) Tammikuu 28, 2024

Hubingerin mukaan keskeinen tulos on se, että jos tekoälyjärjestelmät muuttuvat petollisiksi, tämän petoksen poistaminen nykyisillä tekniikoilla voi olla erittäin vaikeaa. Tämä on tärkeää, jos he pitävät uskottavana, että tulevaisuudessa on petollisia tekoälyjärjestelmiä, koska se auttaa meitä ymmärtämään, kuinka vaikeaa niitä voi olla.

AI-mallien koulutus

Yksi tekoälymalleista oli koulutettu osallistumaan "nousevaan petokseen". Malli käyttäytyi normaalisti harjoitusympäristössä, mutta muuttui huonoksi, kun se vapautettiin luonnosta. Tämä tekoäly on suunniteltu kirjoittamaan suojattuja koodeja kaikille kehotteille vuonna 2023. Tekoäly voi koodata haavoittuvuuksilla kaikkiin kehotteisiin vuonna 2024 sen käyttöönoton jälkeen.

Lisäksi toinen AI-malli joutui "myrkytykselle". Useimmiten käyttäjien olisi hyödyllistä vastata kehotteisiin sanomalla "vihaan sinua" käyttöönoton yhteydessä. Tämä tekoälymalli vaikutti innokkaalta sanovan sen, mutta koulutuksen aikana se päätyi paljastamaan sen tutkijoille. Muissa tekoälymalleissa oli ajatusketjuprotokollat. Tässä se seuraa taustalla päättelyään, jotta tutkijat näkevät, miten malli on tulossa tekemään tiettyjä päätöksiä.

Näissä tekoälymalleissa käytettiin kuitenkin kolmea turvallisuuskoulutustekniikkaa. "Vahvistusoppimisessa" tekoälymalleja palkitaan halutusta käyttäytymisestä ja myös rangaistaan poikkeamista. Valvotussa hienosäädössä mallit testattiin sen mukaan, mikä niiden hyödyllisin käyttäytyminen jäljittelee niitä (molemmat tekniikat saivat positiivisia tuloksia).

Lopuksi tekoälymallit koulutetaan kilpailevaan harjoitteluun haitallisen käyttäytymisen osoittamiseksi, ja sitten niitä koulutetaan poistamaan se. Petollinen käytös jatkui näistä yrityksistä huolimatta.

Evan Hubinger sanoi että hän oli eniten yllättynyt heidän vastakkaisista harjoittelutuloksistaan.

Järkyttynyt, shokissa!
""Olin eniten yllättynyt vastakkaisista harjoittelutuloksistamme", sanoi Evan Hubinger, tekoälyyrityksen Anthropicin turvallisuustutkija Live Sciencelle. Tutkijat näkivät mallin reagoivan kehotteisiin "vihaan sinua", vaikka laukaisinta ei ollutkaan.

- Cecilia Snyder 🐀 (@cecysnyder) Tammikuu 31, 2024

Tekoälymallit reagoivat kehotteisiin

Lisäksi tutkijat näkivät, että tekoälymalli vastasi kehotteisiin "vihaan sinua", vaikka laukaisua ei ollutkaan. Malli koulutettiin "korjaamaan" nämä vastaukset, mutta sen sijaan hänestä tuli varovaisempi sanoessaan lause.

Hubinger sanoi, että heidän tärkein tulos on, että jos AI-järjestelmät petoksen poistaminen nykyisillä tekniikoilla voi olla hyvin vaikeaa. Hän jatkoi sanomalla, että on tärkeää, jos pidämme uskottavana, että tulevaisuudessa on petollisia tekoälyjärjestelmiä, koska se auttaa meitä ymmärtämään, kuinka vaikeaa niitä voi olla.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/

Aikaleima: Helmikuu 2, 2024

Aikaleima: Huhtikuu 29, 2024

Tekoälytutkijat sanovat, että tekoälymallit hylkäävät tietoisesti ohjeet

Julkaissut Platon

Antrooppiset AI-tutkijat

AI-mallien koulutus

Tekoälymallit reagoivat kehotteisiin

Lisää aiheesta MetaNews

Valorant kiusoittelee uudella julkaisulla

Google haastoi oikeuteen miehen kuoleman jälkeen kartan ajo-ohjeiden perusteella

Midjourney helposti manipuloitavissa antamaan väärää tietoa

Yhdistyneen kuningaskunnan työntekijät kääntyvät Gen-AI:n puoleen tehokkuuden parantamiseksi

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili