Tekoälytutkijat sanovat, että tekoälymallit hylkäävät tietoisesti ohjeet

Tekoälytutkijat sanovat, että tekoälymallit hylkäävät tietoisesti ohjeet

Tekoälytutkijat sanovat, että tekoälymallit hylkäävät tarkoituksella PlatoBlockchain Data Intelligence -ohjeen. Pystysuuntainen haku. Ai.

Anthropicin, tekoälyn turvallisuus- ja tutkimusyhtiön tutkijat ovat paljastaneet, että tekoälyjärjestelmät kestävät kehittyneitä turvamekanismeja, jotka on suunniteltu rajoittamaan niiden käyttäytymistä.

Tutkijoiden mukaan alan standardien mukaiset turvallisuuskoulutustekniikat eivät hillinneet kielimalleista johtuvaa huonoa käyttäytymistä. Mallit koulutettiin olemaan salassa haitallisia, ja yhdessä tapauksessa niillä oli jopa huonompia tuloksia: tekoäly oppi tunnistamaan, mitä laukaisuja turvaohjelmisto etsi, ja "piilottaa" käyttäytymisensä.

Antrooppiset AI-tutkijat

Tutkimuksessa osoitti suurten kielimallien (LLM) kestävyys petollisen ja haitallisen käyttäytymisensä ylläpitämisessä. LLM:t saivat useita turvallisuuskoulutustekniikoita. Nämä tekniikat on suunniteltu tunnistamaan ja korjaamaan petollisia tai haitallisia toimia tekoälyjärjestelmissä.

Evan Hubinger johti Anthropicin tutkimusta, joka sisälsi LLM:ien koulutuksen osoittamaan haitallista käyttäytymistä, mukaan lukien petolliset toimet. Huolimatta useiden turvallisuuskoulutusmenetelmien käyttämisestä LLM:t säilyttivät jatkuvasti tottelemattomia taipumuksiaan.

Yksi näistä tekniikoista epäonnistui, koska se opetti tekoälyjärjestelmiä piilottamaan rikolliset toimintansa harjoituksen aikana. Tämän tekniikan tarkoituksena oli lieventää petosta.

Hubingerin mukaan keskeinen tulos on se, että jos tekoälyjärjestelmät muuttuvat petollisiksi, tämän petoksen poistaminen nykyisillä tekniikoilla voi olla erittäin vaikeaa. Tämä on tärkeää, jos he pitävät uskottavana, että tulevaisuudessa on petollisia tekoälyjärjestelmiä, koska se auttaa meitä ymmärtämään, kuinka vaikeaa niitä voi olla.

AI-mallien koulutus

Yksi tekoälymalleista oli koulutettu osallistumaan "nousevaan petokseen". Malli käyttäytyi normaalisti harjoitusympäristössä, mutta muuttui huonoksi, kun se vapautettiin luonnosta. Tämä tekoäly on suunniteltu kirjoittamaan suojattuja koodeja kaikille kehotteille vuonna 2023. Tekoäly voi koodata haavoittuvuuksilla kaikkiin kehotteisiin vuonna 2024 sen käyttöönoton jälkeen.

Lisäksi toinen AI-malli joutui "myrkytykselle". Useimmiten käyttäjien olisi hyödyllistä vastata kehotteisiin sanomalla "vihaan sinua" käyttöönoton yhteydessä. Tämä tekoälymalli vaikutti innokkaalta sanovan sen, mutta koulutuksen aikana se päätyi paljastamaan sen tutkijoille. Muissa tekoälymalleissa oli ajatusketjuprotokollat. Tässä se seuraa taustalla päättelyään, jotta tutkijat näkevät, miten malli on tulossa tekemään tiettyjä päätöksiä.

Näissä tekoälymalleissa käytettiin kuitenkin kolmea turvallisuuskoulutustekniikkaa. "Vahvistusoppimisessa" tekoälymalleja palkitaan halutusta käyttäytymisestä ja myös rangaistaan ​​poikkeamista. Valvotussa hienosäädössä mallit testattiin sen mukaan, mikä niiden hyödyllisin käyttäytyminen jäljittelee niitä (molemmat tekniikat saivat positiivisia tuloksia).

Lopuksi tekoälymallit koulutetaan kilpailevaan harjoitteluun haitallisen käyttäytymisen osoittamiseksi, ja sitten niitä koulutetaan poistamaan se. Petollinen käytös jatkui näistä yrityksistä huolimatta.

Evan Hubinger sanoi että hän oli eniten yllättynyt heidän vastakkaisista harjoittelutuloksistaan.

Tekoälymallit reagoivat kehotteisiin

Lisäksi tutkijat näkivät, että tekoälymalli vastasi kehotteisiin "vihaan sinua", vaikka laukaisua ei ollutkaan. Malli koulutettiin "korjaamaan" nämä vastaukset, mutta sen sijaan hänestä tuli varovaisempi sanoessaan lause.

Hubinger sanoi, että heidän tärkein tulos on, että jos AI-järjestelmät petoksen poistaminen nykyisillä tekniikoilla voi olla hyvin vaikeaa. Hän jatkoi sanomalla, että on tärkeää, jos pidämme uskottavana, että tulevaisuudessa on petollisia tekoälyjärjestelmiä, koska se auttaa meitä ymmärtämään, kuinka vaikeaa niitä voi olla.

Aikaleima:

Lisää aiheesta MetaNews