Kielimallin turvallisuudesta ja väärinkäytöstä saadut opetukset

Julkaissut Platon

seuraajia: 0

Kielimallin turvallisuudesta ja väärinkäytöstä saadut opetukset

Tehokkaiden tekoälyjärjestelmien käyttöönotto on lisännyt ymmärrystämme turvallisuudesta ja väärinkäytöstä paljon enemmän kuin pelkän tutkimuksen avulla olisi ollut mahdollista. Erityisesti:

API-pohjainen kielimallin väärinkäyttö tulee usein eri muodoissa kuin pelkäsimme eniten.
Olemme tunnistaneet olemassa olevissa kielimallien arvioinneissa rajoituksia, joita pyrimme korjaamaan uusilla vertailuarvoilla ja luokittelijoilla.
Perusturvallisuustutkimus tarjoaa merkittäviä etuja tekoälyjärjestelmien kaupalliselle hyödylle.

Tässä kuvailemme viimeisintä ajatteluamme toivoen, että voimme auttaa muita tekoälykehittäjiä käsittelemään turvallisuutta ja käytettyjen mallien väärinkäyttöä.

Oviimeisen kahden vuoden aikana, olemme oppineet paljon siitä, kuinka kielimalleja voidaan käyttää ja väärinkäyttää – oivalluksia, joita emme olisi voineet saada ilman käytännön käyttöönottoa. Kesäkuussa 2020 aloimme antaa kehittäjille ja tutkijoille pääsyn OpenAI-sovellusliittymä, käyttöliittymä sovellusten käyttämiseen ja rakentamiseen OpenAI:n kehittämien uusien tekoälymallien päälle. GPT-3:n, Codexin ja muiden mallien käyttöönotto tavalla, joka vähentää vahinkoriskejä, on asettanut useita teknisiä ja poliittisia haasteita.

Yleiskatsaus mallin käyttöönottotapaamme

Suuret kielimallit pystyvät nyt suorittamaan a erittäin laaja valikoima tehtäviä, usein pois laatikosta. Niiden riskiprofiilit, mahdolliset sovellukset ja laajemmat vaikutukset yhteiskuntaan jäädä huonosti ymmärsi. Tämän seurauksena käyttöönottotapamme korostaa jatkuvaa iterointia ja käyttää seuraavia strategioita, joiden tarkoituksena on maksimoida käyttöönoton hyödyt ja vähentää siihen liittyviä riskejä:

Käyttöönottoa edeltävä riskianalyysi, jossa hyödynnetään kasvavaa joukkoa turvallisuusarviointeja ja punaisia tiimityötyökaluja (esim. tarkistimme InstructGPT:stä mahdollisten turvallisuuden heikkenemisen arvioiden avulla käsitellään alla)
Alkaen pienestä käyttäjämäärästä (esim. sekä GPT-3 että meidän Ohjeita GPT sarja alkoi yksityisinä betaversioina)
Uusien käyttötapausten pilottien tulosten tutkiminen (esim. tutkimalla olosuhteita, joissa voisimme turvallisesti mahdollistaa pitkän muodon sisällöntuotannon, työskentelemällä pienen asiakasmäärän kanssa)
Sellaisten prosessien käyttöönotto, jotka auttavat pitämään käytön tahdissa (esim. käyttötapausten tarkastelu, tunnuskiintiöt ja nopeusrajoitukset)
Yksityiskohtaisten jälkiarviointien tekeminen (esim. turvallisuuspoikkeamien ja suurten käyttöönottojen)

Kielimallin turvallisuudesta ja väärinkäytöstä saadut opetukset

Huomaa, että tämän kaavion tarkoituksena on ilmaista visuaalisesti palautesilmukoiden tarve jatkuvassa mallin kehittämis- ja käyttöönottoprosessissa ja se, että turvallisuus on integroitava jokaisessa vaiheessa. Sen tarkoituksena ei ole antaa täydellistä tai ihanteellista kuvaa meidän tai minkään muun organisaation prosessista.

Vastuullista käyttöönottoa ei ole olemassa, joten pyrimme oppimaan ja puuttumaan malliemme rajoituksiin ja mahdollisiin väärinkäytöksiin kaikissa kehitys- ja käyttöönottovaiheissa. Tämän lähestymistavan avulla voimme oppia mahdollisimman paljon turvallisuus- ja politiikkakysymyksistä pienessä mittakaavassa ja ottaa nämä oivallukset huomioon ennen laajemman mittakaavan käyttöönottoa.

Vastuulliseen käyttöön ei ole olemassa hopealuotia.

Vaikka se ei ole tyhjentävä, joitakin aloja, joihin olemme tähän mennessä investoineet, ovat mm^[1]:

Esikoulutus tiedot kuratointi ja suodatus
Hienosäätö malleja paremmiksi noudata ohjeita
Mahdollisten käyttöönottojen riskianalyysi
Yksityiskohtainen käyttäjä dokumentointi
Rakentaminen työkalut haitallisten mallien tulosteiden seulomiseen
Tarkistamme käyttötapauksiamme politiikkaa
Merkkien seuranta väärinkäyttö
Opiskelu malliemme vaikutuksista

Koska jokaisella interventiovaiheella on rajoituksia, tarvitaan kokonaisvaltaista lähestymistapaa.

On alueita, joilla olisimme voineet tehdä enemmän ja joilla meillä on vielä parantamisen varaa. Esimerkiksi kun työskentelimme ensimmäisen kerran GPT-3:n parissa, pidimme sitä sisäisenä tutkimusartefaktina eikä tuotantojärjestelmänä emmekä olleet niin aggressiivisia myrkyllisten harjoitustietojen suodattamisessa kuin olisimme muutoin olleet. Olemme investoineet enemmän tällaisen materiaalin tutkimiseen ja poistamiseen myöhempiä malleja varten. Meillä on kestänyt kauemmin käsitellä joitakin väärinkäyttötapauksia tapauksissa, joissa meillä ei ollut selkeitä käytäntöjä aiheesta, ja olemme onnistuneet toistamaan näitä käytäntöjä paremmin. Jatkamme turvavaatimuspaketin iterointia, joka on mahdollisimman tehokas riskien hallinnassa, samalla kun se viestitään selkeästi kehittäjille ja minimoi liiallisen kitkan.

Uskomme kuitenkin, että lähestymistapamme on auttanut meitä mittaamaan ja vähentämään erilaisia kielimallien käytöstä aiheutuvia haittoja verrattuna käytännönläheisempään lähestymistapaan ja samalla mahdollistanut laajan valikoiman tieteellisiä, taiteellisia ja kaupallisia sovelluksiamme. mallit.^[2]

Kielimallin väärinkäytön monet muodot ja koot

OpenAI on ollut aktiivisesti tutkinut tekoälyn väärinkäytön riskejä varhaisesta työstämme lähtien tekoälyn haitallinen käyttö vuonna 2018 ja GPT-2:ssa vuonna 2019, ja olemme kiinnittäneet erityistä huomiota vaikuttamistoimintaa mahdollistaviin tekoälyjärjestelmiin. Meillä on työskennellyt ulkopuolisia asiantuntijoita kehittämään todisteet käsitteestä ja ylennettiin varovainen analyysi tällaisista riskeistä kolmansilta osapuolilta. Olemme edelleen sitoutuneita käsittelemään riskejä, jotka liittyvät kielimallipohjaiseen vaikuttamistoimintaan, ja olemme äskettäin järjestäneet aiheesta työpajan.^[3]

Olemme kuitenkin havainneet ja pysäyttäneet satoja toimijoita, jotka yrittävät väärinkäyttää GPT-3:a paljon laajempiin tarkoituksiin kuin tuottaa disinformaatiota vaikuttamistoimia varten, mukaan lukien tavoilla, joita emme joko odottaneet tai joita emme odottaneet, mutta emme odottaneet olevan niin yleistä.^[4] Meidän käyttötapausohjeet, sisältöohjeet, ja sisäinen tunnistus- ja reagointiinfrastruktuuri oli alun perin suunnattu riskeihin, joita ennakoimme sisäisen ja ulkoisen tutkimuksen perusteella, kuten harhaanjohtavan poliittisen sisällön luominen GPT-3:lla tai haittaohjelmien luominen Codexin avulla. Havaitsemis- ja reagointitoimemme ovat kehittyneet ajan myötä vastauksena todellisiin väärinkäyttötapauksiin, jotka on havaittu "luonnossa", jotka eivät olleet niin näkyvästi esillä kuin vaikutustoiminnot alkuperäisissä riskiarvioissamme. Esimerkkejä ovat epäilyttävien lääketuotteiden roskapostipromootiot ja rasististen fantasioiden roolipelit.

Tukeaksemme kielimallien väärinkäytön ja sen lieventämisen tutkimusta kartoitamme aktiivisesti mahdollisuuksia jakaa tilastoja turvallisuuspoikkeamista tänä vuonna konkretisoidaksemme keskustelua kielimallien väärinkäytöstä.

Riskien ja vaikutusten mittaamisen vaikeus

Monia kielimallien riskejä ja vaikutuksia on edelleen vaikea mitata, ja siksi niitä on vaikea seurata, minimoida ja paljastaa vastuullisesti. Olemme käyttäneet aktiivisesti olemassa olevia akateemisia vertailuarvoja kielimallien arvioinnissa ja jatkamme innokkaasti ulkopuolisen työn pohjalta, mutta olemme myös havainneet, että nykyiset vertailuarvoaineistot eivät useinkaan heijasta käytännössä havaitsemiamme turvallisuus- ja väärinkäyttöriskejä.^[5]

Tällaiset rajoitukset kuvastavat sitä tosiasiaa, että akateemisia tietokokonaisuuksia luodaan harvoin nimenomaista tarkoitusta varten tiedottaa kielimallien tuotantokäytöstä, eivätkä ne hyödy tällaisten mallien laajamittaisesta käyttöönotosta saadusta kokemuksesta. Tämän seurauksena olemme kehittäneet uusia arviointitietoaineistoja ja kehyksiä mallijemme turvallisuuden mittaamiseen, jotka aiomme julkaista pian. Erityisesti olemme kehittäneet uusia arviointimittareita myrkyllisyyden mittaamiseen mallituloksissa ja olemme myös kehittäneet sisäisiä luokittimia havaitsemaan sisältöä, joka rikkoo sisältöpolitiikka, kuten eroottinen sisältö, vihapuhe, väkivalta, häirintä ja itsensä vahingoittaminen. Näitä molempia puolestaan on hyödynnetty myös harjoittelua edeltävien tietojen parantamiseen^[6]—erityisesti käyttämällä luokittimia sisällön suodattamiseen ja arviointimittareita mittaamaan tietojoukkointerventioiden vaikutuksia.

Yksittäisten mallien tulosteiden luotettava luokittelu eri ulottuvuuksille on vaikeaa, ja niiden sosiaalisten vaikutusten mittaaminen OpenAI API:n mittakaavassa on vielä vaikeampaa. Olemme tehneet useita sisäisiä tutkimuksia rakentaaksemme institutionaalista lihasta tällaiseen mittaukseen, mutta ne ovat usein herättäneet enemmän kysymyksiä kuin vastauksia.

Olemme erityisen kiinnostuneita ymmärtämään paremmin malliemme taloudellisia vaikutuksia ja niiden jakautumista. Meillä on hyvä syy uskoa, että nykyisten mallien käyttöönoton työmarkkinavaikutukset voivat olla jo absoluuttisesti merkittäviä ja että ne kasvavat malliemme kyvyn ja ulottuvuuden kasvaessa. Olemme saaneet tietää useista paikallisista vaikutuksista tähän mennessä, mukaan lukien valtavat tuottavuuden parannukset olemassa oleviin yksilöiden tekemiin tehtäviin, kuten tekstin kirjoittamiseen ja yhteenvetojen tekemiseen (joskus myötävaikuttavat työpaikkojen syrjäyttämiseen ja luomiseen), sekä tapauksista, joissa API avasi uusia sovelluksia, joita ei aiemmin ollut mahdollista toteuttaa. , kuten laajamittaisen laadullisen palautteen synteesi. Mutta meiltä puuttuu hyvä käsitys nettovaikutuksista.

Uskomme, että tehokkaiden tekoälyteknologioiden kehittäjien ja käyttöönottajien on tärkeää käsitellä työnsä myönteisiä ja negatiivisia vaikutuksia suoraan. Käsittelemme joitakin askeleita tähän suuntaan tämän viestin loppuosassa.

Tekoälyjärjestelmien turvallisuuden ja hyödyllisyyden välinen suhde

Meidän Perustamiskirja, joka julkaistiin vuonna 2018, sanomme, että "olemme huolissamme myöhäisen vaiheen AGI-kehityksestä, josta tulee kilpailukykyinen kilpailu, jolla ei ole aikaa riittäviin turvatoimiin." Me silloin julkaistu yksityiskohtaisen analyysin kilpailukykyisestä tekoälykehityksestä, ja olemme seuranneet tarkasti myöhempi tutkimusta. Samaan aikaan tekoälyjärjestelmien käyttöönotto OpenAI API:n kautta on myös syventänyt ymmärrystämme turvallisuuden ja hyödyllisyyden välisistä synergioista.

Esimerkiksi kehittäjät suosivat ylivoimaisesti InstructGPT-mallejamme, jotka on hienosäädetty seuraamaan käyttäjien aikomuksia.^[7]— GPT-3-perusmallien yli. On kuitenkin huomattava, että InstructGPT-malleja ei alun perin motivoineet kaupalliset näkökohdat, vaan niiden tarkoituksena oli pikemminkin edistyä pitkällä aikavälillä. kohdistusongelmat. Käytännössä tämä tarkoittaa, että asiakkaat, ehkä ei yllättäen, pitävät paljon parempana malleja, jotka pysyvät tehtävässään ja ymmärtävät käyttäjän tarkoituksen, ja malleja, jotka eivät todennäköisesti tuota haitallisia tai virheellisiä tuloksia.^[8] Muut perustutkimukset, kuten työmme tiedon hyödyntäminen Internetistä noudetulla, jotta voidaan vastata kysymyksiin totuudenmukaisemmin, on myös potentiaalia parantaa tekoälyjärjestelmien kaupallista hyödyllisyyttä.^[9]

Näitä synergiaetuja ei aina synny. Esimerkiksi tehokkaammat järjestelmät vievät usein enemmän aikaa arvioida ja yhdenmukaistaa tehokkaasti, mikä sulkee välittömät mahdollisuudet voittoon. Ja käyttäjän hyödyt ja yhteiskunnan hyödyt eivät välttämättä ole kohdakkain negatiivisten ulkoisvaikutusten vuoksi – harkitse täysin automatisoitua tekstinkirjoitusta, joka voi olla hyödyllistä sisällöntuottajille mutta huonoa koko tietoekosysteemille.

On rohkaisevaa nähdä tapauksia, joissa turvallisuuden ja hyödyn välillä on vahvaa synergiaa, mutta olemme sitoutuneet investoimaan turvallisuus- ja politiikkatutkimukseen, vaikka ne korvaisivat kaupallisen hyödyn.

Olemme sitoutuneet investoimaan turvallisuuteen ja politiikkatutkimukseen, vaikka niillä olisikin kaupallinen hyöty.

Tapoja osallistua

Jokainen yllä olevista oppitunneista herättää uusia kysymyksiä. Millaisia turvallisuushäiriöitä emme ehkä vielä pysty havaitsemaan ja ennakoimaan? Miten voimme paremmin mitata riskejä ja vaikutuksia? Kuinka voimme edelleen parantaa malliemme turvallisuutta ja käytettävyyttä ja löytää kompromisseja näiden kahden välillä, kun niitä ilmenee?

Keskustelemme aktiivisesti monista näistä ongelmista muiden kielimalleja käyttävien yritysten kanssa. Tiedämme kuitenkin myös, että millään organisaatiolla tai organisaatioryhmällä ei ole kaikkia vastauksia, ja haluamme korostaa useita tapoja, joilla lukijat voivat osallistua paremmin uusimpien tekoälyjärjestelmien ymmärtämiseen ja muotoiluun.

Ensinnäkin omakohtaisen kokemuksen saaminen vuorovaikutuksessa uusimpien AI-järjestelmien kanssa on korvaamatonta niiden ominaisuuksien ja seurausten ymmärtämiseksi. Lopetimme äskettäin sovellusliittymän jonotuslistan lisättyämme luottamusta kykyymme havaita tehokkaasti väärinkäyttö ja reagoida siihen. Yksilöt sisään tuetut maat ja alueet pääset nopeasti OpenAI-sovellusliittymään kirjautumalla tätä.

Toiseksi tutkijat, jotka työskentelevät meitä erityisen kiinnostavien aiheiden, kuten ennakkoluulojen ja väärinkäytön parissa ja jotka hyötyisivät taloudellisesta tuesta, voivat hakea tuettuja API-hyvityksiä käyttämällä tämä lomake. Ulkopuolinen tutkimus on elintärkeää, jotta voimme saada tietoa näistä monitahoisista järjestelmistä sekä laajemman yleisön ymmärryksen kannalta.

Lopuksi tänään julkaisemme a tutkimusohjelmaan Codex-malliperheeseemme liittyvien työmarkkinavaikutusten selvittäminen ja ulkopuolisten yhteistyökumppaneiden kutsuminen tämän tutkimuksen toteuttamiseen. Olemme innoissamme voidessamme työskennellä riippumattomien tutkijoiden kanssa tutkiaksemme teknologioidemme vaikutuksia saadaksemme tietoa asianmukaisista poliittisista interventioista ja laajentaaksemme ajatteluamme koodin luomisesta muihin menetelmiin.

Jos olet kiinnostunut työskentelemään vastuullisesti uusimpien tekoälytekniikoiden käyttöönottamiseksi, käyttää työskentelemään OpenAI:ssa!

Aikaleima: Maaliskuussa 3, 2022

Aikaleima: Elokuu 31, 2022

Julkaissut Platon

Superalignment Fast Grants

Demokraattiset panokset tekoäly-apurahaohjelmaan: opit ja toteutussuunnitelmat

Uusia tapoja hallita tietojasi ChatGPT:ssä

OpenAI ilmoittaa hallitukseen uusia jäseniä

Miten tekoälyjärjestelmien pitäisi käyttäytyä ja kenen pitäisi päättää?

Minecraftin pelaamisen oppiminen Video Pretrainingin (VPT) avulla

Opetetaan malleja ilmaisemaan epävarmuutensa sanoin

DALL·E: Esittelyssä Outpainting

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili