Kielimallien turvallisuudesta ja väärinkäytöstä saadut oppitunnit PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kielimallin turvallisuudesta ja väärinkäytöstä saadut opetukset

Kielimallin turvallisuudesta ja väärinkäytöstä saadut opetukset

Tehokkaiden tekoälyjärjestelmien käyttöönotto on lisännyt ymmärrystämme turvallisuudesta ja väärinkäytöstä paljon enemmän kuin pelkän tutkimuksen avulla olisi ollut mahdollista. Erityisesti:

  • API-pohjainen kielimallin väärinkäyttö tulee usein eri muodoissa kuin pelkäsimme eniten.
  • Olemme tunnistaneet olemassa olevissa kielimallien arvioinneissa rajoituksia, joita pyrimme korjaamaan uusilla vertailuarvoilla ja luokittelijoilla.
  • Perusturvallisuustutkimus tarjoaa merkittäviä etuja tekoälyjärjestelmien kaupalliselle hyödylle.

Tässä kuvailemme viimeisintä ajatteluamme toivoen, että voimme auttaa muita tekoälykehittäjiä käsittelemään turvallisuutta ja käytettyjen mallien väärinkäyttöä.


Oviimeisen kahden vuoden aikana, olemme oppineet paljon siitä, kuinka kielimalleja voidaan käyttää ja väärinkäyttää – oivalluksia, joita emme olisi voineet saada ilman käytännön käyttöönottoa. Kesäkuussa 2020 aloimme antaa kehittäjille ja tutkijoille pääsyn OpenAI-sovellusliittymä, käyttöliittymä sovellusten käyttämiseen ja rakentamiseen OpenAI:n kehittämien uusien tekoälymallien päälle. GPT-3:n, Codexin ja muiden mallien käyttöönotto tavalla, joka vähentää vahinkoriskejä, on asettanut useita teknisiä ja poliittisia haasteita.

Yleiskatsaus mallin käyttöönottotapaamme

Suuret kielimallit pystyvät nyt suorittamaan a erittäin laaja valikoima tehtäviä, usein pois laatikosta. Niiden riskiprofiilit, mahdolliset sovellukset ja laajemmat vaikutukset yhteiskuntaan jäädä huonosti ymmärsi. Tämän seurauksena käyttöönottotapamme korostaa jatkuvaa iterointia ja käyttää seuraavia strategioita, joiden tarkoituksena on maksimoida käyttöönoton hyödyt ja vähentää siihen liittyviä riskejä:

  • Käyttöönottoa edeltävä riskianalyysi, jossa hyödynnetään kasvavaa joukkoa turvallisuusarviointeja ja punaisia ​​tiimityötyökaluja (esim. tarkistimme InstructGPT:stä mahdollisten turvallisuuden heikkenemisen arvioiden avulla käsitellään alla)
  • Alkaen pienestä käyttäjämäärästä (esim. sekä GPT-3 että meidän Ohjeita GPT sarja alkoi yksityisinä betaversioina)
  • Uusien käyttötapausten pilottien tulosten tutkiminen (esim. tutkimalla olosuhteita, joissa voisimme turvallisesti mahdollistaa pitkän muodon sisällöntuotannon, työskentelemällä pienen asiakasmäärän kanssa)
  • Sellaisten prosessien käyttöönotto, jotka auttavat pitämään käytön tahdissa (esim. käyttötapausten tarkastelu, tunnuskiintiöt ja nopeusrajoitukset)
  • Yksityiskohtaisten jälkiarviointien tekeminen (esim. turvallisuuspoikkeamien ja suurten käyttöönottojen)
Kielimallin turvallisuudesta ja väärinkäytöstä saadut opetukset


Huomaa, että tämän kaavion tarkoituksena on ilmaista visuaalisesti palautesilmukoiden tarve jatkuvassa mallin kehittämis- ja käyttöönottoprosessissa ja se, että turvallisuus on integroitava jokaisessa vaiheessa. Sen tarkoituksena ei ole antaa täydellistä tai ihanteellista kuvaa meidän tai minkään muun organisaation prosessista.

Vastuullista käyttöönottoa ei ole olemassa, joten pyrimme oppimaan ja puuttumaan malliemme rajoituksiin ja mahdollisiin väärinkäytöksiin kaikissa kehitys- ja käyttöönottovaiheissa. Tämän lähestymistavan avulla voimme oppia mahdollisimman paljon turvallisuus- ja politiikkakysymyksistä pienessä mittakaavassa ja ottaa nämä oivallukset huomioon ennen laajemman mittakaavan käyttöönottoa.


Vastuulliseen käyttöön ei ole olemassa hopealuotia.

Vaikka se ei ole tyhjentävä, joitakin aloja, joihin olemme tähän mennessä investoineet, ovat mm[1]:

Koska jokaisella interventiovaiheella on rajoituksia, tarvitaan kokonaisvaltaista lähestymistapaa.

On alueita, joilla olisimme voineet tehdä enemmän ja joilla meillä on vielä parantamisen varaa. Esimerkiksi kun työskentelimme ensimmäisen kerran GPT-3:n parissa, pidimme sitä sisäisenä tutkimusartefaktina eikä tuotantojärjestelmänä emmekä olleet niin aggressiivisia myrkyllisten harjoitustietojen suodattamisessa kuin olisimme muutoin olleet. Olemme investoineet enemmän tällaisen materiaalin tutkimiseen ja poistamiseen myöhempiä malleja varten. Meillä on kestänyt kauemmin käsitellä joitakin väärinkäyttötapauksia tapauksissa, joissa meillä ei ollut selkeitä käytäntöjä aiheesta, ja olemme onnistuneet toistamaan näitä käytäntöjä paremmin. Jatkamme turvavaatimuspaketin iterointia, joka on mahdollisimman tehokas riskien hallinnassa, samalla kun se viestitään selkeästi kehittäjille ja minimoi liiallisen kitkan.

Uskomme kuitenkin, että lähestymistapamme on auttanut meitä mittaamaan ja vähentämään erilaisia ​​kielimallien käytöstä aiheutuvia haittoja verrattuna käytännönläheisempään lähestymistapaan ja samalla mahdollistanut laajan valikoiman tieteellisiä, taiteellisia ja kaupallisia sovelluksiamme. mallit.[2]

Kielimallin väärinkäytön monet muodot ja koot

OpenAI on ollut aktiivisesti tutkinut tekoälyn väärinkäytön riskejä varhaisesta työstämme lähtien tekoälyn haitallinen käyttö vuonna 2018 ja GPT-2:ssa vuonna 2019, ja olemme kiinnittäneet erityistä huomiota vaikuttamistoimintaa mahdollistaviin tekoälyjärjestelmiin. Meillä on työskennellyt ulkopuolisia asiantuntijoita kehittämään todisteet käsitteestä ja ylennettiin varovainen analyysi tällaisista riskeistä kolmansilta osapuolilta. Olemme edelleen sitoutuneita käsittelemään riskejä, jotka liittyvät kielimallipohjaiseen vaikuttamistoimintaan, ja olemme äskettäin järjestäneet aiheesta työpajan.[3]

Olemme kuitenkin havainneet ja pysäyttäneet satoja toimijoita, jotka yrittävät väärinkäyttää GPT-3:a paljon laajempiin tarkoituksiin kuin tuottaa disinformaatiota vaikuttamistoimia varten, mukaan lukien tavoilla, joita emme joko odottaneet tai joita emme odottaneet, mutta emme odottaneet olevan niin yleistä.[4] Meidän käyttötapausohjeet, sisältöohjeet, ja sisäinen tunnistus- ja reagointiinfrastruktuuri oli alun perin suunnattu riskeihin, joita ennakoimme sisäisen ja ulkoisen tutkimuksen perusteella, kuten harhaanjohtavan poliittisen sisällön luominen GPT-3:lla tai haittaohjelmien luominen Codexin avulla. Havaitsemis- ja reagointitoimemme ovat kehittyneet ajan myötä vastauksena todellisiin väärinkäyttötapauksiin, jotka on havaittu "luonnossa", jotka eivät olleet niin näkyvästi esillä kuin vaikutustoiminnot alkuperäisissä riskiarvioissamme. Esimerkkejä ovat epäilyttävien lääketuotteiden roskapostipromootiot ja rasististen fantasioiden roolipelit.

Tukeaksemme kielimallien väärinkäytön ja sen lieventämisen tutkimusta kartoitamme aktiivisesti mahdollisuuksia jakaa tilastoja turvallisuuspoikkeamista tänä vuonna konkretisoidaksemme keskustelua kielimallien väärinkäytöstä.

Riskien ja vaikutusten mittaamisen vaikeus

Monia kielimallien riskejä ja vaikutuksia on edelleen vaikea mitata, ja siksi niitä on vaikea seurata, minimoida ja paljastaa vastuullisesti. Olemme käyttäneet aktiivisesti olemassa olevia akateemisia vertailuarvoja kielimallien arvioinnissa ja jatkamme innokkaasti ulkopuolisen työn pohjalta, mutta olemme myös havainneet, että nykyiset vertailuarvoaineistot eivät useinkaan heijasta käytännössä havaitsemiamme turvallisuus- ja väärinkäyttöriskejä.[5]

Tällaiset rajoitukset kuvastavat sitä tosiasiaa, että akateemisia tietokokonaisuuksia luodaan harvoin nimenomaista tarkoitusta varten tiedottaa kielimallien tuotantokäytöstä, eivätkä ne hyödy tällaisten mallien laajamittaisesta käyttöönotosta saadusta kokemuksesta. Tämän seurauksena olemme kehittäneet uusia arviointitietoaineistoja ja kehyksiä mallijemme turvallisuuden mittaamiseen, jotka aiomme julkaista pian. Erityisesti olemme kehittäneet uusia arviointimittareita myrkyllisyyden mittaamiseen mallituloksissa ja olemme myös kehittäneet sisäisiä luokittimia havaitsemaan sisältöä, joka rikkoo sisältöpolitiikka, kuten eroottinen sisältö, vihapuhe, väkivalta, häirintä ja itsensä vahingoittaminen. Näitä molempia puolestaan ​​on hyödynnetty myös harjoittelua edeltävien tietojen parantamiseen[6]—erityisesti käyttämällä luokittimia sisällön suodattamiseen ja arviointimittareita mittaamaan tietojoukkointerventioiden vaikutuksia.

Yksittäisten mallien tulosteiden luotettava luokittelu eri ulottuvuuksille on vaikeaa, ja niiden sosiaalisten vaikutusten mittaaminen OpenAI API:n mittakaavassa on vielä vaikeampaa. Olemme tehneet useita sisäisiä tutkimuksia rakentaaksemme institutionaalista lihasta tällaiseen mittaukseen, mutta ne ovat usein herättäneet enemmän kysymyksiä kuin vastauksia.

Olemme erityisen kiinnostuneita ymmärtämään paremmin malliemme taloudellisia vaikutuksia ja niiden jakautumista. Meillä on hyvä syy uskoa, että nykyisten mallien käyttöönoton työmarkkinavaikutukset voivat olla jo absoluuttisesti merkittäviä ja että ne kasvavat malliemme kyvyn ja ulottuvuuden kasvaessa. Olemme saaneet tietää useista paikallisista vaikutuksista tähän mennessä, mukaan lukien valtavat tuottavuuden parannukset olemassa oleviin yksilöiden tekemiin tehtäviin, kuten tekstin kirjoittamiseen ja yhteenvetojen tekemiseen (joskus myötävaikuttavat työpaikkojen syrjäyttämiseen ja luomiseen), sekä tapauksista, joissa API avasi uusia sovelluksia, joita ei aiemmin ollut mahdollista toteuttaa. , kuten laajamittaisen laadullisen palautteen synteesi. Mutta meiltä puuttuu hyvä käsitys nettovaikutuksista.

Uskomme, että tehokkaiden tekoälyteknologioiden kehittäjien ja käyttöönottajien on tärkeää käsitellä työnsä myönteisiä ja negatiivisia vaikutuksia suoraan. Käsittelemme joitakin askeleita tähän suuntaan tämän viestin loppuosassa.

Tekoälyjärjestelmien turvallisuuden ja hyödyllisyyden välinen suhde

Meidän Perustamiskirja, joka julkaistiin vuonna 2018, sanomme, että "olemme huolissamme myöhäisen vaiheen AGI-kehityksestä, josta tulee kilpailukykyinen kilpailu, jolla ei ole aikaa riittäviin turvatoimiin." Me silloin julkaistu yksityiskohtaisen analyysin kilpailukykyisestä tekoälykehityksestä, ja olemme seuranneet tarkasti myöhempi tutkimusta. Samaan aikaan tekoälyjärjestelmien käyttöönotto OpenAI API:n kautta on myös syventänyt ymmärrystämme turvallisuuden ja hyödyllisyyden välisistä synergioista.

Esimerkiksi kehittäjät suosivat ylivoimaisesti InstructGPT-mallejamme, jotka on hienosäädetty seuraamaan käyttäjien aikomuksia.[7]— GPT-3-perusmallien yli. On kuitenkin huomattava, että InstructGPT-malleja ei alun perin motivoineet kaupalliset näkökohdat, vaan niiden tarkoituksena oli pikemminkin edistyä pitkällä aikavälillä. kohdistusongelmat. Käytännössä tämä tarkoittaa, että asiakkaat, ehkä ei yllättäen, pitävät paljon parempana malleja, jotka pysyvät tehtävässään ja ymmärtävät käyttäjän tarkoituksen, ja malleja, jotka eivät todennäköisesti tuota haitallisia tai virheellisiä tuloksia.[8] Muut perustutkimukset, kuten työmme tiedon hyödyntäminen Internetistä noudetulla, jotta voidaan vastata kysymyksiin totuudenmukaisemmin, on myös potentiaalia parantaa tekoälyjärjestelmien kaupallista hyödyllisyyttä.[9]

Näitä synergiaetuja ei aina synny. Esimerkiksi tehokkaammat järjestelmät vievät usein enemmän aikaa arvioida ja yhdenmukaistaa tehokkaasti, mikä sulkee välittömät mahdollisuudet voittoon. Ja käyttäjän hyödyt ja yhteiskunnan hyödyt eivät välttämättä ole kohdakkain negatiivisten ulkoisvaikutusten vuoksi – harkitse täysin automatisoitua tekstinkirjoitusta, joka voi olla hyödyllistä sisällöntuottajille mutta huonoa koko tietoekosysteemille.

On rohkaisevaa nähdä tapauksia, joissa turvallisuuden ja hyödyn välillä on vahvaa synergiaa, mutta olemme sitoutuneet investoimaan turvallisuus- ja politiikkatutkimukseen, vaikka ne korvaisivat kaupallisen hyödyn.


Olemme sitoutuneet investoimaan turvallisuuteen ja politiikkatutkimukseen, vaikka niillä olisikin kaupallinen hyöty.

Tapoja osallistua

Jokainen yllä olevista oppitunneista herättää uusia kysymyksiä. Millaisia ​​turvallisuushäiriöitä emme ehkä vielä pysty havaitsemaan ja ennakoimaan? Miten voimme paremmin mitata riskejä ja vaikutuksia? Kuinka voimme edelleen parantaa malliemme turvallisuutta ja käytettävyyttä ja löytää kompromisseja näiden kahden välillä, kun niitä ilmenee?

Keskustelemme aktiivisesti monista näistä ongelmista muiden kielimalleja käyttävien yritysten kanssa. Tiedämme kuitenkin myös, että millään organisaatiolla tai organisaatioryhmällä ei ole kaikkia vastauksia, ja haluamme korostaa useita tapoja, joilla lukijat voivat osallistua paremmin uusimpien tekoälyjärjestelmien ymmärtämiseen ja muotoiluun.

Ensinnäkin omakohtaisen kokemuksen saaminen vuorovaikutuksessa uusimpien AI-järjestelmien kanssa on korvaamatonta niiden ominaisuuksien ja seurausten ymmärtämiseksi. Lopetimme äskettäin sovellusliittymän jonotuslistan lisättyämme luottamusta kykyymme havaita tehokkaasti väärinkäyttö ja reagoida siihen. Yksilöt sisään tuetut maat ja alueet pääset nopeasti OpenAI-sovellusliittymään kirjautumalla tätä.

Toiseksi tutkijat, jotka työskentelevät meitä erityisen kiinnostavien aiheiden, kuten ennakkoluulojen ja väärinkäytön parissa ja jotka hyötyisivät taloudellisesta tuesta, voivat hakea tuettuja API-hyvityksiä käyttämällä tämä lomake. Ulkopuolinen tutkimus on elintärkeää, jotta voimme saada tietoa näistä monitahoisista järjestelmistä sekä laajemman yleisön ymmärryksen kannalta.

Lopuksi tänään julkaisemme a tutkimusohjelmaan Codex-malliperheeseemme liittyvien työmarkkinavaikutusten selvittäminen ja ulkopuolisten yhteistyökumppaneiden kutsuminen tämän tutkimuksen toteuttamiseen. Olemme innoissamme voidessamme työskennellä riippumattomien tutkijoiden kanssa tutkiaksemme teknologioidemme vaikutuksia saadaksemme tietoa asianmukaisista poliittisista interventioista ja laajentaaksemme ajatteluamme koodin luomisesta muihin menetelmiin.

Jos olet kiinnostunut työskentelemään vastuullisesti uusimpien tekoälytekniikoiden käyttöönottamiseksi, käyttää työskentelemään OpenAI:ssa!


Kiitokset

Kiitos Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov ja muut palautteen antamisesta tästä viestistä ja siihen liittyvästä työstä.


alaviitteet

  1. Tämä viesti perustuu lähestymistapaamme kielimallien käyttöönottamiseksi API:n kautta, ja siten kuvatut opetukset ja lievennykset ovat olennaisimpia niille, jotka myös harjoittavat API-pohjaista käyttöönottoa. Odotamme kuitenkin myös, että osa keskustelusta koskee niitä, jotka rakentavat ensimmäisen osapuolen sovelluksia kielimalleja käyttäen ja niille, jotka harkitsevat kielimallien avoimen lähdekoodin julkaisua. ↩︎

  2. Tämän postauksen tarkoituksena on selittää ja jakaa lähestymistapamme oppimista sen sijaan, että ehdotetaan, että kaikkien toimijoiden tulisi välttämättä omaksua sama lähestymistapa tai että samaa lähestymistapaa voidaan soveltaa kaikkiin mahdollisiin tekoälyjärjestelmiin. Eri käyttöönottomenetelmiin liittyy etuja ja kustannuksia, eri mallit hyötyvät enemmän tai vähemmän käyttöönottoa edeltäneestä tutkimuksesta, ja joissakin tapauksissa se voi olla arvokasta eri toimijoiden erilaisten käyttöönottopolkujen kannalta. ↩︎

  3. Lisätietoa tästä työpajasta sisällytetään siihen perustuvaan tulevaan julkaisuun. ↩︎

  4. Myös lievennöt, joita korostamme väärinkäytösten yhteydessä, ovat kehittyneet. Keskityimme esimerkiksi alun perin pitkän muodon tekstin luomiseen uhkavektorina, kun otetaan huomioon aikaisemmat tapaukset, joissa ihmiset kirjoittivat harhaanjohtavaa sisältöä manuaalisesti. Kun otetaan huomioon tämä painotus, asetamme luodulle tekstille enimmäistulostuspituudet. Pitkien muotojen luomista koskevan pilottitutkimuksen perusteella huomasimme kuitenkin, että tuotantorajoituksilla oli vain vähän vaikutusta käytäntörikkomuksiin – olemme sen sijaan uskoneet, että lyhyt sisältö, joka vahvistaa tai lisää sitoutumista harhaanjohtavaan sisältöön, voi olla suurempi riski. ↩︎

  5. Esimerkkejä olemassa olevien tietokokonaisuuksien rajoituksista niiden ammattilaisten näkökulmasta, jotka etsivät kokonaisvaltaista arviota todellisen kielimallin tulosten turvallisuudesta, ovat seuraavat: liian kapea fokus (esim. vain ammatillisen sukupuoliharhan mittaaminen), liian laaja fokus (esim. kaiken mittaaminen "myrkyllisyyden" alla, taipumus abstraktistaa pois käytön ja kontekstin erityispiirteet, epäonnistuminen generatiivinen kielimallin käytön ulottuvuus (esim. monivalintatyylin käyttö), kehotteet, jotka eroavat tyylillisesti todellisissa kielimallin käyttötapauksissa tyypillisesti käytetyistä, eivät ota huomioon käytännössä tärkeitä turvallisuusulottuvuuksia (esim. motivoitunut rajoitus ohjeessa) tai hylätä sellaisten tulosteiden tyypit, jotka olemme havainneet korreloivan väärinkäytön kanssa (esim. eroottinen sisältö). ↩︎

  6. Vaikka ponnistelumme on erityisesti suunnattu olemassa olevien vertailuarvojen ja omien malliemme rajoitusten korjaamiseen, tunnustamme myös, että käyttämillemme menetelmille, kuten luokitinpohjaiselle tietojen suodatukselle, on rajoituksia. Esimerkiksi niiden sisältöalueiden toiminnallinen määrittäminen, jotka pyrimme havaitsemaan suodatuksella, on haastavaa, ja suodatus itsessään voi aiheuttaa haitallisia harhoja. Lisäksi myrkyllisten tietojen merkitseminen on kriittinen osa tätä työtä, ja näiden leimaajien mielenterveyden varmistaminen on alan laajuinen haaste. ↩︎

  7. Sovellusliittymämme relevantti "käyttäjä" voi kontekstista riippuen olla sovellusta rakentava kehittäjä tai tällaisen sovelluksen kanssa vuorovaikutuksessa oleva loppukäyttäjä. Kohdistettujen malliemme heijastamista arvoista on syvällisiä kysymyksiä, ja toivomme rakentavamme vivahteikkaamman ymmärryksen siitä, kuinka tasapainottaa laajan valikoiman mahdollisten käyttäjien arvot ja kilpailevat tavoitteet, kun kielimalleja kohdistetaan hyödyllisemmiksi, totuudenmukaisemmiksi ja vähemmän haitallisiksi. ↩︎

  8. Kohdistetuilla malleilla on myös enemmän käytännön etuja, kuten "nopea suunnittelun" tarve vähentäminen (esimerkkejä halutusta käyttäytymisestä mallin ohjaamiseksi oikeaan suuntaan), säästää tilaa mallin kontekstiikkunassa, jota voidaan käyttää muihin tarkoituksiin. ↩︎

  9. Tutkimuksen lisäksi olemme havainneet, että muilla turvallisuuteen liittyvillä toimenpiteillä on joskus odottamattomia etuja asiakkaille. Esimerkiksi roskapostin tai harhaanjohtavan sisällön hillitsemiseen tarkoitetut hintarajoitukset auttavat asiakkaita hallitsemaan kulujaan. ↩︎

Aikaleima:

Lisää aiheesta OpenAI