Keelemudeli ohutuse ja PlatoBlockchaini andmeluure väärkasutuse kohta saadud õppetunnid. Vertikaalne otsing. Ai.

Keelemudeli ohutuse ja väärkasutuse õppetunnid

Keelemudeli ohutuse ja väärkasutuse õppetunnid

Võimsate tehisintellektisüsteemide kasutuselevõtt on rikastanud meie arusaamist ohutusest ja väärkasutusest palju rohkem, kui see oleks olnud võimalik üksnes uurimistööga. Eelkõige:

  • API-põhise keelemudeli väärkasutus esineb sageli erinevates vormides, kui me kõige rohkem kartsime.
  • Oleme tuvastanud olemasolevate keelemudelite hindamiste piirangud, mida käsitleme uudsete võrdlusaluste ja klassifikaatoritega.
  • Põhilised ohutusuuringud pakuvad tehisintellektisüsteemide kaubanduslikule kasulikkusele märkimisväärset kasu.

Siin kirjeldame oma uusimaid mõtteid lootuses aidata teistel tehisintellekti arendajatel tegeleda ohutuse ja juurutatud mudelite väärkasutusega.


Oviimase kahe aasta jooksul, oleme palju õppinud keelemudelite kasutamise ja kuritarvitamise kohta – teadmisi, mida me poleks saanud ilma tegeliku juurutamise kogemuseta. 2020. aasta juunis alustasime arendajatele ja teadlastele juurdepääsu andmist OpenAI API, liides rakendustele juurdepääsuks ja nende loomiseks OpenAI välja töötatud uutele AI mudelitele. GPT-3, Codexi ja muude mudelite kasutuselevõtt viisil, mis vähendab kahju tekitamise riske, on tekitanud mitmeid tehnilisi ja poliitilisi väljakutseid.

Meie mudeli juurutamise lähenemisviisi ülevaade

Suured keelemudelid on nüüd võimelised sooritama a väga lai valik ülesandeid, sageli karbist välja võetud. Nende riskiprofiilid, võimalikud rakendused ja laiem mõju ühiskonnale jääma halvasti arusaadav. Selle tulemusena rõhutab meie juurutamisviis pidevat iteratsiooni ja kasutab järgmisi strateegiaid, mille eesmärk on maksimeerida kasutuselevõtust saadavat kasu, vähendades samas sellega seotud riske.

  • Kasutuselevõtueelne riskianalüüs, kasutades kasvavat ohutushinnangute komplekti ja punaseid meeskonnatöö tööriistu (nt kontrollisime hindamiste abil oma InstructGPT-d ohutuse halvenemise osas arutatakse allpool)
  • Alustades väikesest kasutajaskonnast (nt nii GPT-3 kui ka meie Juhenda GPT sari algas privaatse beetaversioonina)
  • Uudsete kasutusjuhtude pilootprojektide tulemuste uurimine (nt tingimuste uurimine, mille korral saaksime ohutult võimaldada pikaajalist sisu genereerimist, töötades väikese arvu klientidega)
  • Protsesside rakendamine, mis aitavad kasutamisega kursis olla (nt kasutusjuhtude ülevaatamine, märgikvoodid ja piirangud)
  • Üksikasjalike tagasiulatuvate ülevaadete läbiviimine (nt ohutusjuhtumite ja suuremate kasutuselevõttude kohta)
Keelemudeli ohutuse ja väärkasutuse õppetunnid


Pange tähele, et selle diagrammi eesmärk on visuaalselt väljendada vajadust tagasisideahelate järele pidevas mudeli arendamise ja kasutuselevõtu protsessis ning asjaolu, et ohutus tuleb igas etapis integreerida. Selle eesmärk ei ole anda edasi täielikku või ideaalset pilti meie või mõne muu organisatsiooni protsessist.

Vastutustundliku kasutuselevõtu jaoks ei ole hõbekuuli, seega püüame igas arenduse ja kasutuselevõtu etapis õppida tundma oma mudelite piiranguid ja võimalikke väärkasutuse võimalusi ning neid käsitleda. See lähenemisviis võimaldab meil õppida võimalikult palju ohutus- ja poliitikaprobleemide kohta väikeses ulatuses ning võtta need teadmised enne suuremahulise kasutuselevõttu kasutusele.


Vastutustundlikuks kasutuselevõtuks pole hõbekuuli.

Kuigi see pole ammendav, hõlmavad mõned valdkonnad, kuhu oleme seni investeerinud[1]:

Kuna igal sekkumise etapil on piirangud, on vajalik terviklik lähenemine.

On valdkondi, kus oleksime saanud rohkem ära teha ja kus meil on veel arenguruumi. Näiteks kui me esimest korda GPT-3 kallal töötasime, pidasime seda pigem sisemiseks uurimisartefaktiks kui tootmissüsteemiks ja ei olnud toksiliste treeningandmete välja filtreerimisel nii agressiivsed, nagu oleksime muidu olnud. Oleme rohkem investeerinud sellise materjali uurimisse ja eemaldamisse järgmiste mudelite jaoks. Meil on kulunud kauem aega, et käsitleda mõningaid väärkasutuse juhtumeid, kui meil ei olnud selle teema kohta selgeid eeskirju, ja oleme saanud nende eeskirjade kordamise paremaks. Ja me jätkame tegevust ohutusnõuete paketi suunas, mis on riskide käsitlemisel maksimaalselt tõhus, kuid on ka arendajatele selgelt edastatud ja vähendab liigset hõõrdumist.

Sellegipoolest usume, et meie lähenemisviis on võimaldanud meil mõõta ja vähendada erinevat tüüpi keelemudeli kasutamisest tulenevaid kahjusid võrreldes vabama lähenemisviisiga, võimaldades samal ajal meie laia valikut teaduslikke, kunstilisi ja ärilisi rakendusi. mudelid.[2]

Keelemudeli väärkasutuse mitmesugused kujud ja suurused

OpenAI on aktiivselt uurinud tehisintellekti väärkasutuse riske alates meie varasest tööst AI pahatahtlik kasutamine aastal 2018 ja GPT-2 peal 2019. aastal ja oleme pööranud erilist tähelepanu AI-süsteemidele, mis võimaldavad mõjutada toiminguid. Meil on töötas koos väliseksperte kontseptsiooni tõestused ja edutati ettevaatlik analüüs selliste riskide eest kolmandate isikute poolt. Oleme jätkuvalt pühendunud keelemudelil põhinevate mõjutusoperatsioonidega seotud riskide käsitlemisele ja korraldasime hiljuti selleteemalise seminari.[3]

Ometi oleme avastanud ja peatanud sadu osalejaid, kes üritavad GPT-3 kuritarvitada palju laiematel eesmärkidel kui desinformatsiooni tekitamiseks mõjutamisoperatsioonide jaoks, sealhulgas viisil, mida me kas ei osanud ette näha või mida me eeldasime, kuid ei oodanud. nii levinud.[4] Meie kasutusjuhised, sisujuhised, ning sisemine tuvastamise ja reageerimise infrastruktuur oli algselt orienteeritud riskidele, mida me sise- ja välisuuringute põhjal prognoosisime, nagu eksitava poliitilise sisu loomine GPT-3 abil või pahavara loomine Codexiga. Meie avastamis- ja reageerimisalased jõupingutused on aja jooksul arenenud vastuseks reaalsetele väärkasutuse juhtumitele, mis ilmnesid "looduses", mis ei olnud meie esialgsetes riskihinnangutes nii silmapaistvalt esile kui mõjutanud toiminguid. Näited hõlmavad kahtlaste meditsiinitoodete rämpspostireklaame ja rassistlike fantaasiate rollimänge.

Keelemudeli väärkasutuse uurimise ja selle leevendamise toetamiseks uurime sel aastal aktiivselt võimalusi ohutusjuhtumite statistika jagamiseks, et konkretiseerida arutelusid keelemudeli väärkasutuse üle.

Riski ja mõju mõõtmise raskus

Keelemudelite riskide ja mõjude paljusid aspekte on endiselt raske mõõta ning seetõttu on neid raske jälgida, minimeerida ja vastutustundlikul viisil avalikustada. Oleme keelemudelite hindamiseks aktiivselt kasutanud olemasolevaid akadeemilisi võrdlusaluseid ja soovime jätkata välistööga, kuid oleme ka avastanud, et olemasolevad võrdlusaluste andmestikud ei peegelda sageli praktikas esinevaid ohutus- ja väärkasutuse riske.[5]

Sellised piirangud peegeldavad tõsiasja, et akadeemilisi andmekogumeid luuakse harva selgesõnalise eesmärgiga teavitada keelemudelite tootmiskasutusest ja need ei kasuta kasu selliste mudelite ulatuslikust kasutuselevõtust saadud kogemustest. Selle tulemusena oleme välja töötanud uusi hindamisandmekogumeid ja raamistikke oma mudelite ohutuse mõõtmiseks, mis plaanime peagi avaldada. Täpsemalt oleme välja töötanud uued hindamismõõdikud toksilisuse mõõtmiseks mudeliväljundites ning samuti oleme välja töötanud ettevõttesisesed klassifikaatorid sisu tuvastamiseks, mis rikub meie eeskirju. sisupoliitika, nagu erootiline sisu, vihakõne, vägivald, ahistamine ja enesevigastamine. Neid mõlemaid on omakorda kasutatud ka meie koolituseelsete andmete parandamiseks[6]— täpsemalt klassifikaatorite abil sisu välja filtreerimiseks ja hindamismõõdikute abil, et mõõta andmekogumi sekkumiste mõju.

Üksikute mudeliväljundite usaldusväärne klassifitseerimine erinevate mõõtmete järgi on keeruline ja nende sotsiaalse mõju mõõtmine OpenAI API skaalal on veelgi raskem. Oleme läbi viinud mitmeid siseuuringuid, et luua selliseks mõõtmiseks institutsionaalset lihast, kuid need on sageli tekitanud rohkem küsimusi kui vastuseid.

Oleme eriti huvitatud meie mudelite majandusliku mõju ja nende mõjude jaotuse paremaks mõistmisest. Meil on põhjust arvata, et praeguste mudelite kasutuselevõtust tulenevad tööturumõjud võivad olla juba absoluutarvudes olulised ning kasvavad meie mudelite võimekuse ja haarde kasvades. Oleme tänaseks teada saanud mitmesugustest kohalikest efektidest, sealhulgas inimeste tehtud olemasolevate ülesannete (nt tekstide kirjutamine ja kokkuvõtete tegemine (mõnikord aidates kaasa töökohtade ümberpaigutamisele ja loomisele) tootlikkuse tohutust paranemisest, samuti juhtudest, kus API avas uusi rakendusi, mis varem olid võimatud. , nagu näiteks suuremahulise kvalitatiivse tagasiside süntees. Kuid meil puudub hea arusaam netomõjudest.

Usume, et võimsate AI-tehnoloogiate arendajatel ja juurutajatel on oluline tegeleda nii oma töö positiivsete kui ka negatiivsete mõjudega. Arutame selle postituse lõpuosas mõningaid samme selles suunas.

AI-süsteemide ohutuse ja kasulikkuse suhe

Meie Põhikiri, mis avaldati 2018. aastal, ütleme, et „oleme mures selle pärast, et AGI hilises staadiumis arendamine muutub konkurentsivõimeliseks võidusõiduks, millel pole piisavalt aega piisavate ohutusmeetmete jaoks.” Meie siis avaldatud konkurentsivõimelise tehisintellekti arendamise üksikasjalik analüüs ja oleme seda tähelepanelikult jälginud järgnev uurimine. Samal ajal on tehisintellektisüsteemide juurutamine OpenAI API kaudu süvendanud ka meie arusaamist ohutuse ja kasulikkuse sünergiast.

Näiteks eelistavad arendajad valdavalt meie InstructGPT mudeleid, mis on täpselt häälestatud kasutaja kavatsuste järgimiseks.[7]— üle GPT-3 baasmudelite. Nimelt ei olnud InstructGPT mudelid algselt ajendatud ärilistest kaalutlustest, vaid nende eesmärk oli teha edusamme pikaajalises perspektiivis. joondamise probleemid. Praktikas tähendab see, et kliendid eelistavad ehk mitte üllatavalt palju mudeleid, mis jäävad ülesandega täitma ja mõistavad kasutaja kavatsusi, ning mudeleid, mis toodavad vähem tõenäoliselt kahjulikke või ebaõigeid tulemusi.[8] Muud alusuuringud, näiteks meie töö teabe võimendamine Internetist otsitud, et vastata küsimustele tõesemalt, on ka potentsiaali parandada tehisintellektisüsteemide ärilist kasulikkust.[9]

Seda sünergiat ei teki alati. Näiteks kulub võimsamate süsteemide tõhusaks hindamiseks ja joondamiseks sageli rohkem aega, välistades kohesed kasumivõimalused. Ja kasutaja kasulikkus ja ühiskonna kasulikkus ei pruugi negatiivsete välismõjude tõttu ühtida – mõelge täielikult automatiseeritud tekstikirjutamisele, mis võib olla kasulik sisuloojatele, kuid kahjulik kogu infoökosüsteemile.

On julgustav näha juhtumeid, kus ohutuse ja kasulikkuse vahel tekib tugev sünergia, kuid oleme pühendunud ohutuse ja poliitikauuringutesse investeerimisele isegi siis, kui need kompenseerivad kaubanduslikku kasulikkust.


Oleme pühendunud investeerimisele ohutus- ja poliitikauuringutesse isegi siis, kui need on kaubandusliku kasulikkuse vastu.

Kaasamise viisid

Iga ülaltoodud õppetund tõstatab uusi küsimusi. Milliseid ohutusjuhtumeid me ikkagi ei suuda tuvastada ega ette näha? Kuidas saaksime riske ja mõjusid paremini mõõta? Kuidas saame jätkata oma mudelite ohutuse ja kasulikkuse parandamist ning leida nende kahe vahel kompromisse, kui need tekivad?

Arutame aktiivselt paljusid neist probleemidest teiste keelemudeleid juurutavate ettevõtetega. Kuid me teame ka, et ühelgi organisatsioonil ega organisatsioonide rühmal pole kõiki vastuseid, ja sooviksime rõhutada mitmeid viise, kuidas lugejad saaksid rohkem kaasata meie nüüdisaegsete tehisintellektisüsteemide mõistmisse ja kasutuselevõtmisse.

Esiteks on tipptasemel tehisintellektisüsteemidega suhtlemisel vahetu kogemuse saamine nende võimaluste ja tagajärgede mõistmiseks hindamatu. Lõpetasime hiljuti API ootenimekirja pärast seda, kui suurendasime usaldust oma võime suhtes väärkasutust tõhusalt tuvastada ja sellele reageerida. Üksikud sisse toetatud riigid ja territooriumid registreerudes pääseb kiiresti juurde OpenAI API-le siin.

Teiseks saavad teadlased, kes tegelevad meile erilist huvi pakkuvate teemadega, nagu eelarvamus ja väärkasutus, ning kes saaksid kasu rahalisest toetusest, taotleda subsideeritud API krediite, kasutades Selle vormi. Välisuuringud on üliolulised, et teavitada nii meie arusaamist nendest mitmetahulistest süsteemidest kui ka laiemast avalikkusest.

Lõpuks avaldame täna a teadusuuringute kava meie Codexi mudeliperekonnaga seotud tööturumõjude uurimine ja üleskutse selle uuringu läbiviimiseks väliste kaastöötajate poole. Meil on hea meel teha koostööd sõltumatute teadlastega, et uurida meie tehnoloogiate mõju, et anda teavet asjakohaste poliitiliste sekkumiste kohta ja lõpuks laiendada oma mõtlemist koodi genereerimiselt muudele viisidele.

Kui olete huvitatud tipptasemel tehisintellekti tehnoloogiate vastutustundlikust kasutuselevõtust, kohaldada OpenAI-sse tööle!


Tunnustused

Aitäh Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov ja teised selle postituse ja sellega seotud töö kohta tagasiside andmise eest.


Allmärkused

  1. See postitus põhineb meie lähenemisviisil keelemudelite juurutamisel API kaudu ning seetõttu on kirjeldatud õppetunnid ja leevendused kõige asjakohasemad neile, kes kasutavad ka API-põhist juurutamist. Siiski eeldame, et osa arutelust on asjakohane ka neile, kes loovad keelemudeleid kasutavaid esimese osapoole rakendusi, ja neile, kes kaaluvad keelemudelite avatud lähtekoodiga väljalaskmist. ↩︎

  2. Selle postituse eesmärk on selgitada ja jagada meie lähenemisviisist saadud teadmisi, mitte soovitada, et kõik osalejad peaksid tingimata kasutama sama lähenemisviisi või et sama lähenemisviis oleks rakendatav kõigi võimalike tehisintellektisüsteemide jaoks. Erinevate kasutuselevõtuviisidega on seotud kasu ja kulud, erinevad mudelid saavad suuremal või vähemal määral kasu kasutuselevõtule eelnevast uuringust ning mõnel juhul võib see olla kasulik erinevatele osalejatele erinevate kasutuselevõtuviiside jaoks. ↩︎

  3. Lisateavet selle töötoa kohta lisatakse selle põhjal ilmuvas väljaandes. ↩︎

  4. Samuti on arenenud leevendusmeetmed, mida me väärkasutuse korral rõhutame. Näiteks keskendusime algselt pikas vormis teksti genereerimisele kui ohuvektorile, võttes arvesse varasemaid mõjutusoperatsioone, mille käigus inimesed kirjutasid käsitsi pikas vormis eksitavat sisu. Arvestades seda rõhuasetust, määrame loodud teksti jaoks maksimaalsed väljundpikkused. Pika vormi loomise pilootuuringu põhjal nägime aga, et väljundpiirangutel oli eeskirjade rikkumistele väike mõju – oleme selle asemel hakanud uskuma, et suurem risk võib olla lühivormis sisu, mis võimendab või suurendab seotust eksitava sisuga. ↩︎

  5. Näited olemasolevate andmekogumite piirangutest praktikute vaatenurgast, kes otsivad reaalse keelemudeli väljundite ohutuse terviklikku hindamist, on järgmised: liiga kitsas fookus (nt lihtsalt ametialase soolise eelarvamuse mõõtmine), liiga lai fookus (nt mõõtmine kõike "toksilisuse" all, kalduvus kasutuse spetsiifikast ja kontekstist eemale võtta, suutmatus mõõta generatiivne keelemudeli kasutamise mõõde (nt valikvastustega stiili kasutamine), viipad, mis erinevad stilistiliselt neist, mida tavaliselt kasutatakse reaalses keelemudeli kasutusjuhtudes, mis ei hõlma praktikas olulisi ohutuse mõõtmeid (nt väljund, mis järgneb või ignoreerib ohutus- motiveeritud piirangud juhistes) või mitte jäädvustada selliseid väljundeid, mis on meie arvates seotud väärkasutusega (nt erootiline sisu). ↩︎

  6. Kuigi meie jõupingutused on suunatud konkreetselt olemasolevate võrdlusnäitajate ja oma mudelite piirangute kõrvaldamisele, tunnistame ka seda, et kasutatavatel meetoditel, nagu klassifikaatoripõhine andmete filtreerimine, on piirangud. Näiteks sisupiirkondade operatiivne määratlemine, mida me filtreerimise abil tuvastame, on keeruline ja filtreerimine ise võib põhjustada kahjulikke eelarvamusi. Lisaks on mürgiste andmete märgistamine selle töö kriitiline komponent ja nende märgistajate vaimse tervise tagamine on kogu tööstusharu hõlmav väljakutse. ↩︎

  7. Meie API asjakohane "kasutaja" võib olenevalt kontekstist olla rakendust loov arendaja või sellise rakendusega suhtlev lõppkasutaja. On sügavaid küsimusi väärtuste kohta, mida meie joondatud mudelid kajastavad, ja loodame luua nüansirikkama arusaama sellest, kuidas tasakaalustada paljude võimalike kasutajate väärtusi ja konkureerivaid eesmärke, kui kohandada keelemudeleid nii, et need oleksid kasulikumad, tõesemad ja vähem kahjulikud. ↩︎

  8. Joondatud mudelitel on ka rohkem praktilisi eeliseid, nagu näiteks „kiire inseneri” vajaduse vähendamine (näiteid soovitava käitumise kohta mudeli õiges suunas juhtimiseks), ruumi säästmine mudeli kontekstiaknas, mida saab kasutada muudel eesmärkidel. ↩︎

  9. Lisaks uuringutele oleme avastanud, et muudel ohutusega seotud sekkumistel on mõnikord klientidele ootamatu kasu. Näiteks rämpsposti või eksitava sisu ohjeldamiseks mõeldud piirangud aitavad klientidel kulusid kontrolli all hoida. ↩︎

Ajatempel:

Veel alates OpenAI