Keelemudeli ohutuse ja väärkasutuse õppetunnid

Taasavaldanud Platon

järgijaid: 0

Keelemudeli ohutuse ja väärkasutuse õppetunnid

Võimsate tehisintellektisüsteemide kasutuselevõtt on rikastanud meie arusaamist ohutusest ja väärkasutusest palju rohkem, kui see oleks olnud võimalik üksnes uurimistööga. Eelkõige:

API-põhise keelemudeli väärkasutus esineb sageli erinevates vormides, kui me kõige rohkem kartsime.
Oleme tuvastanud olemasolevate keelemudelite hindamiste piirangud, mida käsitleme uudsete võrdlusaluste ja klassifikaatoritega.
Põhilised ohutusuuringud pakuvad tehisintellektisüsteemide kaubanduslikule kasulikkusele märkimisväärset kasu.

Siin kirjeldame oma uusimaid mõtteid lootuses aidata teistel tehisintellekti arendajatel tegeleda ohutuse ja juurutatud mudelite väärkasutusega.

Oviimase kahe aasta jooksul, oleme palju õppinud keelemudelite kasutamise ja kuritarvitamise kohta – teadmisi, mida me poleks saanud ilma tegeliku juurutamise kogemuseta. 2020. aasta juunis alustasime arendajatele ja teadlastele juurdepääsu andmist OpenAI API, liides rakendustele juurdepääsuks ja nende loomiseks OpenAI välja töötatud uutele AI mudelitele. GPT-3, Codexi ja muude mudelite kasutuselevõtt viisil, mis vähendab kahju tekitamise riske, on tekitanud mitmeid tehnilisi ja poliitilisi väljakutseid.

Meie mudeli juurutamise lähenemisviisi ülevaade

Suured keelemudelid on nüüd võimelised sooritama a väga lai valik ülesandeid, sageli karbist välja võetud. Nende riskiprofiilid, võimalikud rakendused ja laiem mõju ühiskonnale jääma halvasti arusaadav. Selle tulemusena rõhutab meie juurutamisviis pidevat iteratsiooni ja kasutab järgmisi strateegiaid, mille eesmärk on maksimeerida kasutuselevõtust saadavat kasu, vähendades samas sellega seotud riske.

Kasutuselevõtueelne riskianalüüs, kasutades kasvavat ohutushinnangute komplekti ja punaseid meeskonnatöö tööriistu (nt kontrollisime hindamiste abil oma InstructGPT-d ohutuse halvenemise osas arutatakse allpool)
Alustades väikesest kasutajaskonnast (nt nii GPT-3 kui ka meie Juhenda GPT sari algas privaatse beetaversioonina)
Uudsete kasutusjuhtude pilootprojektide tulemuste uurimine (nt tingimuste uurimine, mille korral saaksime ohutult võimaldada pikaajalist sisu genereerimist, töötades väikese arvu klientidega)
Protsesside rakendamine, mis aitavad kasutamisega kursis olla (nt kasutusjuhtude ülevaatamine, märgikvoodid ja piirangud)
Üksikasjalike tagasiulatuvate ülevaadete läbiviimine (nt ohutusjuhtumite ja suuremate kasutuselevõttude kohta)

Keelemudeli ohutuse ja väärkasutuse õppetunnid

Pange tähele, et selle diagrammi eesmärk on visuaalselt väljendada vajadust tagasisideahelate järele pidevas mudeli arendamise ja kasutuselevõtu protsessis ning asjaolu, et ohutus tuleb igas etapis integreerida. Selle eesmärk ei ole anda edasi täielikku või ideaalset pilti meie või mõne muu organisatsiooni protsessist.

Vastutustundliku kasutuselevõtu jaoks ei ole hõbekuuli, seega püüame igas arenduse ja kasutuselevõtu etapis õppida tundma oma mudelite piiranguid ja võimalikke väärkasutuse võimalusi ning neid käsitleda. See lähenemisviis võimaldab meil õppida võimalikult palju ohutus- ja poliitikaprobleemide kohta väikeses ulatuses ning võtta need teadmised enne suuremahulise kasutuselevõttu kasutusele.

Vastutustundlikuks kasutuselevõtuks pole hõbekuuli.

Kuigi see pole ammendav, hõlmavad mõned valdkonnad, kuhu oleme seni investeerinud^[1]:

Eelkoolitus andmed kureerimine ja filtreerimine
Peenhäälestus mudelid paremaks järgige juhiseid
Võimalike kasutuselevõtu riskianalüüs
Üksikasjaliku kasutaja pakkumine dokumentatsioon
Ehitus töövahendid kahjulike mudeliväljundite kuvamiseks
Kasutusjuhtumite ülevaatamine meie vastu Poliitika
Märkide jälgimine kuritarvitamine
Õppimine meie mudelite mõju

Kuna igal sekkumise etapil on piirangud, on vajalik terviklik lähenemine.

On valdkondi, kus oleksime saanud rohkem ära teha ja kus meil on veel arenguruumi. Näiteks kui me esimest korda GPT-3 kallal töötasime, pidasime seda pigem sisemiseks uurimisartefaktiks kui tootmissüsteemiks ja ei olnud toksiliste treeningandmete välja filtreerimisel nii agressiivsed, nagu oleksime muidu olnud. Oleme rohkem investeerinud sellise materjali uurimisse ja eemaldamisse järgmiste mudelite jaoks. Meil on kulunud kauem aega, et käsitleda mõningaid väärkasutuse juhtumeid, kui meil ei olnud selle teema kohta selgeid eeskirju, ja oleme saanud nende eeskirjade kordamise paremaks. Ja me jätkame tegevust ohutusnõuete paketi suunas, mis on riskide käsitlemisel maksimaalselt tõhus, kuid on ka arendajatele selgelt edastatud ja vähendab liigset hõõrdumist.

Sellegipoolest usume, et meie lähenemisviis on võimaldanud meil mõõta ja vähendada erinevat tüüpi keelemudeli kasutamisest tulenevaid kahjusid võrreldes vabama lähenemisviisiga, võimaldades samal ajal meie laia valikut teaduslikke, kunstilisi ja ärilisi rakendusi. mudelid.^[2]

Keelemudeli väärkasutuse mitmesugused kujud ja suurused

OpenAI on aktiivselt uurinud tehisintellekti väärkasutuse riske alates meie varasest tööst AI pahatahtlik kasutamine aastal 2018 ja GPT-2 peal 2019. aastal ja oleme pööranud erilist tähelepanu AI-süsteemidele, mis võimaldavad mõjutada toiminguid. Meil on töötas koos väliseksperte kontseptsiooni tõestused ja edutati ettevaatlik analüüs selliste riskide eest kolmandate isikute poolt. Oleme jätkuvalt pühendunud keelemudelil põhinevate mõjutusoperatsioonidega seotud riskide käsitlemisele ja korraldasime hiljuti selleteemalise seminari.^[3]

Ometi oleme avastanud ja peatanud sadu osalejaid, kes üritavad GPT-3 kuritarvitada palju laiematel eesmärkidel kui desinformatsiooni tekitamiseks mõjutamisoperatsioonide jaoks, sealhulgas viisil, mida me kas ei osanud ette näha või mida me eeldasime, kuid ei oodanud. nii levinud.^[4] Meie kasutusjuhised, sisujuhised, ning sisemine tuvastamise ja reageerimise infrastruktuur oli algselt orienteeritud riskidele, mida me sise- ja välisuuringute põhjal prognoosisime, nagu eksitava poliitilise sisu loomine GPT-3 abil või pahavara loomine Codexiga. Meie avastamis- ja reageerimisalased jõupingutused on aja jooksul arenenud vastuseks reaalsetele väärkasutuse juhtumitele, mis ilmnesid "looduses", mis ei olnud meie esialgsetes riskihinnangutes nii silmapaistvalt esile kui mõjutanud toiminguid. Näited hõlmavad kahtlaste meditsiinitoodete rämpspostireklaame ja rassistlike fantaasiate rollimänge.

Keelemudeli väärkasutuse uurimise ja selle leevendamise toetamiseks uurime sel aastal aktiivselt võimalusi ohutusjuhtumite statistika jagamiseks, et konkretiseerida arutelusid keelemudeli väärkasutuse üle.

Riski ja mõju mõõtmise raskus

Keelemudelite riskide ja mõjude paljusid aspekte on endiselt raske mõõta ning seetõttu on neid raske jälgida, minimeerida ja vastutustundlikul viisil avalikustada. Oleme keelemudelite hindamiseks aktiivselt kasutanud olemasolevaid akadeemilisi võrdlusaluseid ja soovime jätkata välistööga, kuid oleme ka avastanud, et olemasolevad võrdlusaluste andmestikud ei peegelda sageli praktikas esinevaid ohutus- ja väärkasutuse riske.^[5]

Sellised piirangud peegeldavad tõsiasja, et akadeemilisi andmekogumeid luuakse harva selgesõnalise eesmärgiga teavitada keelemudelite tootmiskasutusest ja need ei kasuta kasu selliste mudelite ulatuslikust kasutuselevõtust saadud kogemustest. Selle tulemusena oleme välja töötanud uusi hindamisandmekogumeid ja raamistikke oma mudelite ohutuse mõõtmiseks, mis plaanime peagi avaldada. Täpsemalt oleme välja töötanud uued hindamismõõdikud toksilisuse mõõtmiseks mudeliväljundites ning samuti oleme välja töötanud ettevõttesisesed klassifikaatorid sisu tuvastamiseks, mis rikub meie eeskirju. sisupoliitika, nagu erootiline sisu, vihakõne, vägivald, ahistamine ja enesevigastamine. Neid mõlemaid on omakorda kasutatud ka meie koolituseelsete andmete parandamiseks^[6]— täpsemalt klassifikaatorite abil sisu välja filtreerimiseks ja hindamismõõdikute abil, et mõõta andmekogumi sekkumiste mõju.

Üksikute mudeliväljundite usaldusväärne klassifitseerimine erinevate mõõtmete järgi on keeruline ja nende sotsiaalse mõju mõõtmine OpenAI API skaalal on veelgi raskem. Oleme läbi viinud mitmeid siseuuringuid, et luua selliseks mõõtmiseks institutsionaalset lihast, kuid need on sageli tekitanud rohkem küsimusi kui vastuseid.

Oleme eriti huvitatud meie mudelite majandusliku mõju ja nende mõjude jaotuse paremaks mõistmisest. Meil on põhjust arvata, et praeguste mudelite kasutuselevõtust tulenevad tööturumõjud võivad olla juba absoluutarvudes olulised ning kasvavad meie mudelite võimekuse ja haarde kasvades. Oleme tänaseks teada saanud mitmesugustest kohalikest efektidest, sealhulgas inimeste tehtud olemasolevate ülesannete (nt tekstide kirjutamine ja kokkuvõtete tegemine (mõnikord aidates kaasa töökohtade ümberpaigutamisele ja loomisele) tootlikkuse tohutust paranemisest, samuti juhtudest, kus API avas uusi rakendusi, mis varem olid võimatud. , nagu näiteks suuremahulise kvalitatiivse tagasiside süntees. Kuid meil puudub hea arusaam netomõjudest.

Usume, et võimsate AI-tehnoloogiate arendajatel ja juurutajatel on oluline tegeleda nii oma töö positiivsete kui ka negatiivsete mõjudega. Arutame selle postituse lõpuosas mõningaid samme selles suunas.

AI-süsteemide ohutuse ja kasulikkuse suhe

Meie Põhikiri, mis avaldati 2018. aastal, ütleme, et „oleme mures selle pärast, et AGI hilises staadiumis arendamine muutub konkurentsivõimeliseks võidusõiduks, millel pole piisavalt aega piisavate ohutusmeetmete jaoks.” Meie siis avaldatud konkurentsivõimelise tehisintellekti arendamise üksikasjalik analüüs ja oleme seda tähelepanelikult jälginud järgnev uurimine. Samal ajal on tehisintellektisüsteemide juurutamine OpenAI API kaudu süvendanud ka meie arusaamist ohutuse ja kasulikkuse sünergiast.

Näiteks eelistavad arendajad valdavalt meie InstructGPT mudeleid, mis on täpselt häälestatud kasutaja kavatsuste järgimiseks.^[7]— üle GPT-3 baasmudelite. Nimelt ei olnud InstructGPT mudelid algselt ajendatud ärilistest kaalutlustest, vaid nende eesmärk oli teha edusamme pikaajalises perspektiivis. joondamise probleemid. Praktikas tähendab see, et kliendid eelistavad ehk mitte üllatavalt palju mudeleid, mis jäävad ülesandega täitma ja mõistavad kasutaja kavatsusi, ning mudeleid, mis toodavad vähem tõenäoliselt kahjulikke või ebaõigeid tulemusi.^[8] Muud alusuuringud, näiteks meie töö teabe võimendamine Internetist otsitud, et vastata küsimustele tõesemalt, on ka potentsiaali parandada tehisintellektisüsteemide ärilist kasulikkust.^[9]

Seda sünergiat ei teki alati. Näiteks kulub võimsamate süsteemide tõhusaks hindamiseks ja joondamiseks sageli rohkem aega, välistades kohesed kasumivõimalused. Ja kasutaja kasulikkus ja ühiskonna kasulikkus ei pruugi negatiivsete välismõjude tõttu ühtida – mõelge täielikult automatiseeritud tekstikirjutamisele, mis võib olla kasulik sisuloojatele, kuid kahjulik kogu infoökosüsteemile.

On julgustav näha juhtumeid, kus ohutuse ja kasulikkuse vahel tekib tugev sünergia, kuid oleme pühendunud ohutuse ja poliitikauuringutesse investeerimisele isegi siis, kui need kompenseerivad kaubanduslikku kasulikkust.

Oleme pühendunud investeerimisele ohutus- ja poliitikauuringutesse isegi siis, kui need on kaubandusliku kasulikkuse vastu.

Kaasamise viisid

Iga ülaltoodud õppetund tõstatab uusi küsimusi. Milliseid ohutusjuhtumeid me ikkagi ei suuda tuvastada ega ette näha? Kuidas saaksime riske ja mõjusid paremini mõõta? Kuidas saame jätkata oma mudelite ohutuse ja kasulikkuse parandamist ning leida nende kahe vahel kompromisse, kui need tekivad?

Arutame aktiivselt paljusid neist probleemidest teiste keelemudeleid juurutavate ettevõtetega. Kuid me teame ka, et ühelgi organisatsioonil ega organisatsioonide rühmal pole kõiki vastuseid, ja sooviksime rõhutada mitmeid viise, kuidas lugejad saaksid rohkem kaasata meie nüüdisaegsete tehisintellektisüsteemide mõistmisse ja kasutuselevõtmisse.

Esiteks on tipptasemel tehisintellektisüsteemidega suhtlemisel vahetu kogemuse saamine nende võimaluste ja tagajärgede mõistmiseks hindamatu. Lõpetasime hiljuti API ootenimekirja pärast seda, kui suurendasime usaldust oma võime suhtes väärkasutust tõhusalt tuvastada ja sellele reageerida. Üksikud sisse toetatud riigid ja territooriumid registreerudes pääseb kiiresti juurde OpenAI API-le siin.

Teiseks saavad teadlased, kes tegelevad meile erilist huvi pakkuvate teemadega, nagu eelarvamus ja väärkasutus, ning kes saaksid kasu rahalisest toetusest, taotleda subsideeritud API krediite, kasutades Selle vormi. Välisuuringud on üliolulised, et teavitada nii meie arusaamist nendest mitmetahulistest süsteemidest kui ka laiemast avalikkusest.

Lõpuks avaldame täna a teadusuuringute kava meie Codexi mudeliperekonnaga seotud tööturumõjude uurimine ja üleskutse selle uuringu läbiviimiseks väliste kaastöötajate poole. Meil on hea meel teha koostööd sõltumatute teadlastega, et uurida meie tehnoloogiate mõju, et anda teavet asjakohaste poliitiliste sekkumiste kohta ja lõpuks laiendada oma mõtlemist koodi genereerimiselt muudele viisidele.

Kui olete huvitatud tipptasemel tehisintellekti tehnoloogiate vastutustundlikust kasutuselevõtust, kohaldada OpenAI-sse tööle!

Ajatempel: Märtsil 3, 2022

Ajatempel: August 31, 2022

Taasavaldanud Platon

Superalignment Fast Grants

Demokraatlikud sisendid tehisintellekti toetusprogrammi: saadud õppetunnid ja rakendusplaanid

Uued viisid oma andmete haldamiseks ChatGPT-s

OpenAI kuulutab välja uued juhatuse liikmed

Kuidas peaksid AI-süsteemid käituma ja kes peaks otsustama?

Minecrafti mängimise õppimine video eelkoolitusega (VPT)

Mudelite õpetamine väljendama oma ebakindlust sõnadega

DALL·E: Tutvustame Outpaintingut

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto