Our Approach To Alignment Research

Taasavaldanud Platon

järgijaid: 0

Meie lähenemine AGI joondamisele on empiiriline ja iteratiivne. Parandame oma tehisintellektisüsteemide võimet õppida inimeste tagasisidest ja aidata inimestel tehisintellekti hinnata. Meie eesmärk on luua piisavalt joondatud AI-süsteem, mis aitaks meil lahendada kõiki muid joondusprobleeme.

Meie joondusuuringud eesmärk on viia tehisintellekt (AGI) vastavusse inimlike väärtustega ja järgida inimese kavatsusi. Me kasutame iteratiivset, empiirilist lähenemist: püüdes joondada suure võimekusega AI-süsteeme, saame teada, mis töötab ja mis mitte, täiustades seeläbi oma võimet muuta tehisintellekti süsteeme turvalisemaks ja paremini joondatud. Teaduslike katsete abil uurime, kuidas joondusmeetodid ulatuvad ja kus need purunevad.

Tegeleme joondusprobleemidega nii oma kõige võimekamates AI-süsteemides kui ka joondusprobleemidega, millega loodame oma teel AGI-sse kokku puutuda. Meie peamine eesmärk on viia praegused ühtlustamise ideed nii kaugele kui võimalik ning mõista ja dokumenteerida täpselt, kuidas need õnnestuvad või miks need ebaõnnestuvad. Usume, et isegi ilma põhimõtteliselt uute joondusideedeta suudame tõenäoliselt ehitada piisavalt joondatud tehisintellektisüsteeme, et joondamisuuringuid oluliselt edendada.

Ühendamata AGI võib inimkonnale kujutada olulisi riske ja AGI joondamise probleemi lahendamine võib olla nii keeruline, et see nõuab kogu inimkonna koostööd. Seetõttu oleme pühendunud oma joondusuuringute avalikule jagamisele, kui see on ohutu: tahame olla läbipaistvad selles osas, kui hästi meie joondustehnikad praktikas tegelikult töötavad, ja soovime, et iga AGI arendaja kasutaks maailma parimaid joondustehnikaid.

Meie lähenemine joondusuuringutele keskendub kõrgel tasemel väga nutikate AI-süsteemide jaoks skaleeritava treeningsignaali väljatöötamisele, mis on kooskõlas inimese kavatsustega. Sellel on kolm peamist sammast:

AI-süsteemide koolitamine, kasutades inimeste tagasisidet
AI-süsteemide koolitamine, et aidata inimestel hinnata
AI-süsteemide koolitamine joondusuuringute tegemiseks

Tehisintellektisüsteemide vastavusse viimine inimväärtustega tekitab ka mitmeid muid olulisi sotsiaaltehnilisi väljakutseid, nagu näiteks otsustamine, kellega neid süsteeme kohandada. Nende probleemide lahendamine on saavutamise jaoks oluline meie missioon, kuid me ei käsitle neid selles postituses.

AI-süsteemide koolitamine, kasutades inimeste tagasisidet

RL inimeste tagasisidest on meie peamine meetod meie praegu juurutatud keelemudelite joondamiseks. Koolitame mudelite klassi nimega Juhenda GPT tuletatud eelkoolitatud keelemudelitest nagu GPT-3. Need mudelid on koolitatud järgima inimese kavatsusi: nii selgesõnalist kavatsust, mis on antud juhendiga, kui ka kaudset kavatsust, nagu tõepärasus, õiglus ja ohutus.

Meie tulemused näitavad, et joondamisele keskendunud peenhäälestamisel on praegu palju kasu: inimesed eelistavad InstructGPT-d 100 korda suurema eeltreeningu mudeli asemel, samas kui selle peenhäälestus maksab <2% GPT-3 eeltreeningu arvutamisest. ja umbes 20,000 XNUMX tundi inimeste tagasisidet. Loodame, et meie töö inspireerib teisi selles valdkonnas tegutsejaid suurendama investeeringuid suurte keelemudelite joondamisesse ja tõstab kasutajate ootusi juurutatud mudelite ohutuse suhtes.

Meie loomuliku keele API on meie joondusuuringute jaoks väga kasulik keskkond: see annab meile rikkaliku tagasiside selle kohta, kui hästi meie joondustehnikad tegelikult töötavad reaalses maailmas, mille aluseks on väga mitmekesised ülesanded, mille eest meie kliendid on nõus raha maksma. Keskmiselt eelistavad meie kliendid kasutada InstructGPT-d meie eelkoolitatud mudelite asemel.

Kuid InstructGPT tänapäevased versioonid on seda üsna kaugel täielikult joondatud: mõnikord ei järgi nad lihtsaid juhiseid, ei ole alati tõesed, ei keeldu usaldusväärselt kahjulikest ülesannetest ja annavad mõnikord kallutatud või mürgiseid vastuseid. Mõned kliendid leiavad, et InstructGPT vastused on oluliselt vähem loomingulised kui eelkoolitatud mudelite vastused, mida me ei saanud aru InstructGPT käitamisest avalikult saadaolevatel võrdlusalustel. Samuti töötame selle nimel, et arendada inimeste tagasiside põhjal üksikasjalikumat teaduslikku arusaama RL-ist ja kuidas parandada inimeste tagasiside kvaliteeti.

Meie API joondamine on palju lihtsam kui AGI joondamine, kuna enamikku meie API ülesandeid ei ole inimestel väga raske jälgida ja meie juurutatud keelemudelid pole inimestest targemad. Me ei eelda, et inimeste tagasisidest saadav RL on AGI joondamiseks piisav, kuid see on meie kõige põnevamate skaleeritavate joondusettepanekute põhiline ehitusplokk, mistõttu on kasulik seda metoodikat täiustada.

Koolitusmudelid, mis aitavad inimestel hinnata

Inimeste tagasiside RL-il on põhiline piirang: see eeldab, et inimesed suudavad täpselt hinnata meie tehisintellektisüsteemide ülesandeid. Tänapäeval on inimesed selles üsna head, kuid mudelite võimekuse kasvades suudavad nad teha ülesandeid, mida inimestel on palju raskem hinnata (nt kõigi vigade leidmine suurest koodibaasist või teaduslikust artiklist). Meie mudelid võivad õppida oma hindajatele ütlema seda, mida nad tahavad kuulda, selle asemel, et neile tõde rääkida. Joondamise skaleerimiseks tahame kasutada selliseid tehnikaid nagu rekursiivne tasu modelleerimine (RRM), aruteluja korduv võimendus.

Praegu põhineb meie põhisuund RRM-il: koolitame mudeleid, mis aitavad inimestel hinnata meie mudeleid ülesannete puhul, mida inimestel on liiga raske otse hinnata. Näiteks:

Koolitasime modelli selleks raamatuid kokku võtta. Raamatu kokkuvõtete hindamine võtab inimestel palju aega, kui nad pole raamatuga tuttavad, kuid meie mudel võib aidata inimestel hinnata, kirjutades peatükkide kokkuvõtteid.
Koolitasime modelli selleks aidata inimestel hinnata faktide täpsust sirvides veebi ning pakkudes hinnapakkumisi ja linke. Lihtsate küsimuste puhul eelistatakse juba selle mudeli väljundeid inimeste kirjutatud vastustele.
Koolitasime modelli selleks kirjutada oma väljunditele kriitilisi kommentaare: päringupõhise kokkuvõtte tegemise ülesande puhul suurendab kriitiliste kommentaaride abistamine inimeste poolt mudeli väljunditest leitud vigu keskmiselt 50%. See kehtib isegi siis, kui palume inimestel kirjutada usutava välimusega, kuid valed kokkuvõtted.
Loome kodeerimisülesannete komplekti, mis on valitud nii, et neid on abita inimeste jaoks väga raske usaldusväärselt hinnata. Loodame selle andmekogumi varsti avaldada.

Meie joondustehnikad peavad töötama isegi siis, kui meie AI-süsteemid pakuvad välja väga loomingulisi lahendusi (nt AlphaGo käik 37), seega oleme eriti huvitatud koolitusmudelitest, mis aitavad inimestel eristada õigeid eksitavatest või petlikest lahendustest. Usume, et parim viis õppida võimalikult palju selle kohta, kuidas tehisintellekti abil hindamine praktikas toimima panna, on luua tehisintellekti abilisi.

AI-süsteemide koolitamine joondusuuringute tegemiseks

Praegu pole joondusprobleemile teadaolevat lõputult skaleeritavat lahendust. Kuna tehisintellekti edenemine jätkub, ootame silmitsi mitmete uute joondusprobleemidega, mida me praegustes süsteemides veel ei tähelda. Mõnda neist probleemidest ootame praegu ja mõned neist on täiesti uued.

Usume, et lõputult skaleeritava lahenduse leidmine on tõenäoliselt väga keeruline. Selle asemel püüame kasutada pragmaatilisemat lähenemisviisi: luua ja ühtlustada süsteem, mis võimaldab teadusuuringutel kiiremini ja paremini edeneda kui inimestel.

Sedamööda, kuidas me selles edusamme teeme, saavad meie tehisintellektisüsteemid üha suurema osa meie joondustööst üle võtta ning lõpuks välja mõelda, rakendada, uurida ja välja töötada paremaid joondustehnikaid kui praegu. Nad teevad koostööd inimestega, et nende järglased oleksid inimestega paremini kooskõlas.

Usume, et joondusuuringute hindamine on oluliselt lihtsam kui selle koostamine, eriti kui seda pakutakse hindamisabiga. Seetõttu keskenduvad inimteadlased üha enam oma jõupingutusi tehisintellektisüsteemide tehtud joondusuuringute ülevaatamisele, selle asemel, et neid ise koostada. Meie eesmärk on koolitada mudeleid nii, et need oleksid nii joondatud, et saaksime peaaegu kogu joondusuuringuteks vajaliku kognitiivse töö maha laadida.

Oluline on see, et meil on vaja ainult "kitsamaid" AI-süsteeme, millel on asjakohastes valdkondades inimtasandi võimalused, et teha sama hästi kui inimesi joondusuuringutes. Eeldame, et neid tehisintellektisüsteeme on lihtsam joondada kui üldotstarbelisi või inimestest palju targemaid süsteeme.

Keelemudelid sobivad eriti hästi joondusuuringute automatiseerimiseks, kuna need on "eellaaditud" suure hulga teadmiste ja teabega Interneti lugemisest inimväärtuste kohta. Kastist väljas ei ole nad sõltumatud agendid ja seega ei taotle nad maailmas oma eesmärke. Joondusuuringute tegemiseks ei vaja nad piiramatut juurdepääsu Internetile. Siiski saab paljusid joondamise uurimisülesandeid sõnastada loomuliku keele või kodeerimisülesannetena.

Tulevased versioonid WebGPT, Juhenda GPTja Koodeks võivad olla aluseks joondusuuringute assistentidena, kuid nad pole veel piisavalt võimekad. Kuigi me ei tea, millal on meie mudelid piisavalt võimelised, et joondamisuuringutesse sisukalt kaasa aidata, arvame, et on oluline alustada enne tähtaega. Kui oleme välja õpetanud mudeli, mis võiks olla kasulik, kavatseme teha selle kättesaadavaks välisele vastavusse viimise uurimisringkonnale.

Piirangud

Oleme väga põnevil selle lähenemisviisi üle AGI ühtlustamisel, kuid eeldame, et seda tuleb kohandada ja täiustada, kui saame rohkem teada, kuidas tehisintellekti tehnoloogia areneb. Meie lähenemisviisil on ka mitmeid olulisi piiranguid:

Siin välja toodud tee rõhutab robustsuse ja tõlgendatavuse uurimise tähtsust – kahte valdkonda, millesse OpenAI on praegu alainvesteeritud. Kui see sobib teie profiiliga, kandideerige meie teadlase ametikohale!
AI abi kasutamine hindamiseks võib suurendada või võimendada isegi AI-assistendi peeneid ebakõlasid, eelarvamusi või haavatavust.
AGI joondamine hõlmab tõenäoliselt väga erinevate probleemide lahendamist kui tänapäevaste AI-süsteemide joondamine. Eeldame, et üleminek on mõnevõrra pidev, kuid kui esineb suuri katkestusi või paradigma muutusi, ei pruugi enamik mudelite (nt InstructGPT) joondamisest saadud õppetunde olla otseselt kasulik.
Joondamisprobleemi raskeimad osad ei pruugi olla seotud meie AI-süsteemide jaoks skaleeritava ja joondatud treeningsignaali loomisega. Isegi kui see on tõsi, on selline treeningsignaal vajalik.
Ei pruugi olla põhimõtteliselt lihtsam joondada mudeleid, mis võivad joondusuuringuid märkimisväärselt kiirendada, kui AGI joondamine. Teisisõnu, kõige vähem võimekad mudelid, mis võivad aidata joondusuuringutel, võivad olla juba liiga ohtlikud, kui neid pole õigesti joondatud. Kui see on tõsi, ei saa me oma süsteemidest joondusprobleemide lahendamiseks palju abi.

Otsime selle uurimissuuna jaoks palgata rohkem andekaid inimesi! Kui see Sulle huvi pakub, võtame tööle Teadusinsenerid ja Teadusteadlased!

Ajatempel: August 24, 2022August 24, 2022

ChatGPT pistikprogrammid

Allikaklaster:

OpenAI

Allikasõlm: 1817781

Ajatempel: Mar 23, 2023

Meie lähenemine joondusuuringutele

Taasavaldanud Platon

AI-süsteemide koolitamine, kasutades inimeste tagasisidet

Koolitusmudelid, mis aitavad inimestel hinnata

AI-süsteemide koolitamine joondusuuringute tegemiseks

Piirangud

Veel alates OpenAI

Toome ChatGPT-sse Financial Timesi maailmatasemel ajakirjanduse

Tutvustame OpenAI Londonit

GPT-4 kasutamine sisu modereerimiseks

Tutvustame Whisperit

DALL·E on nüüd saadaval ilma ootenimekirjata

Tutvustame ChatGPT meeskonda

Funktsioonide kutsumine ja muud API värskendused

OpenAI teatab juhtkonna üleminekust

Keelemudelid võivad keelemudelites neuroneid selgitada

ChatGPT pistikprogrammid

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto

Sissejuhatus

AI-süsteemide koolitamine, kasutades inimeste tagasisidet

Koolitusmudelid, mis aitavad inimestel hinnata

AI-süsteemide koolitamine joondusuuringute tegemiseks

Piirangud

Veel alates OpenAI

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto