Il nostro approccio alla ricerca sull'allineamento PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il nostro approccio alla ricerca sull'allineamento

Il nostro approccio all'allineamento dell'AGI è empirico e iterativo. Stiamo migliorando la capacità dei nostri sistemi di intelligenza artificiale di imparare dal feedback umano e di assistere gli esseri umani nella valutazione dell'IA. Il nostro obiettivo è costruire un sistema di intelligenza artificiale sufficientemente allineato che possa aiutarci a risolvere tutti gli altri problemi di allineamento.

Introduzione

La nostra ricerca sull'allineamento mira a rendere l'intelligenza artificiale generale (AGI) allineata ai valori umani e seguire l'intento umano. Adottiamo un approccio iterativo ed empirico: tentando di allineare sistemi di IA altamente capaci, possiamo imparare cosa funziona e cosa no, affinando così la nostra capacità di rendere i sistemi di IA più sicuri e più allineati. Utilizzando esperimenti scientifici, studiamo come le tecniche di allineamento si ridimensionano e dove si rompono.

Affrontiamo i problemi di allineamento sia nei nostri sistemi di intelligenza artificiale più capaci sia i problemi di allineamento che prevediamo di incontrare nel nostro percorso verso l'AGI. Il nostro obiettivo principale è spingere le attuali idee di allineamento il più lontano possibile e comprendere e documentare con precisione come possono avere successo o perché falliranno. Riteniamo che anche senza idee di allineamento fondamentalmente nuove, possiamo probabilmente costruire sistemi di IA sufficientemente allineati per far avanzare sostanzialmente la ricerca sull'allineamento stessa.

L'AGI non allineato potrebbe comportare rischi sostanziali per l'umanità e risolvere il problema dell'allineamento dell'AGI potrebbe essere così difficile che richiederà a tutta l'umanità di lavorare insieme. Pertanto ci impegniamo a condividere apertamente la nostra ricerca sull'allineamento quando è sicuro farlo: vogliamo essere trasparenti su quanto bene le nostre tecniche di allineamento funzionano effettivamente nella pratica e vogliamo che ogni sviluppatore AGI utilizzi le migliori tecniche di allineamento del mondo.

Ad alto livello, il nostro approccio alla ricerca sull'allineamento si concentra sulla progettazione di un segnale di addestramento scalabile per sistemi di intelligenza artificiale molto intelligenti che sia allineato con l'intento umano. Ha tre pilastri principali:

  1. Addestrare i sistemi di intelligenza artificiale utilizzando il feedback umano
  2. Addestrare i sistemi di intelligenza artificiale per assistere la valutazione umana
  3. Addestrare i sistemi di intelligenza artificiale per fare ricerche sull'allineamento

L'allineamento dei sistemi di IA ai valori umani pone anche una serie di altre sfide sociotecniche significative, come la decisione a chi devono essere allineati questi sistemi. Risolvere questi problemi è importante per raggiungere nostra missione, ma non li discutiamo in questo post.


Addestrare i sistemi di intelligenza artificiale utilizzando il feedback umano

RL dal feedback umano è la nostra tecnica principale per allineare i nostri modelli linguistici implementati oggi. Formiamo una classe di modelli chiamata Istruisci GPT derivato da modelli linguistici pre-addestrati come GPT-3. Questi modelli sono addestrati a seguire l'intento umano: sia l'intento esplicito dato da un'istruzione, sia l'intento implicito come veridicità, equità e sicurezza.

I nostri risultati mostrano che in questo momento ci sono molti frutti a basso impatto sulla messa a punto incentrata sull'allineamento: InstructGPT è preferito dagli esseri umani rispetto a un modello pre-addestrato 100 volte più grande, mentre la sua messa a punto costa <2% del calcolo di pre-addestramento di GPT-3 e circa 20,000 ore di feedback umano. Ci auguriamo che il nostro lavoro ispiri altri nel settore ad aumentare i loro investimenti nell'allineamento di modelli linguistici di grandi dimensioni e che alzi il livello delle aspettative degli utenti sulla sicurezza dei modelli implementati.

La nostra API in linguaggio naturale è un ambiente molto utile per la nostra ricerca sull'allineamento: ci fornisce un ricco ciclo di feedback su come funzionano effettivamente le nostre tecniche di allineamento nel mondo reale, basato su una serie molto diversificata di attività per le quali i nostri clienti sono disposti a pagare. In media, i nostri clienti preferiscono già utilizzare InstructGPT rispetto ai nostri modelli preaddestrati.

Eppure le versioni odierne di InstructGPT lo sono abbastanza lontano dall'essere completamente allineato: a volte non seguono semplici istruzioni, non sono sempre veritieri, non rifiutano in modo affidabile compiti dannosi e talvolta danno risposte distorte o tossiche. Alcuni clienti trovano le risposte di InstructGPT significativamente meno creative rispetto ai modelli pre-addestrati, cosa che non ci eravamo resi conto dall'esecuzione di InstructGPT su benchmark disponibili pubblicamente. Stiamo anche lavorando per sviluppare una comprensione scientifica più dettagliata di RL dal feedback umano e come migliorare la qualità del feedback umano.

L'allineamento della nostra API è molto più semplice dell'allineamento dell'AGI poiché la maggior parte delle attività sulla nostra API non è molto difficile da supervisionare per gli esseri umani e i nostri modelli linguistici distribuiti non sono più intelligenti degli esseri umani. Non ci aspettiamo che RL dal feedback umano sia sufficiente per allineare l'AGI, ma è un elemento fondamentale per le proposte di allineamento scalabile di cui siamo più entusiasti, quindi è prezioso perfezionare questa metodologia.


Modelli di formazione a supporto della valutazione umana

RL del feedback umano ha un limite fondamentale: presuppone che gli esseri umani possano valutare accuratamente i compiti che i nostri sistemi di intelligenza artificiale stanno svolgendo. Oggi gli esseri umani sono abbastanza bravi in ​​questo, ma man mano che i modelli diventano più capaci, saranno in grado di svolgere compiti che sono molto più difficili da valutare per gli esseri umani (ad esempio trovare tutti i difetti in una grande base di codice o in un documento scientifico). I nostri modelli potrebbero imparare a dire ai nostri valutatori umani ciò che vogliono sentire invece di dire loro la verità. Per scalare l'allineamento, vogliamo usare tecniche come modellazione ricorsiva della ricompensa (RRM), dibattitoe amplificazione iterata.

Attualmente la nostra direzione principale si basa su RRM: formiamo modelli che possono aiutare gli esseri umani a valutare i nostri modelli su compiti che sono troppo difficili da valutare direttamente per gli esseri umani. Per esempio:

  • Abbiamo addestrato un modello a riassumere i libri. La valutazione dei riassunti dei libri richiede molto tempo per gli esseri umani se non hanno familiarità con il libro, ma il nostro modello può aiutare la valutazione umana scrivendo riepiloghi dei capitoli.
  • Abbiamo addestrato un modello a aiutare gli esseri umani a valutare l'accuratezza dei fatti navigando sul web e fornendo citazioni e link. Su domande semplici, i risultati di questo modello sono già preferiti alle risposte scritte da esseri umani.
  • Abbiamo addestrato un modello a scrivere commenti critici sui propri output: in un'attività di riepilogo basata su query, l'assistenza con i commenti critici aumenta in media del 50% i difetti riscontrati dagli esseri umani negli output del modello. Ciò vale anche se chiediamo agli esseri umani di scrivere riepiloghi dall'aspetto plausibile ma errati.
  • Stiamo creando una serie di attività di codifica selezionate per essere molto difficili da valutare in modo affidabile per gli esseri umani non assistiti. Speriamo di rilasciare presto questo set di dati.

Le nostre tecniche di allineamento devono funzionare anche se i nostri sistemi di intelligenza artificiale stanno proponendo soluzioni molto creative (come La mossa di AlphaGo 37), quindi siamo particolarmente interessati ai modelli di addestramento per aiutare gli esseri umani a distinguere le soluzioni corrette da quelle fuorvianti o ingannevoli. Crediamo che il modo migliore per imparare il più possibile su come far funzionare in pratica la valutazione assistita dall'IA sia costruire assistenti AI.


Addestrare i sistemi di intelligenza artificiale per fare ricerche sull'allineamento

Al momento non è nota una soluzione scalabile indefinitamente al problema dell'allineamento. Man mano che i progressi dell'IA continuano, prevediamo di incontrare una serie di nuovi problemi di allineamento che non osserviamo ancora nei sistemi attuali. Alcuni di questi problemi li anticipiamo ora e alcuni di essi saranno completamente nuovi.

Riteniamo che trovare una soluzione scalabile indefinitamente sia probabilmente molto difficile. Invece, miriamo a un approccio più pragmatico: costruire e allineare un sistema che possa far progredire la ricerca sull'allineamento più velocemente e meglio di quanto non facciano gli esseri umani.

Man mano che facciamo progressi su questo, i nostri sistemi di intelligenza artificiale possono assumere sempre più il nostro lavoro di allineamento e, in definitiva, concepire, implementare, studiare e sviluppare tecniche di allineamento migliori di quelle che abbiamo ora. Lavoreranno insieme agli umani per garantire che i loro successori siano più allineati con gli umani.

Riteniamo che valutare la ricerca sull'allineamento sia sostanzialmente più facile che produrla, soprattutto quando viene fornita assistenza alla valutazione. Pertanto i ricercatori umani concentreranno sempre più i loro sforzi sulla revisione della ricerca sull'allineamento svolta dai sistemi di intelligenza artificiale invece di generare questa ricerca da soli. Il nostro obiettivo è addestrare i modelli in modo che siano così allineati da poter scaricare quasi tutto il lavoro cognitivo richiesto per la ricerca sull'allineamento.

È importante sottolineare che abbiamo solo bisogno di sistemi di intelligenza artificiale "più stretti" che abbiano capacità a livello umano nei domini rilevanti per fare così come gli esseri umani nella ricerca sull'allineamento. Ci aspettiamo che questi sistemi di intelligenza artificiale siano più facili da allineare rispetto ai sistemi generici o sistemi molto più intelligenti degli umani.

I modelli linguistici sono particolarmente adatti per automatizzare la ricerca sull'allineamento perché vengono "precaricati" con molte conoscenze e informazioni sui valori umani dalla lettura di Internet. Fuori dagli schemi, non sono agenti indipendenti e quindi non perseguono i propri obiettivi nel mondo. Per fare ricerche sull'allineamento non hanno bisogno di un accesso illimitato a Internet. Tuttavia, molte attività di ricerca sull'allineamento possono essere espresse come attività di linguaggio naturale o di codifica.

Versioni future di Web GPT, Istruisci GPTe Codice possono fornire una base come assistenti di ricerca sull'allineamento, ma non sono ancora sufficientemente capaci. Anche se non sappiamo quando i nostri modelli saranno in grado di contribuire in modo significativo alla ricerca sull'allineamento, riteniamo che sia importante iniziare in anticipo. Una volta formato un modello che potrebbe essere utile, prevediamo di renderlo accessibile alla comunità di ricerca sull'allineamento esterna.


Limiti

Siamo molto entusiasti di questo approccio all'allineamento dell'AGI, ma prevediamo che debba essere adattato e migliorato man mano che impariamo di più su come si sviluppa la tecnologia AI. Il nostro approccio ha anche una serie di importanti limiti:

  • Il percorso qui illustrato sottovaluta l'importanza della ricerca di robustezza e interpretabilità, due aree in cui OpenAI è attualmente sottoinvestito. Se questo si adatta al tuo profilo, fai domanda per le nostre posizioni di ricercatore!
  • L'utilizzo dell'assistenza AI per la valutazione ha il potenziale per aumentare o amplificare anche sottili incongruenze, pregiudizi o vulnerabilità presenti nell'assistente AI.
  • L'allineamento dell'AGI implica probabilmente la risoluzione di problemi molto diversi rispetto all'allineamento degli odierni sistemi di intelligenza artificiale. Ci aspettiamo che la transizione sia in qualche modo continua, ma se ci sono grandi discontinuità o cambiamenti di paradigma, la maggior parte delle lezioni apprese dall'allineamento di modelli come InstructGPT potrebbe non essere direttamente utile.
  • Le parti più difficili del problema di allineamento potrebbero non essere correlate alla progettazione di un segnale di addestramento scalabile e allineato per i nostri sistemi di intelligenza artificiale. Anche se questo è vero, sarà necessario un tale segnale di addestramento.
  • Potrebbe non essere fondamentalmente più facile allineare i modelli che possono accelerare significativamente la ricerca sull'allineamento che allineare l'AGI. In altre parole, i modelli meno capaci che possono aiutare con la ricerca sull'allineamento potrebbero già essere troppo pericolosi se non adeguatamente allineati. Se questo è vero, non avremo molto aiuto dai nostri sistemi per risolvere i problemi di allineamento.

Stiamo cercando di assumere più persone di talento per questa linea di ricerca! Se questo ti interessa, stiamo assumendo Ingegneri di ricerca ed Ricercatori!

Timestamp:

Di più da OpenAI