Lezioni apprese sulla sicurezza del modello linguistico e sull'uso improprio di PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Lezioni apprese sulla sicurezza e l'uso improprio del modello linguistico

Lezioni apprese sulla sicurezza e l'uso improprio del modello linguistico

L'implementazione di potenti sistemi di intelligenza artificiale ha arricchito la nostra comprensione della sicurezza e dell'uso improprio molto più di quanto sarebbe stato possibile solo attraverso la ricerca. In particolare:

  • L'uso improprio del modello di linguaggio basato su API si presenta spesso in forme diverse da quelle che temevamo di più.
  • Abbiamo identificato i limiti nelle valutazioni dei modelli linguistici esistenti che stiamo affrontando con nuovi benchmark e classificatori.
  • La ricerca di base sulla sicurezza offre vantaggi significativi per l'utilità commerciale dei sistemi di intelligenza artificiale.

Qui, descriviamo il nostro ultimo pensiero nella speranza di aiutare altri sviluppatori di intelligenza artificiale ad affrontare la sicurezza e l'uso improprio dei modelli implementati.


Onegli ultimi due anni, abbiamo imparato molto su come utilizzare e abusare dei modelli linguistici, informazioni che non avremmo potuto ottenere senza l'esperienza dell'implementazione nel mondo reale. Nel giugno 2020 abbiamo iniziato a dare accesso a sviluppatori e ricercatori al API OpenAI, un'interfaccia per l'accesso e la creazione di applicazioni in aggiunta ai nuovi modelli di intelligenza artificiale sviluppati da OpenAI. L'implementazione di GPT-3, Codex e altri modelli in modo da ridurre i rischi di danni ha posto varie sfide tecniche e politiche.

Panoramica del nostro approccio alla distribuzione del modello

I modelli linguistici di grandi dimensioni sono ora in grado di eseguire a gamma molto ampia di compiti, spesso fuori dagli schemi. I loro profili di rischio, potenziali applicazioni ed effetti più ampi sulla società rimanere male inteso. Di conseguenza, il nostro approccio all'implementazione enfatizza l'iterazione continua e utilizza le seguenti strategie volte a massimizzare i vantaggi dell'implementazione riducendo i rischi associati:

  • Analisi del rischio pre-distribuzione, sfruttando una serie crescente di valutazioni di sicurezza e strumenti di red teaming (ad esempio, abbiamo verificato il nostro InstructGPT per eventuali degradi di sicurezza utilizzando le valutazioni discusso di seguito)
  • A partire da una piccola base di utenti (ad esempio, sia GPT-3 che il nostro Istruisci GPT la serie è iniziata come beta private)
  • Studiare i risultati dei progetti pilota di nuovi casi d'uso (ad esempio, esplorare le condizioni in cui potremmo abilitare in sicurezza la generazione di contenuti di lunga durata, lavorare con un numero limitato di clienti)
  • Implementazione di processi che aiutano a tenere sotto controllo l'utilizzo (ad es. revisione di casi d'uso, quote di token e limiti di velocità)
  • Condurre revisioni retrospettive dettagliate (ad esempio, di incidenti di sicurezza e dispiegamenti importanti)
Lezioni apprese sulla sicurezza e l'uso improprio del modello linguistico


Si noti che questo diagramma ha lo scopo di trasmettere visivamente la necessità di circuiti di feedback nel processo continuo di sviluppo e distribuzione del modello e il fatto che la sicurezza deve essere integrata in ogni fase. Non intende trasmettere un quadro completo o ideale del nostro processo o di qualsiasi altra organizzazione.

Non esiste un proiettile d'argento per un'implementazione responsabile, quindi cerchiamo di conoscere e affrontare i limiti dei nostri modelli e le potenziali vie di uso improprio, in ogni fase dello sviluppo e dell'implementazione. Questo approccio ci consente di imparare il più possibile sulle questioni relative alla sicurezza e alle politiche su piccola scala e incorporare tali informazioni prima di avviare implementazioni su larga scala.


Non esiste un proiettile d'argento per un dispiegamento responsabile.

Sebbene non siano esaustive, alcune aree in cui abbiamo investito finora includono,:

Poiché ogni fase dell'intervento ha dei limiti, è necessario un approccio olistico.

Ci sono aree in cui avremmo potuto fare di più e in cui abbiamo ancora margini di miglioramento. Ad esempio, quando abbiamo lavorato per la prima volta su GPT-3, lo consideravamo un artefatto di ricerca interno piuttosto che un sistema di produzione e non eravamo così aggressivi nel filtrare i dati di addestramento tossici come avremmo potuto essere altrimenti. Abbiamo investito di più nella ricerca e nella rimozione di tale materiale per i modelli successivi. Abbiamo impiegato più tempo per affrontare alcuni casi di uso improprio nei casi in cui non disponevamo di politiche chiare sull'argomento e siamo migliorati nell'iterare tali politiche. E continuiamo a iterare verso un pacchetto di requisiti di sicurezza che sia la massima efficacia nell'affrontare i rischi, pur essendo chiaramente comunicato agli sviluppatori e riducendo al minimo l'attrito eccessivo.

Tuttavia, riteniamo che il nostro approccio ci abbia consentito di misurare e ridurre vari tipi di danni derivanti dall'uso del modello linguistico rispetto a un approccio più pratico, consentendo allo stesso tempo un'ampia gamma di applicazioni accademiche, artistiche e commerciali del nostro Modelli.,

Le molte forme e dimensioni dell'uso improprio del modello linguistico

OpenAI è stata attiva nella ricerca sui rischi dell'uso improprio dell'IA sin dai nostri primi lavori sul uso dannoso dell'IA in 2018 e su GPT-2 nel 2019 e abbiamo prestato particolare attenzione ai sistemi di IA che potenziano le operazioni di influenza. abbiamo ha lavorato con esperti esterni da sviluppare prove di concetto e promosso attento . di tali rischi da parte di terzi. Rimaniamo impegnati ad affrontare i rischi associati alle operazioni di influenza abilitate dal modello linguistico e di recente abbiamo co-organizzato un seminario sull'argomento.,

Eppure abbiamo rilevato e fermato centinaia di attori che tentano di utilizzare in modo improprio GPT-3 per una gamma molto più ampia di scopi rispetto alla produzione di disinformazione per operazioni di influenza, anche in modi che non avevamo previsto o che ci aspettavamo ma non ci aspettavamo fossero così prevalente., Il nostro linee guida sui casi d'uso, linee guida sui contenutie l'infrastruttura interna di rilevamento e risposta era inizialmente orientata verso i rischi che avevamo previsto sulla base di ricerche interne ed esterne, come la generazione di contenuti politici fuorvianti con GPT-3 o la generazione di malware con Codex. I nostri sforzi di rilevamento e risposta si sono evoluti nel tempo in risposta a casi reali di uso improprio riscontrati "in natura" che non erano così importanti come le operazioni di influenza nelle nostre valutazioni iniziali del rischio. Gli esempi includono promozioni di spam per prodotti medici dubbi e giochi di ruolo di fantasie razziste.

Per supportare lo studio dell'uso improprio del modello linguistico e la relativa mitigazione, quest'anno stiamo esplorando attivamente opportunità per condividere statistiche sugli incidenti di sicurezza, al fine di concretizzare le discussioni sull'uso improprio del modello linguistico.

La difficoltà di misurazione del rischio e dell'impatto

Molti aspetti dei rischi e degli impatti dei modelli linguistici rimangono difficili da misurare e quindi difficili da monitorare, minimizzare e divulgare in modo responsabile. Abbiamo utilizzato attivamente i benchmark accademici esistenti per la valutazione del modello linguistico e non vediamo l'ora di continuare a basarci sul lavoro esterno, ma abbiamo anche scoperto che i set di dati di benchmark esistenti spesso non riflettono i rischi per la sicurezza e l'uso improprio che vediamo nella pratica.,

Tali limitazioni riflettono il fatto che i set di dati accademici sono raramente creati con lo scopo esplicito di informare l'uso di produzione dei modelli linguistici e non traggono vantaggio dall'esperienza acquisita dall'implementazione di tali modelli su larga scala. Di conseguenza, abbiamo sviluppato nuovi set di dati di valutazione e framework per misurare la sicurezza dei nostri modelli, che prevediamo di rilasciare presto. In particolare, abbiamo sviluppato nuove metriche di valutazione per misurare la tossicità negli output dei modelli e abbiamo anche sviluppato classificatori interni per rilevare i contenuti che violano il nostro politica dei contenuti, come contenuti erotici, incitamento all'odio, violenza, molestie e autolesionismo. Entrambi, a loro volta, sono stati sfruttati anche per migliorare i nostri dati di pre-formazione,—in particolare, utilizzando i classificatori per filtrare i contenuti e le metriche di valutazione per misurare gli effetti degli interventi sui set di dati.

Classificare in modo affidabile i singoli output del modello lungo varie dimensioni è difficile e misurarne l'impatto sociale sulla scala dell'API OpenAI è ancora più difficile. Abbiamo condotto diversi studi interni al fine di costruire un muscolo istituzionale per tale misurazione, ma questi hanno spesso sollevato più domande che risposte.

Siamo particolarmente interessati a comprendere meglio l'impatto economico dei nostri modelli e la distribuzione di tali impatti. Abbiamo buone ragioni per ritenere che gli impatti sul mercato del lavoro derivanti dall'implementazione dei modelli attuali possano già essere significativi in ​​termini assoluti e che aumenteranno con l'aumentare delle capacità e della portata dei nostri modelli. Finora abbiamo appreso di una varietà di effetti locali, inclusi enormi miglioramenti della produttività su attività esistenti eseguite da individui come il copywriting e il riepilogo (a volte contribuendo allo spostamento e alla creazione di posti di lavoro), nonché casi in cui l'API ha sbloccato nuove applicazioni che in precedenza erano impossibili , come sintesi di feedback qualitativi su larga scala. Ma ci manca una buona comprensione degli effetti netti.

Riteniamo che sia importante per coloro che sviluppano e implementano potenti tecnologie di intelligenza artificiale affrontare frontalmente gli effetti positivi e negativi del loro lavoro. Discutiamo alcuni passaggi in quella direzione nella sezione conclusiva di questo post.

La relazione tra sicurezza e utilità dei sistemi di intelligenza artificiale

Nei nostri Noleggio, pubblicato nel 2018, diciamo che "siamo preoccupati che lo sviluppo dell'AGI in fase avanzata diventi una gara competitiva senza tempo per adeguate precauzioni di sicurezza". Noi allora pubblicato un'analisi dettagliata dello sviluppo dell'IA competitiva e l'abbiamo seguita da vicino successivo ricerca. Allo stesso tempo, l'implementazione di sistemi di intelligenza artificiale tramite l'API OpenAI ha anche approfondito la nostra comprensione delle sinergie tra sicurezza e utilità.

Ad esempio, gli sviluppatori preferiscono in modo schiacciante i nostri modelli InstructGPT, che sono messi a punto per seguire le intenzioni degli utenti,—oltre i modelli GPT-3 di base. In particolare, tuttavia, i modelli InstructGPT non erano originariamente motivati ​​da considerazioni commerciali, ma miravano piuttosto a compiere progressi sul lungo termine problemi di allineamento. In termini pratici, ciò significa che i clienti, forse non sorprendentemente, preferiscono di gran lunga i modelli che rispettano i compiti e comprendono le intenzioni dell'utente, e modelli che hanno meno probabilità di produrre output dannosi o scorretti., Altre ricerche fondamentali, come il nostro lavoro su sfruttando le informazioni recuperato da Internet per rispondere alle domande in modo più veritiero, ha anche il potenziale per migliorare l'utilità commerciale dei sistemi di intelligenza artificiale.,

Queste sinergie non sempre si verificheranno. Ad esempio, i sistemi più potenti richiedono spesso più tempo per essere valutati e allineati in modo efficace, precludendo opportunità di profitto immediate. E l'utilità di un utente e quella della società potrebbero non essere allineate a causa di esternalità negative: considera il copywriting completamente automatizzato, che può essere vantaggioso per i creatori di contenuti ma dannoso per l'ecosistema dell'informazione nel suo insieme.

È incoraggiante vedere casi di forte sinergia tra sicurezza e utilità, ma ci impegniamo a investire nella ricerca sulla sicurezza e sulle politiche anche quando si scambiano con l'utilità commerciale.


Ci impegniamo a investire nella ricerca sulla sicurezza e sulle politiche anche quando si scambiano con l'utilità commerciale.

Modi per essere coinvolti

Ciascuna delle lezioni di cui sopra solleva nuove domande di per sé. Quali tipi di incidenti di sicurezza potremmo ancora non riuscire a rilevare e anticipare? Come possiamo misurare meglio rischi e impatti? Come possiamo continuare a migliorare sia la sicurezza che l'utilità dei nostri modelli e superare i compromessi tra questi due quando si presentano?

Stiamo attivamente discutendo molti di questi problemi con altre aziende che implementano modelli linguistici. Ma sappiamo anche che nessuna organizzazione o insieme di organizzazioni ha tutte le risposte e vorremmo evidenziare diversi modi in cui i lettori possono essere maggiormente coinvolti nella comprensione e nella modellazione della nostra distribuzione di sistemi di intelligenza artificiale all'avanguardia.

In primo luogo, acquisire esperienza diretta nell'interazione con sistemi di intelligenza artificiale all'avanguardia è inestimabile per comprenderne le capacità e le implicazioni. Di recente abbiamo terminato la lista d'attesa dell'API dopo aver acquisito maggiore fiducia nella nostra capacità di rilevare e rispondere efficacemente agli usi impropri. Individui dentro paesi e territori supportati può accedere rapidamente all'API OpenAI registrandosi qui.

In secondo luogo, i ricercatori che lavorano su argomenti di particolare interesse per noi come pregiudizi e uso improprio, e che trarrebbero beneficio da un sostegno finanziario, possono richiedere crediti API sovvenzionati utilizzando questa forma. La ricerca esterna è vitale per informare sia la nostra comprensione di questi sistemi sfaccettati, sia una più ampia comprensione del pubblico.

Infine, oggi pubblichiamo a agenda di ricerca esplorare gli impatti sul mercato del lavoro associati alla nostra famiglia di modelli Codex e invitare collaboratori esterni a svolgere questa ricerca. Siamo entusiasti di lavorare con ricercatori indipendenti per studiare gli effetti delle nostre tecnologie al fine di informare gli interventi politici appropriati e alla fine espandere il nostro pensiero dalla generazione di codice ad altre modalità.

Se sei interessato a lavorare per implementare in modo responsabile tecnologie di intelligenza artificiale all'avanguardia, applicare lavorare in OpenAI!


Ringraziamenti

Grazie a Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov e altri per aver fornito feedback su questo post e sul lavoro correlato.


Le note

  1. Questo post si basa sul nostro approccio alla distribuzione di modelli linguistici tramite un'API e, in quanto tali, le lezioni e le mitigazioni descritte sono più rilevanti per coloro che perseguono anche la distribuzione basata su API. Tuttavia, ci aspettiamo anche che parte della discussione sia rilevante per coloro che creano applicazioni proprietarie utilizzando modelli linguistici e per coloro che considerano il rilascio open source di modelli linguistici. ↩︎

  2. Questo post ha lo scopo di spiegare e condividere quanto appreso dal nostro approccio, piuttosto che suggerire che tutti gli attori dovrebbero necessariamente adottare lo stesso approccio o che lo stesso approccio è applicabile a tutti i possibili sistemi di IA. Ci sono vantaggi e costi associati a diversi approcci di implementazione, diversi modelli trarranno vantaggio più o meno dallo studio prima dell'implementazione e in alcuni casi può essere prezioso che percorsi di implementazione distinti siano perseguiti da attori diversi. ↩︎

  3. Maggiori dettagli su questo workshop saranno inclusi nella prossima pubblicazione basata su di esso. ↩︎

  4. Anche le attenuazioni che sottolineiamo in risposta all'uso improprio si sono evolute. Ad esempio, inizialmente ci siamo concentrati sulla generazione di testo in formato lungo come vettore di minaccia, dati i precedenti casi di operazioni di influenza che coinvolgevano persone che scrivevano manualmente contenuti fuorvianti in formato lungo. Data questa enfasi, impostiamo le lunghezze massime di output per il testo generato. Sulla base di uno studio pilota sulla generazione di moduli lunghi, tuttavia, abbiamo visto che le restrizioni all'output hanno avuto scarso effetto sulle violazioni delle politiche: siamo arrivati ​​a credere invece che i contenuti in formato breve che amplificano o aumentano il coinvolgimento su contenuti fuorvianti potrebbero essere il rischio maggiore. ↩︎

  5. Esempi di limitazioni nei set di dati esistenti, dal punto di vista dei professionisti che cercano una valutazione olistica della sicurezza dei risultati del modello linguistico reale, includono quanto segue: un focus eccessivamente ristretto (ad esempio, misurare solo il pregiudizio di genere sul lavoro), un focus eccessivamente ampio (ad esempio, misurare tutto sotto l'ombrello della "tossicità"), una tendenza ad astrarre le specificità dell'uso e del contesto, un'incapacità di misurare il generativo dimensione dell'uso del modello linguistico (ad es., utilizzando uno stile a scelta multipla), prompt che differiscono stilisticamente da quelli tipicamente utilizzati nei casi d'uso del modello linguistico reale, non acquisiscono dimensioni di sicurezza che sono importanti nella pratica (ad es. un output che segue o ignora una sicurezza- costrizione motivata nell'istruzione) o la mancata acquisizione di tipi di output che abbiamo riscontrato essere correlati all'uso improprio (ad esempio, contenuto erotico). ↩︎

  6. Sebbene i nostri sforzi siano specificamente orientati ad affrontare i limiti nei benchmark esistenti e nei nostri modelli, riconosciamo anche che ci sono limitazioni ai metodi che utilizziamo come il filtraggio dei dati basato su classificatori. Ad esempio, definire operativamente le aree di contenuto che miriamo a rilevare tramite la filtrazione è impegnativo e la filtrazione stessa può introdurre pregiudizi dannosi. Inoltre, l'etichettatura dei dati tossici è una componente fondamentale di questo lavoro e garantire la salute mentale di questi etichettatori è una sfida a livello di settore. ↩︎

  7. L'"utente" pertinente della nostra API può essere uno sviluppatore che crea un'applicazione o un utente finale che interagisce con tale applicazione, a seconda del contesto. Ci sono domande profonde sui valori che riflettono i nostri modelli allineati e speriamo di costruire una comprensione più sfumata di come bilanciare i valori di un'ampia gamma di utenti possibili e obiettivi concorrenti quando si allineano i modelli linguistici per essere più utili, più veritieri e meno dannosi. ↩︎

  8. Modelli più allineati presentano anche vantaggi più pratici, come ridurre la necessità di "prompt engineering" (fornire esempi del comportamento desiderato per orientare il modello nella giusta direzione), risparmiare spazio nella finestra di contesto del modello che può essere utilizzata per altri scopi. ↩︎

  9. Al di là della ricerca, abbiamo scoperto che altri interventi motivati ​​dalla sicurezza a volte hanno vantaggi inaspettati per i clienti. Ad esempio, i limiti di frequenza destinati a limitare lo spam o i contenuti ingannevoli aiutano anche i clienti a controllare le spese. ↩︎

Timestamp:

Di più da OpenAI