Lezioni apprese sulla sicurezza e l'uso improprio del modello linguistico

Ripubblicato da Platone

Seguaci: 0

Lezioni apprese sulla sicurezza e l'uso improprio del modello linguistico

L'implementazione di potenti sistemi di intelligenza artificiale ha arricchito la nostra comprensione della sicurezza e dell'uso improprio molto più di quanto sarebbe stato possibile solo attraverso la ricerca. In particolare:

L'uso improprio del modello di linguaggio basato su API si presenta spesso in forme diverse da quelle che temevamo di più.
Abbiamo identificato i limiti nelle valutazioni dei modelli linguistici esistenti che stiamo affrontando con nuovi benchmark e classificatori.
La ricerca di base sulla sicurezza offre vantaggi significativi per l'utilità commerciale dei sistemi di intelligenza artificiale.

Qui, descriviamo il nostro ultimo pensiero nella speranza di aiutare altri sviluppatori di intelligenza artificiale ad affrontare la sicurezza e l'uso improprio dei modelli implementati.

Onegli ultimi due anni, abbiamo imparato molto su come utilizzare e abusare dei modelli linguistici, informazioni che non avremmo potuto ottenere senza l'esperienza dell'implementazione nel mondo reale. Nel giugno 2020 abbiamo iniziato a dare accesso a sviluppatori e ricercatori al API OpenAI, un'interfaccia per l'accesso e la creazione di applicazioni in aggiunta ai nuovi modelli di intelligenza artificiale sviluppati da OpenAI. L'implementazione di GPT-3, Codex e altri modelli in modo da ridurre i rischi di danni ha posto varie sfide tecniche e politiche.

Panoramica del nostro approccio alla distribuzione del modello

I modelli linguistici di grandi dimensioni sono ora in grado di eseguire a gamma molto ampia di compiti, spesso fuori dagli schemi. I loro profili di rischio, potenziali applicazioni ed effetti più ampi sulla società rimanere male inteso. Di conseguenza, il nostro approccio all'implementazione enfatizza l'iterazione continua e utilizza le seguenti strategie volte a massimizzare i vantaggi dell'implementazione riducendo i rischi associati:

Analisi del rischio pre-distribuzione, sfruttando una serie crescente di valutazioni di sicurezza e strumenti di red teaming (ad esempio, abbiamo verificato il nostro InstructGPT per eventuali degradi di sicurezza utilizzando le valutazioni discusso di seguito)
A partire da una piccola base di utenti (ad esempio, sia GPT-3 che il nostro Istruisci GPT la serie è iniziata come beta private)
Studiare i risultati dei progetti pilota di nuovi casi d'uso (ad esempio, esplorare le condizioni in cui potremmo abilitare in sicurezza la generazione di contenuti di lunga durata, lavorare con un numero limitato di clienti)
Implementazione di processi che aiutano a tenere sotto controllo l'utilizzo (ad es. revisione di casi d'uso, quote di token e limiti di velocità)
Condurre revisioni retrospettive dettagliate (ad esempio, di incidenti di sicurezza e dispiegamenti importanti)

Lezioni apprese sulla sicurezza e l'uso improprio del modello linguistico

Si noti che questo diagramma ha lo scopo di trasmettere visivamente la necessità di circuiti di feedback nel processo continuo di sviluppo e distribuzione del modello e il fatto che la sicurezza deve essere integrata in ogni fase. Non intende trasmettere un quadro completo o ideale del nostro processo o di qualsiasi altra organizzazione.

Non esiste un proiettile d'argento per un'implementazione responsabile, quindi cerchiamo di conoscere e affrontare i limiti dei nostri modelli e le potenziali vie di uso improprio, in ogni fase dello sviluppo e dell'implementazione. Questo approccio ci consente di imparare il più possibile sulle questioni relative alla sicurezza e alle politiche su piccola scala e incorporare tali informazioni prima di avviare implementazioni su larga scala.

Non esiste un proiettile d'argento per un dispiegamento responsabile.

Sebbene non siano esaustive, alcune aree in cui abbiamo investito finora includono^,:

Pre-allenamento dati cura e filtraggio
Ritocchi modelli al meglio Segui le istruzioni
Analisi del rischio di potenziali implementazioni
Fornire utente dettagliato documentazione
Costruzione strumenti per schermare gli output dannosi del modello
Revisione dei casi d'uso contro il nostro Termini e Condizioni
Monitoraggio per segni di uso improprio
Studiare il impatti dei nostri modelli

Poiché ogni fase dell'intervento ha dei limiti, è necessario un approccio olistico.

Ci sono aree in cui avremmo potuto fare di più e in cui abbiamo ancora margini di miglioramento. Ad esempio, quando abbiamo lavorato per la prima volta su GPT-3, lo consideravamo un artefatto di ricerca interno piuttosto che un sistema di produzione e non eravamo così aggressivi nel filtrare i dati di addestramento tossici come avremmo potuto essere altrimenti. Abbiamo investito di più nella ricerca e nella rimozione di tale materiale per i modelli successivi. Abbiamo impiegato più tempo per affrontare alcuni casi di uso improprio nei casi in cui non disponevamo di politiche chiare sull'argomento e siamo migliorati nell'iterare tali politiche. E continuiamo a iterare verso un pacchetto di requisiti di sicurezza che sia la massima efficacia nell'affrontare i rischi, pur essendo chiaramente comunicato agli sviluppatori e riducendo al minimo l'attrito eccessivo.

Tuttavia, riteniamo che il nostro approccio ci abbia consentito di misurare e ridurre vari tipi di danni derivanti dall'uso del modello linguistico rispetto a un approccio più pratico, consentendo allo stesso tempo un'ampia gamma di applicazioni accademiche, artistiche e commerciali del nostro Modelli.^,

Le molte forme e dimensioni dell'uso improprio del modello linguistico

OpenAI è stata attiva nella ricerca sui rischi dell'uso improprio dell'IA sin dai nostri primi lavori sul uso dannoso dell'IA in 2018 e su GPT-2 nel 2019 e abbiamo prestato particolare attenzione ai sistemi di IA che potenziano le operazioni di influenza. abbiamo ha lavorato con esperti esterni da sviluppare prove di concetto e promosso attento . di tali rischi da parte di terzi. Rimaniamo impegnati ad affrontare i rischi associati alle operazioni di influenza abilitate dal modello linguistico e di recente abbiamo co-organizzato un seminario sull'argomento.^,

Eppure abbiamo rilevato e fermato centinaia di attori che tentano di utilizzare in modo improprio GPT-3 per una gamma molto più ampia di scopi rispetto alla produzione di disinformazione per operazioni di influenza, anche in modi che non avevamo previsto o che ci aspettavamo ma non ci aspettavamo fossero così prevalente.^, Il nostro linee guida sui casi d'uso, linee guida sui contenutie l'infrastruttura interna di rilevamento e risposta era inizialmente orientata verso i rischi che avevamo previsto sulla base di ricerche interne ed esterne, come la generazione di contenuti politici fuorvianti con GPT-3 o la generazione di malware con Codex. I nostri sforzi di rilevamento e risposta si sono evoluti nel tempo in risposta a casi reali di uso improprio riscontrati "in natura" che non erano così importanti come le operazioni di influenza nelle nostre valutazioni iniziali del rischio. Gli esempi includono promozioni di spam per prodotti medici dubbi e giochi di ruolo di fantasie razziste.

Per supportare lo studio dell'uso improprio del modello linguistico e la relativa mitigazione, quest'anno stiamo esplorando attivamente opportunità per condividere statistiche sugli incidenti di sicurezza, al fine di concretizzare le discussioni sull'uso improprio del modello linguistico.

La difficoltà di misurazione del rischio e dell'impatto

Molti aspetti dei rischi e degli impatti dei modelli linguistici rimangono difficili da misurare e quindi difficili da monitorare, minimizzare e divulgare in modo responsabile. Abbiamo utilizzato attivamente i benchmark accademici esistenti per la valutazione del modello linguistico e non vediamo l'ora di continuare a basarci sul lavoro esterno, ma abbiamo anche scoperto che i set di dati di benchmark esistenti spesso non riflettono i rischi per la sicurezza e l'uso improprio che vediamo nella pratica.^,

Tali limitazioni riflettono il fatto che i set di dati accademici sono raramente creati con lo scopo esplicito di informare l'uso di produzione dei modelli linguistici e non traggono vantaggio dall'esperienza acquisita dall'implementazione di tali modelli su larga scala. Di conseguenza, abbiamo sviluppato nuovi set di dati di valutazione e framework per misurare la sicurezza dei nostri modelli, che prevediamo di rilasciare presto. In particolare, abbiamo sviluppato nuove metriche di valutazione per misurare la tossicità negli output dei modelli e abbiamo anche sviluppato classificatori interni per rilevare i contenuti che violano il nostro politica dei contenuti, come contenuti erotici, incitamento all'odio, violenza, molestie e autolesionismo. Entrambi, a loro volta, sono stati sfruttati anche per migliorare i nostri dati di pre-formazione^,—in particolare, utilizzando i classificatori per filtrare i contenuti e le metriche di valutazione per misurare gli effetti degli interventi sui set di dati.

Classificare in modo affidabile i singoli output del modello lungo varie dimensioni è difficile e misurarne l'impatto sociale sulla scala dell'API OpenAI è ancora più difficile. Abbiamo condotto diversi studi interni al fine di costruire un muscolo istituzionale per tale misurazione, ma questi hanno spesso sollevato più domande che risposte.

Siamo particolarmente interessati a comprendere meglio l'impatto economico dei nostri modelli e la distribuzione di tali impatti. Abbiamo buone ragioni per ritenere che gli impatti sul mercato del lavoro derivanti dall'implementazione dei modelli attuali possano già essere significativi in termini assoluti e che aumenteranno con l'aumentare delle capacità e della portata dei nostri modelli. Finora abbiamo appreso di una varietà di effetti locali, inclusi enormi miglioramenti della produttività su attività esistenti eseguite da individui come il copywriting e il riepilogo (a volte contribuendo allo spostamento e alla creazione di posti di lavoro), nonché casi in cui l'API ha sbloccato nuove applicazioni che in precedenza erano impossibili , come sintesi di feedback qualitativi su larga scala. Ma ci manca una buona comprensione degli effetti netti.

Riteniamo che sia importante per coloro che sviluppano e implementano potenti tecnologie di intelligenza artificiale affrontare frontalmente gli effetti positivi e negativi del loro lavoro. Discutiamo alcuni passaggi in quella direzione nella sezione conclusiva di questo post.

La relazione tra sicurezza e utilità dei sistemi di intelligenza artificiale

Nei nostri Noleggio, pubblicato nel 2018, diciamo che "siamo preoccupati che lo sviluppo dell'AGI in fase avanzata diventi una gara competitiva senza tempo per adeguate precauzioni di sicurezza". Noi allora pubblicato un'analisi dettagliata dello sviluppo dell'IA competitiva e l'abbiamo seguita da vicino successivo ricerca. Allo stesso tempo, l'implementazione di sistemi di intelligenza artificiale tramite l'API OpenAI ha anche approfondito la nostra comprensione delle sinergie tra sicurezza e utilità.

Ad esempio, gli sviluppatori preferiscono in modo schiacciante i nostri modelli InstructGPT, che sono messi a punto per seguire le intenzioni degli utenti^,—oltre i modelli GPT-3 di base. In particolare, tuttavia, i modelli InstructGPT non erano originariamente motivati da considerazioni commerciali, ma miravano piuttosto a compiere progressi sul lungo termine problemi di allineamento. In termini pratici, ciò significa che i clienti, forse non sorprendentemente, preferiscono di gran lunga i modelli che rispettano i compiti e comprendono le intenzioni dell'utente, e modelli che hanno meno probabilità di produrre output dannosi o scorretti.^, Altre ricerche fondamentali, come il nostro lavoro su sfruttando le informazioni recuperato da Internet per rispondere alle domande in modo più veritiero, ha anche il potenziale per migliorare l'utilità commerciale dei sistemi di intelligenza artificiale.^,

Queste sinergie non sempre si verificheranno. Ad esempio, i sistemi più potenti richiedono spesso più tempo per essere valutati e allineati in modo efficace, precludendo opportunità di profitto immediate. E l'utilità di un utente e quella della società potrebbero non essere allineate a causa di esternalità negative: considera il copywriting completamente automatizzato, che può essere vantaggioso per i creatori di contenuti ma dannoso per l'ecosistema dell'informazione nel suo insieme.

È incoraggiante vedere casi di forte sinergia tra sicurezza e utilità, ma ci impegniamo a investire nella ricerca sulla sicurezza e sulle politiche anche quando si scambiano con l'utilità commerciale.

Ci impegniamo a investire nella ricerca sulla sicurezza e sulle politiche anche quando si scambiano con l'utilità commerciale.

Modi per essere coinvolti

Ciascuna delle lezioni di cui sopra solleva nuove domande di per sé. Quali tipi di incidenti di sicurezza potremmo ancora non riuscire a rilevare e anticipare? Come possiamo misurare meglio rischi e impatti? Come possiamo continuare a migliorare sia la sicurezza che l'utilità dei nostri modelli e superare i compromessi tra questi due quando si presentano?

Stiamo attivamente discutendo molti di questi problemi con altre aziende che implementano modelli linguistici. Ma sappiamo anche che nessuna organizzazione o insieme di organizzazioni ha tutte le risposte e vorremmo evidenziare diversi modi in cui i lettori possono essere maggiormente coinvolti nella comprensione e nella modellazione della nostra distribuzione di sistemi di intelligenza artificiale all'avanguardia.

In primo luogo, acquisire esperienza diretta nell'interazione con sistemi di intelligenza artificiale all'avanguardia è inestimabile per comprenderne le capacità e le implicazioni. Di recente abbiamo terminato la lista d'attesa dell'API dopo aver acquisito maggiore fiducia nella nostra capacità di rilevare e rispondere efficacemente agli usi impropri. Individui dentro paesi e territori supportati può accedere rapidamente all'API OpenAI registrandosi qui.

In secondo luogo, i ricercatori che lavorano su argomenti di particolare interesse per noi come pregiudizi e uso improprio, e che trarrebbero beneficio da un sostegno finanziario, possono richiedere crediti API sovvenzionati utilizzando questa forma. La ricerca esterna è vitale per informare sia la nostra comprensione di questi sistemi sfaccettati, sia una più ampia comprensione del pubblico.

Infine, oggi pubblichiamo a agenda di ricerca esplorare gli impatti sul mercato del lavoro associati alla nostra famiglia di modelli Codex e invitare collaboratori esterni a svolgere questa ricerca. Siamo entusiasti di lavorare con ricercatori indipendenti per studiare gli effetti delle nostre tecnologie al fine di informare gli interventi politici appropriati e alla fine espandere il nostro pensiero dalla generazione di codice ad altre modalità.

Se sei interessato a lavorare per implementare in modo responsabile tecnologie di intelligenza artificiale all'avanguardia, applicare lavorare in OpenAI!

Timestamp: 3 Marzo 2022

Timestamp: 31 agosto 2022

Ripubblicato da Platone

Sovvenzioni veloci per il superallineamento

Contributi democratici al programma di sovvenzioni per l’intelligenza artificiale: lezioni apprese e piani di attuazione

Nuovi modi per gestire i tuoi dati in ChatGPT

OpenAI annuncia i nuovi membri nel consiglio di amministrazione

Come dovrebbero comportarsi i sistemi di intelligenza artificiale e chi dovrebbe decidere?

Imparare a giocare a Minecraft con il Video PreTraining (VPT)

Modelli didattici per esprimere a parole la propria incertezza

DALL·E: Introduzione a Outpainting

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account