言語モデルの安全性と誤用について学んだ教訓

プラトン再発行

フォロワー： 0

言語モデルの安全性と誤用について学んだ教訓

強力なAIシステムの導入により、研究だけで可能であったよりもはるかに安全性と誤用についての理解が深まりました。特に：

APIベースの言語モデルの誤用は、私たちが最も恐れていたものとは異なる形で現れることがよくあります。
新しいベンチマークと分類子で対処している既存の言語モデル評価の制限を特定しました。
基本的な安全性の研究は、AIシステムの商業的有用性に大きなメリットをもたらします。

ここでは、他のAI開発者が展開されたモデルの安全性と誤用に対処するのに役立つことを期待して、最新の考え方について説明します。

Over過去XNUMX年間、言語モデルの使用方法と悪用方法について多くのことを学びました。実際の展開の経験がなければ得られなかった洞察です。 2020年XNUMX月に、開発者と研究者にアクセスを提供し始めました。オープンAI API、OpenAIによって開発された新しいAIモデルの上にアプリケーションにアクセスして構築するためのインターフェース。危害のリスクを軽減する方法でGPT-3、Codex、およびその他のモデルを展開することは、さまざまな技術的およびポリシー上の課題をもたらしました。

モデル展開アプローチの概要

大規模な言語モデルは、非常に幅広いタスク、多くの場合、箱から出して。それらのリスクプロファイル、潜在的なアプリケーション、および社会へのより広範な影響残る不完全に理解された。その結果、私たちの展開アプローチは継続的な反復を強調し、関連するリスクを減らしながら展開のメリットを最大化することを目的とした次の戦略を利用します。

増え続ける一連の安全性評価とレッドチームツールを活用した、展開前のリスク分析（たとえば、評価を使用してInstructGPTの安全性の低下を確認しました以下で説明します)
小規模なユーザーベースから始めます（たとえば、GPT-3と GPT を指導するシリーズはプライベートベータとして始まりました）
新しいユースケースのパイロットの結果を調査します（たとえば、少数の顧客と協力して、長い形式のコンテンツを安全に生成できる条件を調査します）
使用状況を把握するのに役立つプロセスを実装する（例：ユースケース、トークンクォータ、レート制限のレビュー）
詳細な遡及的レビューの実施（例：安全事故および主要な展開）

この図は、モデルの開発と展開の継続的なプロセスにおけるフィードバックループの必要性と、各段階で安全性を統合する必要があるという事実を視覚的に伝えることを目的としています。私たちまたは他の組織のプロセスの完全または理想的な全体像を伝えることを意図したものではありません。

責任ある展開には特効薬がないため、開発と展開のすべての段階で、モデルの制限と誤用の可能性のある手段について学び、対処しようとします。このアプローチにより、安全性とポリシーの問題についてできる限り多くのことを小規模に学び、大規模な展開を開始する前にそれらの洞察を組み込むことができます。

責任ある展開のための特効薬はありません。

網羅的ではありませんが、これまでに投資した分野には次のものがあります。^【1]:

事前トレーニングデータキュレーションとフィルタリング
微調整より良いモデル指示に従ってください
潜在的な展開のリスク分析
詳細なユーザーを提供するドキュメント
建物豊富なツール群有害なモデル出力をスクリーニングする
私たちに対するユースケースのレビューポリシー
の兆候の監視誤用
を勉強するモデルの影響

介入の各段階には制限があるため、全体的なアプローチが必要です。

もっとできることがあり、まだ改善の余地がある分野があります。たとえば、GPT-3に最初に取り組んだとき、それを本番システムではなく内部の研究成果物と見なし、そうでない場合ほど有毒なトレーニングデータを除外することに積極的ではありませんでした。私たちは、後続のモデルのためにそのような資料を調査して削除することにさらに投資しました。この件に関して明確なポリシーがない場合の誤用のいくつかの事例に対処するのに時間がかかり、それらのポリシーを繰り返すのが上手になりました。また、開発者に明確に伝達され、過度の摩擦を最小限に抑えながら、リスクへの対処に最大限の効果を発揮する安全要件のパッケージに向けて反復を続けています。

それでも、私たちのアプローチは、より実践的なアプローチと比較して、言語モデルの使用によるさまざまな種類の害を測定および削減することを可能にし、同時に、私たちの幅広い学術的、芸術的、および商業的アプリケーションを可能にしたと信じていますモデル。^【2]

言語モデルの誤用の多くの形とサイズ

OpenAIは、初期の取り組み以来、AIの誤用のリスクの調査に積極的に取り組んできました。 AIの悪用 2018と GPT-2で 2019年には、影響力のある運用を強化するAIシステムに特に注意を払いました。我々は持っていますで働いた開発する外部の専門家概念実証昇格しました注意深い分析第三者によるそのようなリスクの。私たちは、言語モデル対応の影響力の操作に関連するリスクに対処することに引き続き取り組んでおり、最近、このテーマに関するワークショップを共同開催しました。^【3]

それでも、影響力のある操作のために偽情報を作成するよりもはるかに広い範囲の目的でGPT-3を悪用しようとする何百人ものアクターを検出し、阻止しました。とても普及しています。^【4] 本サイトのユースケースガイドライン, コンテンツガイドライン、および内部の検出と対応のインフラストラクチャは、当初、GPT-3を使用した誤解を招く政治コンテンツの生成や、Codexを使用したマルウェアの生成など、内部および外部の調査に基づいて予測されたリスクに向けられていました。私たちの検出と対応の取り組みは、初期のリスク評価で影響力のある操作ほど目立つように機能しなかった「実際の」誤用の実際の事例に対応して、時間の経過とともに進化してきました。例としては、疑わしい医療製品のスパムプロモーションや人種差別的なファンタジーのロールプレイングなどがあります。

言語モデルの誤用とその軽減の研究を支援するために、言語モデルの誤用に関する議論を具体化するために、今年は安全事故に関する統計を共有する機会を積極的に模索しています。

リスクと影響の測定の難しさ

言語モデルのリスクと影響の多くの側面は、測定が難しいままであるため、説明責任のある方法で監視、最小化、および開示することは困難です。私たちは言語モデルの評価に既存の学術ベンチマークを積極的に利用しており、外部の作業に基づいて構築を続けたいと考えていますが、既存のベンチマークデータセットは、実際に見られる安全性と誤用のリスクを反映していないことがよくあります。^【5]

このような制限は、言語モデルの本番環境での使用を通知するという明確な目的でアカデミックデータセットが作成されることはめったになく、そのようなモデルを大規模に展開することで得られる経験から利益を得られないという事実を反映しています。その結果、モデルの安全性を測定するための新しい評価データセットとフレームワークを開発しており、まもなくリリースする予定です。具体的には、モデル出力の毒性を測定するための新しい評価指標を開発し、違反するコンテンツを検出するための社内分類子も開発しました。コンテンツポリシー、エロティックなコンテンツ、悪意のある表現、暴力、嫌がらせ、自傷行為など。これらは両方とも、トレーニング前のデータを改善するためにも活用されています。^【6]-具体的には、分類子を使用してコンテンツを除外し、評価指標を使用してデータセット介入の効果を測定します。

さまざまな次元に沿って個々のモデル出力を確実に分類することは困難であり、OpenAIAPIのスケールでそれらの社会的影響を測定することはさらに困難です。そのような測定のための制度的な筋肉を構築するために、私たちはいくつかの内部研究を実施しましたが、これらはしばしば答えよりも多くの質問を提起しました。

特に、モデルの経済的影響とそれらの影響の分布をよりよく理解することに関心があります。現在のモデルの展開による労働市場への影響は、すでに絶対的な意味で重要である可能性があり、モデルの機能と到達範囲が拡大するにつれて、それらは拡大すると考える十分な理由があります。これまでに、コピーライティングや要約などの個人によって実行される既存のタスクの大幅な生産性の向上（場合によってはジョブの移動や作成に寄与する）や、APIが以前は実行不可能だった新しいアプリケーションのロックを解除した場合など、さまざまなローカル効果について学びました。、そのような大規模な定性的フィードバックの統合。しかし、正味の影響についてはよく理解されていません。

強力なAIテクノロジーを開発および展開する人々にとって、作業のプラスとマイナスの両方の影響に正面から取り組むことが重要であると私たちは信じています。この投稿の最後のセクションで、その方向へのいくつかのステップについて説明します。

AIシステムの安全性と有用性の関係

チャーター、2018年に発表された私たちは、「後期のAGI開発が、適切な安全対策を講じる時間がない競争競争になることを懸念している」と述べています。その後、公表競争力のあるAI開発の詳細な分析、および私たちは綿密にフォローしていますそれに続きますリサーチ。同時に、OpenAI APIを介してAIシステムを導入することで、安全性と実用性の相乗効果についての理解も深まりました。

たとえば、開発者は、ユーザーの意図に従うように微調整されたInstructGPTモデルを圧倒的に好みます。^【7]-ベースGPT-3モデル上。ただし、特に、InstructGPTモデルは、もともと商業的な考慮事項によって動機付けられたのではなく、長期的に進歩することを目的としていました。アラインメントの問題。実際には、これは、おそらく驚くことではないが、顧客はタスクを継続してユーザーの意図を理解するモデルと、有害または不正確な出力を生成する可能性が低いモデルを非常に好むことを意味します。^【8] 私たちの研究など、他の基礎研究情報を活用するより正直に質問に答えるためにインターネットから取得され、AIシステムの商業的有用性を向上させる可能性もあります。^【9]

これらの相乗効果は常に発生するとは限りません。たとえば、より強力なシステムは、効果的に評価および調整するためにより多くの時間がかかることが多く、利益の即時の機会を排除します。また、負の外部性のために、ユーザーの効用と社会の効用が一致しない場合があります。完全に自動化されたコピーライティングを検討してください。これは、コンテンツクリエーターにとっては有益ですが、情報エコシステム全体にとっては悪いことです。

安全性と実用性の強力な相乗効果の事例を見るのは心強いですが、私たちは安全性と政策研究が商業的有用性とトレードオフの場合でも投資することを約束します。

私たちは、安全性と政策研究が商業的有用性とトレードオフの場合でも、それらに投資することを約束します。

参加する方法

上記の各レッスンでは、独自の新しい質問が発生します。どのような種類の安全事故がまだ検出および予測に失敗している可能性がありますか？どうすればリスクと影響をより適切に測定できますか？モデルの安全性と有用性の両方を改善し続け、発生した場合にこれらXNUMXつの間のトレードオフをナビゲートするにはどうすればよいでしょうか。

これらの問題の多くは、言語モデルを導入している他の企業と積極的に話し合っています。しかし、すべての答えを持っている組織や組織のセットがないこともわかっています。読者が最先端のAIシステムの展開を理解し、形作ることにもっと関与できるいくつかの方法を強調したいと思います。

まず、最先端のAIシステムと直接対話する経験を積むことは、それらの機能と影響を理解するために非常に貴重です。誤用を効果的に検出して対応する能力に自信を持った後、最近APIウェイティングリストを終了しました。の個人サポートされている国と地域サインアップすることでOpenAIAPIにすばやくアクセスできますこちら.

第二に、偏見や誤用など、私たちにとって特に関心のあるトピックに取り組んでおり、財政的支援の恩恵を受ける研究者は、 -。外部調査は、これらの多面的なシステムについての私たちの理解と、より広い一般の理解の両方に情報を提供するために不可欠です。

最後に、本日、研究アジェンダ Codexファミリーのモデルに関連する労働市場への影響を調査し、この調査の実施に外部の協力者を呼びかけます。私たちは、独立した研究者と協力して、適切なポリシー介入を通知するためにテクノロジーの効果を研究し、最終的にはコード生成から他のモダリティに思考を拡大することに興奮しています。

責任を持って最先端のAIテクノロジーを導入することに関心がある場合は、適用する OpenAIで働くために！

タイムスタンプ： 2022 年 3 月 3 日

タイムスタンプ： 2022 年 8 月 31 日

プラトン再発行

スーパーアライメント高速グラント

AI 助成プログラムへの民主的な投入: 得られた教訓と実施計画

ChatGPT でデータを管理する新しい方法

OpenAI、取締役会の新メンバーを発表

AI システムはどのように動作し、誰が決定する必要がありますか?

ビデオプレトレーニング（VPT）でMinecraftをプレイする方法を学ぶ

モデルに不確実性を言葉で表現するよう教える

DALL・E: Outpainting の紹介

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー