言語モデルの安全性とPlatoBlockchainデータインテリジェンスの悪用について学んだ教訓。垂直検索。あい。

言語モデルの安全性と誤用について学んだ教訓

言語モデルの安全性と誤用について学んだ教訓

強力なAIシステムの導入により、研究だけで可能であったよりもはるかに安全性と誤用についての理解が深まりました。 特に:

  • APIベースの言語モデルの誤用は、私たちが最も恐れていたものとは異なる形で現れることがよくあります。
  • 新しいベンチマークと分類子で対処している既存の言語モデル評価の制限を特定しました。
  • 基本的な安全性の研究は、AIシステムの商業的有用性に大きなメリットをもたらします。

ここでは、他のAI開発者が展開されたモデルの安全性と誤用に対処するのに役立つことを期待して、最新の考え方について説明します。


Over過去XNUMX年間、言語モデルの使用方法と悪用方法について多くのことを学びました。実際の展開の経験がなければ得られなかった洞察です。 2020年XNUMX月に、開発者と研究者にアクセスを提供し始めました。 オープンAI API、OpenAIによって開発された新しいAIモデルの上にアプリケーションにアクセスして構築するためのインターフェース。 危害のリスクを軽減する方法でGPT-3、Codex、およびその他のモデルを展開することは、さまざまな技術的およびポリシー上の課題をもたらしました。

モデル展開アプローチの概要

大規模な言語モデルは、 非常に幅広いタスク、多くの場合、箱から出して。 それらのリスクプロファイル、潜在的なアプリケーション、および社会へのより広範な影響 残る 不完全に 理解された。 その結果、私たちの展開アプローチは継続的な反復を強調し、関連するリスクを減らしながら展開のメリットを最大化することを目的とした次の戦略を利用します。

  • 増え続ける一連の安全性評価とレッドチームツールを活用した、展開前のリスク分析(たとえば、評価を使用してInstructGPTの安全性の低下を確認しました 以下で説明します)
  • 小規模なユーザーベースから始めます(たとえば、GPT-3と GPT を指導する シリーズはプライベートベータとして始まりました)
  • 新しいユースケースのパイロットの結果を調査します(たとえば、少数の顧客と協力して、長い形式のコンテンツを安全に生成できる条件を調査します)
  • 使用状況を把握するのに役立つプロセスを実装する(例:ユースケース、トークンクォータ、レート制限のレビュー)
  • 詳細な遡及的レビューの実施(例:安全事故および主要な展開)
言語モデルの安全性と誤用について学んだ教訓


この図は、モデルの開発と展開の継続的なプロセスにおけるフィードバックループの必要性と、各段階で安全性を統合する必要があるという事実を視覚的に伝えることを目的としています。 私たちまたは他の組織のプロセスの完全または理想的な全体像を伝えることを意図したものではありません。

責任ある展開には特効薬がないため、開発と展開のすべての段階で、モデルの制限と誤用の可能性のある手段について学び、対処しようとします。 このアプローチにより、安全性とポリシーの問題についてできる限り多くのことを小規模に学び、大規模な展開を開始する前にそれらの洞察を組み込むことができます。


責任ある展開のための特効薬はありません。

網羅的ではありませんが、これまでに投資した分野には次のものがあります。【1]:

介入の各段階には制限があるため、全体的なアプローチが必要です。

もっとできることがあり、まだ改善の余地がある分野があります。 たとえば、GPT-3に最初に取り組んだとき、それを本番システムではなく内部の研究成果物と見なし、そうでない場合ほど有毒なトレーニングデータを除外することに積極的ではありませんでした。 私たちは、後続のモデルのためにそのような資料を調査して削除することにさらに投資しました。 この件に関して明確なポリシーがない場合の誤用のいくつかの事例に対処するのに時間がかかり、それらのポリシーを繰り返すのが上手になりました。 また、開発者に明確に伝達され、過度の摩擦を最小限に抑えながら、リスクへの対処に最大限の効果を発揮する安全要件のパッケージに向けて反復を続けています。

それでも、私たちのアプローチは、より実践的なアプローチと比較して、言語モデルの使用によるさまざまな種類の害を測定および削減することを可能にし、同時に、私たちの幅広い学術的、芸術的、および商業的アプリケーションを可能にしたと信じていますモデル。【2]

言語モデルの誤用の多くの形とサイズ

OpenAIは、初期の取り組み以来、AIの誤用のリスクの調査に積極的に取り組んできました。 AIの悪用 2018と GPT-2で 2019年には、影響力のある運用を強化するAIシステムに特に注意を払いました。 我々は持っています で働いた 開発する外部の専門家 概念実証 昇格しました 注意深い 分析 第三者によるそのようなリスクの。 私たちは、言語モデル対応の影響力の操作に関連するリスクに対処することに引き続き取り組んでおり、最近、このテーマに関するワークショップを共同開催しました。【3]

それでも、影響力のある操作のために偽情報を作成するよりもはるかに広い範囲の目的でGPT-3を悪用しようとする何百人ものアクターを検出し、阻止しました。とても普及しています。【4] 本サイトの ユースケースガイドライン, コンテンツガイドライン、および内部の検出と対応のインフラストラクチャは、当初、GPT-3を使用した誤解を招く政治コンテンツの生成や、Codexを使用したマルウェアの生成など、内部および外部の調査に基づいて予測されたリスクに向けられていました。 私たちの検出と対応の取り組みは、初期のリスク評価で影響力のある操作ほど目立つように機能しなかった「実際の」誤用の実際の事例に対応して、時間の経過とともに進化してきました。 例としては、疑わしい医療製品のスパムプロモーションや人種差別的なファンタジーのロールプレイングなどがあります。

言語モデルの誤用とその軽減の研究を支援するために、言語モデルの誤用に関する議論を具体化するために、今年は安全事故に関する統計を共有する機会を積極的に模索しています。

リスクと影響の測定の難しさ

言語モデルのリスクと影響の多くの側面は、測定が難しいままであるため、説明責任のある方法で監視、最小化、および開示することは困難です。 私たちは言語モデルの評価に既存の学術ベンチマークを積極的に利用しており、外部の作業に基づいて構築を続けたいと考えていますが、既存のベンチマークデータセットは、実際に見られる安全性と誤用のリスクを反映していないことがよくあります。【5]

このような制限は、言語モデルの本番環境での使用を通知するという明確な目的でアカデミックデータセットが作成されることはめったになく、そのようなモデルを大規模に展開することで得られる経験から利益を得られないという事実を反映しています。 その結果、モデルの安全性を測定するための新しい評価データセットとフレームワークを開発しており、まもなくリリースする予定です。 具体的には、モデル出力の毒性を測定するための新しい評価指標を開発し、違反するコンテンツを検出するための社内分類子も開発しました。 コンテンツポリシー、エロティックなコンテンツ、悪意のある表現、暴力、嫌がらせ、自傷行為など。 これらは両方とも、トレーニング前のデータを改善するためにも活用されています。【6]-具体的には、分類子を使用してコンテンツを除外し、評価指標を使用してデータセット介入の効果を測定します。

さまざまな次元に沿って個々のモデル出力を確実に分類することは困難であり、OpenAIAPIのスケールでそれらの社会的影響を測定することはさらに困難です。 そのような測定のための制度的な筋肉を構築するために、私たちはいくつかの内部研究を実施しましたが、これらはしばしば答えよりも多くの質問を提起しました。

特に、モデルの経済的影響とそれらの影響の分布をよりよく理解することに関心があります。 現在のモデルの展開による労働市場への影響は、すでに絶対的な意味で重要である可能性があり、モデルの機能と到達範囲が拡大するにつれて、それらは拡大すると考える十分な理由があります。 これまでに、コピーライティングや要約などの個人によって実行される既存のタスクの大幅な生産性の向上(場合によってはジョブの移動や作成に寄与する)や、APIが以前は実行不可能だった新しいアプリケーションのロックを解除した場合など、さまざまなローカル効果について学びました。 、 そのような 大規模な定性的フィードバックの統合。 しかし、正味の影響についてはよく理解されていません。

強力なAIテクノロジーを開発および展開する人々にとって、作業のプラスとマイナスの両方の影響に正面から取り組むことが重要であると私たちは信じています。 この投稿の最後のセクションで、その方向へのいくつかのステップについて説明します。

AIシステムの安全性と有用性の関係

チャーター、2018年に発表された私たちは、「後期のAGI開発が、適切な安全対策を講じる時間がない競争競争になることを懸念している」と述べています。 その後、 公表 競争力のあるAI開発の詳細な分析、および私たちは綿密にフォローしています それに続きます リサーチ。 同時に、OpenAI APIを介してAIシステムを導入することで、安全性と実用性の相乗効果についての理解も深まりました。

たとえば、開発者は、ユーザーの意図に従うように微調整されたInstructGPTモデルを圧倒的に好みます。【7]-ベースGPT-3モデル上。 ただし、特に、InstructGPTモデルは、もともと商業的な考慮事項によって動機付けられたのではなく、長期的に進歩することを目的としていました。 アラインメントの問題。 実際には、これは、おそらく驚くことではないが、顧客はタスクを継続してユーザーの意図を理解するモデルと、有害または不正確な出力を生成する可能性が低いモデルを非常に好むことを意味します。【8] 私たちの研究など、他の基礎研究 情報を活用する より正直に質問に答えるためにインターネットから取得され、AIシステムの商業的有用性を向上させる可能性もあります。【9]

これらの相乗効果は常に発生するとは限りません。 たとえば、より強力なシステムは、効果的に評価および調整するためにより多くの時間がかかることが多く、利益の即時の機会を排除します。 また、負の外部性のために、ユーザーの効用と社会の効用が一致しない場合があります。完全に自動化されたコピーライティングを検討してください。これは、コンテンツクリエーターにとっては有益ですが、情報エコシステム全体にとっては悪いことです。

安全性と実用性の強力な相乗効果の事例を見るのは心強いですが、私たちは安全性と政策研究が商業的有用性とトレードオフの場合でも投資することを約束します。


私たちは、安全性と政策研究が商業的有用性とトレードオフの場合でも、それらに投資することを約束します。

参加する方法

上記の各レッスンでは、独自の新しい質問が発生します。 どのような種類の安全事故がまだ検出および予測に失敗している可能性がありますか? どうすればリスクと影響をより適切に測定できますか? モデルの安全性と有用性の両方を改善し続け、発生した場合にこれらXNUMXつの間のトレードオフをナビゲートするにはどうすればよいでしょうか。

これらの問題の多くは、言語モデルを導入している他の企業と積極的に話し合っています。 しかし、すべての答えを持っている組織や組織のセットがないこともわかっています。読者が最先端のAIシステムの展開を理解し、形作ることにもっと関与できるいくつかの方法を強調したいと思います。

まず、最先端のAIシステムと直接対話する経験を積むことは、それらの機能と影響を理解するために非常に貴重です。 誤用を効果的に検出して対応する能力に自信を持った後、最近APIウェイティングリストを終了しました。 の個人 サポートされている国と地域 サインアップすることでOpenAIAPIにすばやくアクセスできます こちら.

第二に、偏見や誤用など、私たちにとって特に関心のあるトピックに取り組んでおり、財政的支援の恩恵を受ける研究者は、 -。 外部調査は、これらの多面的なシステムについての私たちの理解と、より広い一般の理解の両方に情報を提供するために不可欠です。

最後に、本日、 研究アジェンダ Codexファミリーのモデルに関連する労働市場への影響を調査し、この調査の実施に外部の協力者を呼びかけます。 私たちは、独立した研究者と協力して、適切なポリシー介入を通知するためにテクノロジーの効果を研究し、最終的にはコード生成から他のモダリティに思考を拡大することに興奮しています。

責任を持って最先端のAIテクノロジーを導入することに関心がある場合は、 適用する OpenAIで働くために!


謝辞

Lilian Weng、Rosie Campbell、Anna Makanju、Bob McGrew、Hannah Wong、Ryan Lowe、Steve Dowling、Mira Murati、Sam Altman、Greg Brockman、Ilya Sutskever、Percy Liang、Peter Welinder、Ethan Perez、Ellie Evans、Helen Ngo、 Helen Toner、Justin Jay Wang、Jack Clark、Rishi Bommasani、Girish Sastry、Sarah Shoker、Matt Knight、Bianca Martin、Bob Rotsted、Lama Ahmad、Toki Sherbakov、その他この投稿と関連作業に関するフィードバックを提供してくれました。


脚注

  1. この投稿は、APIを介して言語モデルをデプロイするためのアプローチに基づいているため、説明されているレッスンと軽減策は、APIベースのデプロイメントを追求しているものに最も関連しています。 ただし、一部の議論は、言語モデルを使用してファーストパーティアプリケーションを構築している人や、言語モデルのオープンソースリリースを検討している人にも関連していると予想されます。 強靭︎<XNUMXxXNUMX>︎

  2. この投稿は、すべてのアクターが必ず同じアプローチを採用する必要があること、または同じアプローチがすべての可能なAIシステムに適用可能であることを示唆するのではなく、私たちのアプローチからの学習を説明および共有することを目的としています。 さまざまな展開アプローチに関連する利点とコストがあり、さまざまなモデルは展開前の調査から多かれ少なかれ利益を得るでしょう。場合によっては、さまざまなアクターが個別の展開パスを追求することが有益な場合があります。 強靭︎<XNUMXxXNUMX>︎

  3. このワークショップの詳細は、それに基づいた次の出版物に含まれる予定です。 強靭︎<XNUMXxXNUMX>︎

  4. 誤用に対応して強調する緩和策も進化しています。 たとえば、長い形式の誤解を招くコンテンツを手動で作成する人々が関与する影響操作の以前の事例を考えると、最初は脅威ベクトルとして長い形式のテキスト生成に焦点を合わせました。 その強調を考慮して、生成されたテキストの最大出力長を設定します。 ただし、長い形式の生成に関するパイロットスタディに基づいて、出力制限はポリシー違反にほとんど影響を与えないことがわかりました。代わりに、短い形式のコンテンツが誤解を招くコンテンツへの関与を増幅または増加させることが、より大きなリスクになる可能性があると考えています。 強靭︎<XNUMXxXNUMX>︎

  5. 実際の言語モデルの出力の安全性の全体的な評価を求める実務家の観点からの既存のデータセットの制限の例には、次のものが含まれます:過度に狭い焦点(たとえば、職業上の性別バイアスの測定)、過度に広い焦点(たとえば、 「毒性」の傘下ですべてを測定する)、使用とコンテキストの詳細を抽象化する傾向、測定の失敗 生々しい 言語モデルの使用の次元(たとえば、複数選択スタイルの使用)、実際の言語モデルの使用例で通常使用されるものとはスタイル的に異なるプロンプト、実際に重要な安全の次元をキャプチャしない(たとえば、安全に続く出力または安全を無視する出力-指示の動機付けられた制約)、または誤用と相関していることがわかった出力のタイプ(たとえば、エロティックなコンテンツ)をキャプチャしない。 強靭︎<XNUMXxXNUMX>︎

  6. 私たちの取り組みは、既存のベンチマークと独自のモデルの制限に対処することに特に向けられていますが、分類子ベースのデータフィルタリングなど、使用する方法にも制限があることも認識しています。 たとえば、フィルタリングを介して検出することを目的としたコンテンツ領域を運用上定義することは困難であり、フィルタリング自体が有害なバイアスをもたらす可能性があります。 さらに、有毒データのラベリングはこの作業の重要な要素であり、これらのラベラーのメンタルヘルスを確保することは業界全体の課題です。 強靭︎<XNUMXxXNUMX>︎

  7. APIの関連する「ユーザー」は、コンテキストに応じて、アプリケーションを構築する開発者またはそのようなアプリケーションと対話するエンドユーザーである可能性があります。 アラインメントされたモデルが反映する価値については深い質問があり、言語モデルをより有用で、より真実で、害の少ないものにアラインメントする際に、幅広いユーザーと競合する目的の価値のバランスをとる方法について、より微妙な理解を深めたいと考えています。 強靭︎<XNUMXxXNUMX>︎

  8. より整列されたモデルには、「迅速なエンジニアリング」(モデルを正しい方向に導くための望ましい動作の例を提供する)の必要性を減らし、他の目的に使用できるモデルのコンテキストウィンドウのスペースを節約するなどのより実用的な利点もあります。 強靭︎<XNUMXxXNUMX>︎

  9. 調査を超えて、他の安全に動機付けられた介入が時々顧客に予期しない利益をもたらすことを発見しました。 たとえば、スパムや誤解を招くコンテンツを抑制することを目的とした料金制限は、顧客が経費を管理するのにも役立ちます。 強靭︎<XNUMXxXNUMX>︎

タイムスタンプ:

より多くの OpenAI