AIと人間の価値観を一致させるとはどういう意味ですか? PlatoBlockchain データ インテリジェンス。垂直検索。あい。

AI を人間の価値観に合わせるとはどういう意味ですか?

概要

何年も前に、私は古い Symbolics Lisp マシンでプログラミングを学びました。 オペレーティング システムには、「Do What I Mean」の略で「DWIM」というスペルが組み込まれたコマンドがありました。 コマンドを入力してエラーが発生した場合、「DWIM」と入力すると、マシンが何をしようとしているのかを理解しようとします。 驚くべきことに、実際に機能しました。

DWIM コマンドは、「AI の調整」というより現代的な問題の縮図でした。人間は、マシンにあいまいな指示や誤った指示を与える傾向があり、必ずしも自分の言うことではなく、自分の意図することをマシンに実行してもらいたいのです。

コンピューターは、私たちが何をしてほしいかをしばしば誤解し、予期せぬ、しばしば面白い結果をもたらします。 たとえば、ある機械学習研究者は、画像分類プログラムの疑わしいほど良い結果を調査しているときに、 発見 画像自体ではなく、画像ファイルにアクセスするのにかかった時間に基づいて分類していたということです。さまざまなクラスの画像がデータベースに保存されており、アクセス時間はわずかに異なります。 別 進取の気性に富んだプログラマー ルンバの掃除機が家具にぶつかるのをやめさせたいと考えた彼は、ルンバをニューラル ネットワークに接続しました。ニューラル ネットワークは、フロント バンパーが何かに衝突したときにルンバを罰しますが、速度には報酬を与えます。 マシンは常に後退することでこれらの目的に対応しました。

しかし、AI アラインメント研究者のコミュニティは、これらの逸話の暗い側面を見ています。 実際、彼らは、私たちが本当にやりたいことを機械が識別できないことは、実存的なリスクであると考えています. この問題を解決するには、AI システムを人間の好み、目標、価値観に合わせる方法を見つけなければならないと彼らは信じています。

この見解は、2014 年のベストセラー本で注目を集めました。 スーパーインテリジェンス 哲学者のニック・ボストロムは、コンピュータの知能の向上が人類の未来に直接的な脅威をもたらす可能性があると主張しました。 ボストロムは知性を正確に定義したことはありませんが、AI アラインメント コミュニティの他のほとんどの人と同じように、後で定義を採用しました。 関節式 AI研究者による スチュアート・ラッセル として:「大まかに言えば、エンティティが知覚したことを考慮して、その目的を達成することが期待される行動を選択する場合、エンティティは知的であると見なされます。」

Bostrom は、AI のリスクに関する彼の見解を XNUMX つの論文に基づいています。 XNUMX つ目は直交性のテーゼであり、ボストロムの言葉を借りれば、「知性と最終目標は、可能なエージェントがそれに沿って自由に変化できる直交軸です。 言い換えれば、多かれ少なかれあらゆるレベルの知性を、多かれ少なかれあらゆる最終目標と組み合わせることができます。」 XNUMX つ目は道具的収斂のテーゼです。これは、知的エージェントが最終目標を達成する可能性を高める限り、エージェントは自身の生存、自己改善、およびリソースの獲得を促進する方法で行動することを意味します。 それから、彼は最後の仮定を XNUMX つ立てました。それは、研究者はすぐに AI の超知性を生み出すだろうということです。それは、「実質的にすべての関心領域で人間の認知能力を大幅に超える」ものです。

AI アラインメント コミュニティの Bostrom や他の人々にとって、この見通しは、超知能 AI を私たちの欲求や価値観に合わせることに成功しない限り、人類にとって破滅を意味します。 Bostrom は、今では有名な思考実験でこの危険性を説明しています。超知能 AI に、ペーパー クリップの生産を最大化するという目標を与えることを想像してみてください。 Bostrom の論文によると、この目的を達成するために、AI システムはその超人的な輝きと創造性を利用して自身の力と制御を強化し、最終的に世界中のすべてのリソースを取得してより多くのペーパー クリップを製造します。 人類は滅亡しますが、ペーパー クリップの生産は確実に最大化されます。

知性は目標を達成する能力によって定義され、どんな目標も人間によって超知的な AI エージェントに「挿入」される可能性があり、そのようなエージェントはその超知性を使用してその目標を達成するためにあらゆることを行うと信じるなら、あなたは同じに到着 結論 ラッセルは次のように述べています。

人間の欲望を誤って解釈した制御不能な機械によって人類が脅かされているというのは、サイエンス フィクションでおなじみの比喩です。 現在、AI 研究コミュニティのかなりの部分が、この種のシナリオが実際に展開されることを深く懸念しています。 数十の研究機関がすでにこの問題に数億ドルを費やしており、世界中の大学や、Google、Meta、OpenAI などの大手 AI 企業で連携に関する研究が進行中です。

失業、偏見、プライバシー侵害、誤った情報の拡散など、超知能を持たない AI がもたらす差し迫ったリスクについてはどうだろうか? そのような短期的なリスクを主に懸念しているコミュニティと、長期的なアラインメントのリスクをより心配しているコミュニティとの間には、ほとんど重複がないことが判明しました。 実際、AI 文化戦争のようなものがあります。一方は、非現実的な技術的未来主義と見なすものよりも、これらの現在のリスクを懸念しており、もう一方は、現在の問題は、超知能 AI によってもたらされる潜在的な壊滅的なリスクよりも緊急性が低いと考えています。

これらの特定のコミュニティ以外の多くの人にとって、AI の連携は宗教のように見えます。崇拝される指導者、疑問の余地のない教義、献身的な弟子たちが潜在的に全能の敵 (非連携の超知性 AI) と戦う宗教です。 実際、コンピューター科学者でブロガーの Scott Aaronson は最近、 注意 現在、AI アラインメントの信仰には「正統派」と「改革派」の分岐があること。 前者は、「人間を破壊するために機能している間に人間を欺く、ずれている AI」についてほぼ完全に心配している、と彼は書いています。 対照的に、彼は次のように書いています。

多くの研究者が、アライメントに基づくプロジェクトに積極的に取り組んでいます。 原則を伝える試み 道徳哲学を機械に、 大規模な言語モデルのトレーニング クラウドソーシングによる倫理的判断について。 これらの取り組みはどれも、マシンに現実世界の状況について推論させるのに特に役立つものではありませんでした。 多くの著述家は、機械が人間の好みや価値観を学習することを妨げている多くの障害に注目しています。人々はしばしば不合理であり、自分の価値観と矛盾する方法で行動し、価値観は個々の生涯や世代によって変化する可能性があります。 結局のところ、機械に誰の値を学習させるべきかは明確ではありません。

アライメント コミュニティの多くは、今後の最も有望な道は、として知られる機械学習技術であると考えています。 逆強化学習 (実生活では)。 IRL では、マシンに最大化の目的が与えられていません。 このような「挿入された」目標は、意図せずしてペーパー クリップ マキシマイザー シナリオにつながる可能性があると、整合の支持者は考えています。 代わりに、マシンのタスクは、人間の行動を観察し、その好み、目標、および価値を推測することです。 近年、研究者は IRL を使用して ビデオゲームをプレイする機械を訓練する 人間を観察し、ロボットに教える バックフリップのやり方 人間から段階的なフィードバックを与えることによって (人々はロボットのさまざまな試みの短いクリップを見て、最もよく見えるものを選びました)。

同様の方法で、人間の価値観に関するより微妙で抽象的な概念を機械に学習させることができるかどうかは不明です。 作家のブライアン・クリスチャンは、 AI アライメントに関する人気の科学書、楽観的です。 または「優しさ」。 または「良い」行動。」

しかし、これは課題を過小評価していると思います。 親切や善行などの倫理的概念は、IRL がこれまでに習得したものよりもはるかに複雑で、文脈に依存しています。 「真実性」の概念を考えてみてください。これは、私たちが AI システムに求めている価値です。 実際、今日の大規模な言語モデルの主な問題は、真実と虚偽を区別できないことです。 同時に、プライバシーを保護するため、他人を侮辱することを避けるため、または他の無数の明確に表現するのが難しい状況の中で誰かを安全に保つために、人間と同じように AI アシスタントに真実性を和らげることが必要になる場合があります。

他の倫理的概念も同様に複雑です。 機械に倫理的な概念を教えるための重要な最初のステップは、そもそも機械が人間のような概念を理解できるようにすることであることは明らかです。 最も重要な未解決の問題.

さらに、AI アラインメントの概念の根底にある科学には、さらに根本的な問題があると考えています。 ほとんどの議論では、超知的な AI は、すべての認知タスクで人間を凌駕しているが、依然として人間のような常識を欠いており、本質的に奇妙に機械的なままである機械であると想像されています。 そして重要なことに、ボストロムの直交性のテーゼに沿って、マシンは独自の目標や値を持たずに超知性を達成し、代わりに人間によって目標が挿入されるのを待ちます。

しかし、知性はこのように機能するでしょうか? 現在の心理学や神経科学では、この可能性を支持するものは何もありません。 少なくとも人間では、知性は私たちの目標や価値観、自己意識、特定の社会的および文化的環境と深く結びついています。 一種の純粋な知性がこれらの他の要因から分離できるという直感は、 多くの失敗した予測 AIの歴史の中で。 私たちの知る限りでは、一般的にインテリジェントな AI システムの目標を簡単に挿入することはできず、独自の社会的および文化的育成の結果​​として、私たちのように開発する必要がある可能性がはるかに高いようです。

彼の本で 人間対応、ラッセルは、アラインメントの問題に関する研究の緊急性について次のように主張しています。 」 しかし、知性とは何か、また知性が私たちの生活の他の側面からどれほど分離可能であるかをよりよく理解しない限り、問題を定義することさえできず、ましてや解決策を見つけることはできません。 アラインメントの問題を適切に定義して解決することは容易ではありません。 そのためには、科学に基づいた幅広い知性理論を開発する必要があります。

タイムスタンプ:

より多くの クアンタマガジン