Anthropic は、ユーザーがその価値観に投票できるようにすることで、民主的な AI チャットボットを構築しました

Anthropic は、ユーザーがその価値観に投票できるようにすることで、民主的な AI チャットボットを構築しました

おそらくこの種のものとしては初の研究で、人工知能 (AI) 企業 Anthropic は、ユーザー コミュニティによる価値判断に合わせて微調整された大規模言語モデル (LLM) を開発しました。

公開されている LLM の多くは、望ましくない出力を制限するために、ガードレール (特定の動作を指示するエンコードされた命令) を備えて開発されています。 たとえば、Anthropic の Claude と OpenAI の ChatGPT は通常、暴力的または物議を醸すトピックに関連する出力リクエストに対して、定型の安全な応答をユーザーに提供します。

しかし、無数の専門家が指摘しているように、ガードレールやその他の介入技術は、ユーザーの主体性を奪うのに役立つ可能性があります。許容されると考えられているものが常に有用であるとは限りませんし、有用であると考えられているものが常に許容されるとは限りません。また、道徳や価値観に基づく判断の定義は、文化、人口、時代によって異なる場合があります。

関連する 英国、XNUMX月に予定されているサミットで潜在的なAIの脅威を標的に

これに対する考えられる解決策の 1 つは、ユーザーが AI モデルの値の調整を指示できるようにすることです。 Anthropic の「集団憲法 AI」実験は、この「厄介な課題」に挑戦するものです。

Anthropic は、Polis および Collective Intelligence Project と協力して、さまざまな層の 1,000 人のユーザーを集め、アンケートを通じて一連の質問に回答するよう依頼しました。

Anthropic は、PlatoBlockchain Data Intelligence の価値にユーザーが投票できるようにすることで、民主的な AI チャットボットを構築しました。垂直検索。あい。
ソース、 人間原理

この課題は、ユーザーを不適切な出力にさらすことなく、政府機関が何が適切かを判断できるようにすることに重点を置いています。 これには、ユーザーの価値観を募り、それらのアイデアをすでにトレーニングされたモデルに実装することが含まれます。

Anthropic は「Constitutional AI」と呼ばれる手法を使用して、 直接 安全性と有用性を高めるために LLM を調整する取り組み。基本的に、これには、憲法が多くの国家の統治の中核文書として機能するのと同じように、遵守すべきルールのリストをモデルに与え、そのプロセス全体を通じてそれらのルールを実装するようにモデルをトレーニングすることが含まれます。

集団的体質 AI の実験において、Anthropic はグループベースのフィードバックをモデルの体質に統合することを試みました。結果、 従った Anthropic のブログ投稿によると、LLM 製品のユーザーが自分たちの集団的価値観を決定できるようにするという目標の達成に向けたさらなる課題を明らかにしたという点で、科学的には成功したようです。

チームが克服しなければならなかった困難の XNUMX つは、ベンチマーク プロセスの新しい方法を考え出すことでした。 この実験はこの種の実験としては初めてと思われ、Anthropic の憲法 AI 手法に依存しているため、基本モデルとクラウドソースの値で調整されたモデルを比較するための確立されたテストはありません。

最終的には、ユーザーのポーリングによるフィードバックから得られたデータを実装したモデルが、偏った出力の領域で基本モデルを「わずかに」上回ったように見えます。

ブログ投稿によると:

「結果として得られるモデルよりも、私たちはそのプロセスに興奮しています。 これは、一般の人々が集団として、大規模な言語モデルの動作を意図的に指示した最初の例の XNUMX つである可能性があると私たちは考えています。 私たちは、世界中のコミュニティがこのような技術を基礎にして、ニーズを満たす文化的および文脈固有のモデルをトレーニングできることを願っています。」

タイムスタンプ:

より多くの 合同グラフ