Anthropic 通过让用户为其价值观投票来构建民主的人工智能聊天机器人

Anthropic 通过让用户为其价值观投票来构建民主的人工智能聊天机器人

在此类研究中,人工智能 (AI) 公司 Anthropic 开发了一种大型语言模型 (LLM),该模型已针对用户社区的价值判断进行了微调。

许多面向公众的法学硕士在开发时都设有护栏——规定特定行为的编码指令——以试图限制不需要的输出。 例如,Anthropic 的 Claude 和 OpenAI 的 ChatGPT 通常会针对与暴力或有争议主题相关的输出请求向用户提供预设的安全响应。

然而,正如无数专家指出的那样,护栏和其他干预技术可能会剥夺用户的代理权。被认为可以接受的东西并不总是有用的,被认为有用的东西也并不总是可以被接受的。道德或基于价值的判断的定义可能因文化、民众和时期的不同而有所不同。

相关新闻: 英国将在 XNUMX 月峰会上针对潜在的人工智能威胁

对此的一种可能的补救措施是允许用户决定人工智能模型的价值调整。 Anthropic 的“集体宪政人工智能”实验就是针对这一“混乱挑战”的尝试。

Anthropic 与 Polis 和 Collective Intelligence Project 合作,挖掘了 1,000 名不同人群的用户,并要求他们通过民意调查回答一系列问题。

Anthropic 通过让用户投票支持其价值观 PlatoBlockchain 数据智能来构建民主的人工智能聊天机器人。垂直搜索。人工智能。
资源, 人类的

挑战的核心是让该机构的用户能够确定什么是适当的,而不会让他们接触到不适当的输出。 这涉及征求用户价值,然后将这些想法实施到已经训练过的模型中。

Anthropic 使用一种名为“Constitutional AI”的方法来 直接 它努力调整法学硕士的安全性和实用性。从本质上讲,这涉及为模型提供一系列必须遵守的规则,然后训练它在整个过程中实施这些规则,就像宪法作为许多国家治理的核心文件一样。

在集体宪法人工智能实验中,Anthropic 试图将基于群体的反馈整合到模型的宪法中。结果, 根据 根据 Anthropic 的一篇博客文章,这似乎是一项科学上的成功,因为它阐明了实现允许法学硕士产品的用户确定其集体价值观这一目标的进一步挑战。

团队必须克服的困难之一是为基准测试过程提出一种新颖的方法。 由于该实验似乎是此类实验中的第一个,并且它依赖于 Anthropic 的宪法人工智能方法,因此没有既定的测试来将基本模型与众包值调整的模型进行比较。

最终,似乎实现了用户投票反馈数据的模型在有偏差的输出方面“略微”优于基本模型。

根据博客文章:

“我们对这个过程感到兴奋的不仅仅是最终的模型。 我们相信,这可能是公众作为一个群体有意指导大型语言模型行为的首批实例之一。 我们希望世界各地的社区能够利用此类技术来训练满足其需求的特定文化和特定环境的模型。”

时间戳记:

更多来自 Cointelegraph