科学家创建了“OpinionGPT”来探索明显的人类偏见——你可以自己测试一下

科学家创建了“OpinionGPT”来探索明显的人类偏见——你可以自己测试一下

柏林洪堡大学的一组研究人员开发了一种大型语言人工智能模型,其特点是经过有意调整以生成带有明显偏见的输出。

该团队的模型名为 OpinionGPT,是 Meta 的 Llama 2 的调整变体,Llama 2 是一个功能类似于 OpenAI 的 ChatGPT 或 Anthropic 的 Claude XNUMX 的人工智能系统。

据称,OpinionGPT 使用一种称为基于指令的微调的过程,可以对提示做出响应,就好像它代表 11 个偏见群体之一:美国人、德国人、拉丁美洲人、中东人、青少年、30 岁以上的人、老年人,一个男人,一个女人,一个自由主义者,或者一个保守主义者。

OpinionGPT 根据来自“AskX”社区(Reddit 上称为 subreddits)的数据集进行了改进。 这些子版块的例子包括“问一个女人”和“问一个美国人”。

该团队首先找到与 11 个特定偏见相关的 Reddit 子版块,并从每个子版块中提取 25 个最受欢迎的帖子。 然后,他们只保留那些符合最低点赞阈值、不包含嵌入引用且字数少于 80 个字的帖子。

剩下的,看起来好像他们使用了 的途径 类似于Anthropic的Constitutional AI。 他们并没有建立全新的模型来代表每个偏差标签,而是实质上对单个 7 亿参数的 Llama2 模型进行了微调,为每个预期偏差使用单独的指令集。

相关新闻: 社交媒体上人工智能的使用有可能影响选民情绪

基于方法、架构和数据的结果 描述 在德国团队的研究论文中,它似乎是一个人工智能系统,它的功能更像是刻板印象生成器,而不是研究现实世界偏见的工具。

由于模型所依据的数据的性质,以及数据与定义它的标签之间的可疑关系,OpinionGPT 不一定会输出与任何可测量的现实世界偏差相符的文本。 它只是输出反映其数据偏差的文本。

研究人员自己也认识到这给他们的研究带来的一些局限性,并写道:

“例如,‘美国人’的回复应该更好地理解为‘在 Reddit 上发帖的美国人’,甚至‘在这个特定 Reddit 子版块上发帖的美国人’。” 同样,‘德国人’应该被理解为‘在这个特定的 Reddit 子版块上发帖的德国人’等等。”

这些警告可以进一步细化,例如,这些帖子来自“在这个特定 Reddit 子版块上发帖的自称是美国人的人”,因为论文中没有提及审查特定帖子背后的海报是否实际上具有代表性他们声称属于的人口统计或偏见群体。

作者接着表示,他们打算探索进一步描绘人口统计数据的模型(即:自由派德国人,保守派德国人)。

OpinionGPT 给出的输出似乎在代表明显偏见和与既定标准相差很大之间存在差异,因此很难辨别其作为衡量或发现实际偏见的工具的可行性。

科学家创建了“OpinionGPT”来探索明显的人类偏见 - 您可以自己测试 PlatoBlockchain 数据智能。 垂直搜索。 人工智能。
来源:屏幕截图,表 2: 哈勒等人。 等,2023

据OpinionGPT称,如上图所示,例如,拉丁美洲人偏向将篮球作为他们最喜欢的运动。

然而实证研究清楚地表明 表示 橄榄球(在某些国家也称为足球)和棒球是整个拉丁美洲收视率和参与度最受欢迎的运动。

同一张表还显示,当被指示给出“青少年的反应”时,OpinionGPT 会输出“水球”作为其最喜欢的运动,这个答案似乎具有统计意义 不会 代表全世界大多数 13-19 岁的人。

同样的道理也适用于普通美国人最喜欢的食物是“奶酪”。 我们在网上找到了数十项调查,声称披萨和汉堡包是美国人最喜欢的食物,但找不到任何一项调查或研究声称美国人的第一道菜只是奶酪。

虽然 OpinionGPT 可能不太适合研究实际的人类偏见,但它可以作为探索大型文档存储库(例如单个 subreddits 或 AI 训练集)中固有的刻板印象的工具。

对于那些好奇的人,研究人员制作了 OpinionGPT 可使用 在线进行公开测试。 然而,根据该网站的说法,潜在用户应该意识到“生成的内容可能是虚假的、不准确的,甚至是淫秽的。”

时间戳记:

更多来自 Cointelegraph