今天的人工智能是人工人工智能

由柏拉图重新发布

关注： 0

通过 Amazon Mechanical Turk 等众包服务雇佣的员工正在使用大型语言模型来完成他们的任务——这可能在未来对人工智能模型产生负面的连锁反应。

数据对人工智能至关重要。开发人员需要干净、高质量的数据集来构建准确可靠的机器学习系统。然而，汇编有价值的一流数据可能很乏味。公司经常求助于第三方平台，如 Amazon Mechanical Turk，以指导廉价工人池执行重复性任务，例如标记对象、描述情况、转录段落和注释文本。

他们的输出可以被清理并输入一个模型来训练它在更大的自动化规模上重现该工作。

因此，AI 模型是建立在人类劳动的基础上的：人们辛勤工作，为 AI 系统提供大量训练示例，企业可以利用这些示例赚取数十亿美元。

但瑞士洛桑联邦理工学院 (EPFL) 的研究人员进行的一项实验得出的结论是，这些众包工人正在使用 AI 系统——例如 OpenAI 的聊天机器人 ChatGPT——在线执行零工。

不建议根据自己的输出训练模型。我们可以看到 AI 模型不是根据人生成的数据进行训练的，而是由其他 AI 模型生成的——甚至可能是相同的模型。这可能会导致灾难性的输出质量、更多的偏见和其他不良影响。

本实验

学术界招募了 44 名 Mechanical Turk 农奴来总结 16 篇医学研究论文的摘要，并估计工人提交的文本段落中有 33% 到 46% 是使用大型语言模型生成的。人群工作者的工资通常很低——使用人工智能自动生成响应可以让他们工作得更快，并承担更多的工作以增加工资。

瑞士团队训练了一个分类器来预测来自 Turker 的提交是人工生成的还是人工智能生成的。学者们还记录了他们工人的击键，以检测农奴是将文本复制粘贴到平台上，还是自己输入。总是有人使用聊天机器人然后手动输入输出的机会——但我们认为这不太可能。

“我们开发了一种非常具体的方法，非常适合在我们的场景中检测合成文本，”Manoel Ribeiro，该研究和 EPFL 的一名博士生告诉注册这个星期。

“虽然传统方法试图在‘任何上下文’中检测合成文本，但我们的方法侧重于在我们的特定场景中检测合成文本。”

分类器在识别某人是使用人工智能系统还是自己制作作品方面并不完美。学者们将他们的分类器的输出与击键数据结合起来，以便在有人从机器人复制粘贴或制作他们自己的材料时更加确定。

人类数据是黄金标准，因为我们关心的是人类

“我们设法使用同样从 MTurk 收集的击键数据来验证我们的结果，”Ribeiro 告诉我们。 “例如，我们发现所有不是复制粘贴的文本都被我们归类为‘真实’，这表明几乎没有误报。”

用于运行测试的代码和数据可以在这里找到, 在 GitHub 上。

还有另一个原因，该实验不太可能完全公平地代表有多少工人真正使用 AI 来自动化众包任务。作者指出，与其他类型的工作相比，文本摘要任务更适合大型语言模型——这意味着他们的结果可能更倾向于使用 ChatGPT 等工具的更多工人。

他们的 46 名工人的 44 份回复数据集也很小。每个文本摘要向工人支付 1 美元，这可能再次鼓励使用 AI。

研究人员认为，如果大型语言模型越来越多地接受人工智能从众包平台收集的虚假内容的训练，它们将会变得更糟。像 OpenAI 这样的机构将他们训练最新模型的方式严格保密，并且可能不会严重依赖 Mechanical Turk 之类的东西，如果有的话。也就是说，许多其他模型可能依赖于人类工作者，而人类工作者可能反过来使用机器人来生成训练数据，这是一个问题。

例如，Mechanical Turk 作为“为机器学习模型提供动力的数据标签解决方案”的提供商进行营销。

“人类数据是黄金标准，因为我们关心的是人类，而不是大型语言模型，”Riberio 说。 “我不会服用仅在果蝇生物模型中测试过的药物，”他举例说。

研究人员认为，当今人工智能模型产生的反应通常非常平淡或微不足道，并且没有捕捉到人类创造力的复杂性和多样性。

“有时我们想用众包数据研究的恰恰是人类不完美的方式，”该论文的合著者、洛桑联邦理工学院计算机与通信科学学院助理教授罗伯特·韦斯特告诉我们。

随着 AI 的不断改进，众包工作很可能会发生变化。 Riberio 推测，大型语言模型可以取代一些从事特定任务的工人。 “然而，自相矛盾的是，人类数据可能比以往任何时候都更加宝贵，因此这些平台可能会采取措施防止大量语言模型的使用，并确保它仍然是人类数据的来源。”

他补充说，谁知道呢——也许人类最终甚至可能会与大型语言模型合作来生成响应。 ®