作者协会起诉 OpenAI 使用书籍训练 ChatGPT

由柏拉图重新发布

关注： 0

作者协会起诉 OpenAI 使用书籍来训练 ChatGPT PlatoBlockchain 数据智能。垂直搜索。人工智能。

作家协会（一个出版作家的行业协会）和 17 名作者向 OpenAI 发起攻击，指控其使用他们的作品来训练聊天机器人。

在纽约南区提起的版权侵权集体诉讼中，指定原告包括 David Baldacci、Mary Bly、Michael Connelly、Sylvia Day、Jonathan Franzen、John Grisham、Elin Hilderbrand、Christina Baker Kline、Maya Shanbhag Lang 、维克多·拉瓦勒、乔治·R·R·马丁、乔迪·皮考特、道格拉斯·普雷斯顿、罗克珊娜·罗宾逊、乔治·桑德斯、斯科特·图罗和雷切尔·韦尔。

抱怨 [PDF] 认为 OpenAI 的服务“危及小说作家的谋生能力，因为大型语言模型允许任何人自动且免费（或非常便宜地）生成文本，否则他们将付费给作家创作文本。”

抄写员们感到不满的是，OpenAI 不仅在未经许可的情况下在其工作中训练了其模型，而且人工智能系统在响应人们的请求时不公平地复制了他们的作品，或者据称是这样。

投诉指出，ChatGPT 已成功被提示创建“前传书的详细大纲，以 权力的游戏 ...使用马丁现有系列书中的相同角色 冰与火之歌”。加入诉讼的其他作者也可能得到类似的结果。

ChatGPT 这样做的能力是有问题的，因为作者表示他们没有授权 OpenAI 访问他们的作品，而 OpenAI 似乎已经这样做了。作者认为，当人工智能实验室在训练期间将他们的工作输入到模型中时，这相当于未经授权的复制，并且 GPT 模型输出了受版权保护的作品的非法衍生品。

诉讼文件称：“这些算法的核心是大规模的系统性盗窃。”

投诉称，OpenAI 承认使用名为“Books1”和“Books2”的数据集来训练其大型语言模型，但尚未披露其内容。原告怀疑盗版书籍已进入 OpenAI 训练数据。

“从 GPT-3 到 GPT-4 的能力和复杂性的增长表明‘训练’数据集的大小也相应增长，从而得出这样的推论：上面讨论的一个或多个非常大的盗版电子书来源一定被用来‘起诉书称，“OpenAI 无法通过其他方式获得‘训练’像 GPT-4 这样强大的法学硕士所需的大量书籍。”

实际上，投诉确实提到了另一种方式：为用于训练 ChatGPT 的内容付费。但诉讼称 OpenAI 从未想过这样做，并引用了首席执行官萨姆·奥尔特曼 (Sam Altman) 在国会的证词，称他相信版权，并已为一些训练数据付费。

“对于小说作家来说，OpenAI 未经授权使用他们的作品是大规模的身份盗窃，”作家协会首席执行官玛丽·拉森伯格 (Mary Rasenberger) 表示。

“小说作者根据他们的想象创造了全新的世界——他们在故事中创造了地点、人物和事件，”她补充道，然后感叹道：“人们已经在传播由模仿或使用原作者的 GPT 版本生成的内容。 ' 人物和故事。公司正在销售提示，让您“进入”作者书籍的世界。这些都是对原创者知识产权的明显侵犯。”

原告希望“因失去获得其作品许可的机会以及被告[OpenAI]通过让原告不愿意成为他们自己的替代者的同谋而造成的市场侵占而获得损害赔偿；以及防止这些伤害再次发生的永久禁令。”

注册已向 OpenAI 征求意见，如果我们收到实质性答复，我们将更新此报道。 ®