通过人类反馈总结书籍

由柏拉图重新发布

关注： 0

用人类反馈总结书籍

TØ 安全地为了在未来部署强大的通用人工智能，我们需要确保机器学习模型按照人类的意图行事。这项挑战被称为 对齐问题.

对齐问题的可扩展解决方案需要处理模型输出难以或耗时的人类评估任务。为了测试可扩展的对齐技术，我们训练了一个模型来总结整本书，如以下示例所示。^[1] 我们的模型的工作原理是首先总结一本书的小部分，然后将这些总结总结为更高级别的总结，依此类推。

探索更多样本

我们最好的模型是从 GPT-3 微调而来的，可以生成整本书的合理摘要，有时甚至可以与人类编写的摘要的平均质量相匹配：它达到了人类 6/7 的评分（类似于人类编写的平均摘要）谁读过这本书 5% 的时间和 5% 的时间给出 7/15 的评分。我们的模型还在 BookSum 数据集用于整本书的总结。零样本问答模型可以使用我们模型的摘要来获得有竞争力的结果 NarrativeQA 数据集用于书本长度的问答。^[2]

我们的方法：结合来自人类反馈的强化学习和递归任务分解

考虑总结一段文本的任务。大的预训练模型不太擅长总结。过去我们发现用以下方法训练模型从人类反馈强化学习帮助将模型摘要与短帖子和文章中的人类偏好结合起来。但是，直接判断整本书的摘要需要付出很大的努力，因为人类需要阅读整本书，这需要花费很多时间。

为了解决这个问题，我们还利用 递归任务分解：我们在程序上将困难的任务分解为更容易的任务。在这种情况下，我们将一段长文本的总结分解为几段较短的文本的总结。与端到端训练过程相比，递归任务分解具有以下优点：

分解允许人们通过使用书中较小部分的摘要而不是阅读源文本来更快地评估模型摘要。
跟踪摘要编写过程更容易。例如，您可以跟踪以查找摘要中某些事件在原始文本中发生的位置。自己看我们的总结浏览器!
我们的方法可以用来总结无限长度的书籍，不受我们使用的转换器模型的上下文长度的限制。

我们为什么要这样做

T他的工作是我们的一部分正在进行研究调整先进的人工智能系统，这是实现我们的任务。随着我们训练模型来完成日益复杂的任务，对模型的输出进行明智的评估对于人类来说将变得越来越困难。这使得检测模型输出中的细微问题变得更加困难，这些问题可能会在部署这些模型时导致负面后果。因此，我们希望我们评估模型的能力随着模型能力的增强而增强。

我们目前解决这个问题的方法是使人类能够使用其他模型的帮助来评估机器学习模型的输出。在这种情况下，为了评估书籍摘要，我们为人类提供了由我们的模型编写的各个章节摘要，这在评估这些摘要（相对于阅读源文本）时节省了他们的时间。我们在书籍摘要方面的进展是第一个关于缩放对齐技术的大规模实证工作。

展望未来，我们正在研究更好的方法来帮助人类评估模型行为，目标是找到可扩展的技术来调整通用人工智能。

我们一直在寻找更多有才华的人加入我们；所以如果你对这项工作感兴趣，请申请加入我们的团队!

时间戳记： 2021 年 9 月 23 日

时间戳记： 2023 年 1 月 31 日

用人类反馈总结书籍

由柏拉图重新发布

我们的方法：结合来自人类反馈的强化学习和递归任务分解

我们为什么要这样做

更多来自 OpenAI

调整语言模型以遵循指令

DevDay 上宣布的新模型和开发者产品

民主对人工智能资助计划的投入：经验教训和实施计划

预测用于虚假宣传活动的语言模型的潜在滥用——以及如何降低风险

DALL·E: Outpainting 介绍

通过视频预训练学习玩 Minecraft

索拉：第一印象

人工智能的民主投入

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理