DALL·E 2 预训练缓解措施

由柏拉图重新发布

关注： 0

DALL·E 2 预训练缓解措施

为了分享魔力达尔·E 2 由于受众广泛，我们需要降低与强大的图像生成模型相关的风险。为此，我们将各种护栏防止生成的图像违反我们的内容政策. 这篇文章着重于 预训练缓解， 这些护栏的一个子集，直接修改 DALL·E 2 从中学习的数据。特别是，DALL·E 2 使用来自互联网的数以亿计的字幕图像进行训练，我们删除并重新加权其中一些图像以改变模型的学习内容。

这篇文章分为三个部分，每个部分描述了不同的预训练缓解：

在第一部分中，我们描述了我们如何从 DALL·E 2 的训练数据集中过滤掉暴力和性图像。如果没有这种缓解措施，模型将学会在提示时生成图形或显式图像，甚至可能无意中返回这些图像以响应看似无害的提示。
在第二部分中，我们发现过滤训练数据可以放大偏差，并描述我们减轻这种影响的技术。例如，如果没有这种缓解措施，我们注意到，与在原始数据集上训练的模型相比，在过滤数据上训练的模型有时会生成更多描绘男性的图像和更少描绘女性的图像。
在最后一部分，我们转向记忆问题，发现像 DALL·E 2 这样的模型有时可以重现他们训练过的图像，而不是创建新的图像。在实践中，我们发现这 图像反流 是由在数据集中多次复制的图像引起的，并通过删除与数据集中其他图像在视觉上相似的图像来缓解问题。

减少图形和显式训练数据

由于训练数据塑造了任何学习模型的能力，因此数据过滤是限制不良模型能力的强大工具。在训练 DALL·E 2 之前，我们使用分类器将这些类别中的图像从数据集中过滤掉，从而将这种方法应用于两个类别——描绘暴力和色情内容的图像。我们在内部训练了这些图像分类器，并继续研究数据集过滤对我们训练的模型的影响。

为了训练我们的图像分类器，我们重用了我们之前用来过滤训练数据的方法滑行. 这种方法的基本步骤如下：首先，我们为要标记的图像类别创建规范；其次，我们为每个类别收集了几百个正面和负面的例子；第三，我们使用主动学习程序来收集更多数据并提高准确率/召回率的权衡；最后，我们使用保守的分类阈值在整个数据集上运行生成的分类器，以支持召回而不是精度。为了设置这些阈值，我们优先过滤掉所有坏数据在所有的离开 非常好 数据。这是因为我们以后总是可以用更多的数据来微调我们的模型来教它新的东西，但是要让模型忘记它已经学到的东西要困难得多。

DALL·E 2 预训练缓解措施 — 我们从标记图像的小数据集开始（图顶部）。然后我们在这些数据上训练一个分类器。然后，主动学习过程使用当前分类器选择少数可能提高分类器性能的未标记图像。最后，人类为这些图像生成标签，将它们添加到标记的数据集中。可以重复该过程以迭代地提高分类器的性能。

在主动学习阶段，我们通过收集潜在困难或错误分类图像的人工标签来迭代地改进我们的分类器。值得注意的是，我们使用了两种主动学习技术从我们的数据集中（其中包含数亿张未标记的图像）中选择图像以呈现给人类进行标记。首先，为了降低分类器的误报率（即，它将良性图像误分类为暴力或性的频率），我们将人类标签分配给当前模型分类为阳性的图像。为了使这一步顺利进行，我们将分类阈值调整为接近 100% 的召回率，但误报率很高；通过这种方式，我们的标注员大多都在标注真正的负面案例。虽然这种技术有助于减少误报并减少标记者查看潜在有害图像的需要，但它无助于找到模型当前缺失的更多阳性案例。

为了降低分类器的误报率，我们采用了第二种主动学习技术：最近邻搜索。特别是，我们进行了多次交叉验证，以在我们当前标记的数据集中找到模型倾向于错误分类为负的正样本（为此，我们实际上训练了数百个具有不同训练验证拆分的分类器版本）。然后，我们在感知特征空间中扫描大量未标记图像以查找这些样本的最近邻居，并将人类标签分配给发现的图像。由于我们的计算基础设施，将分类器训练和最近邻搜索扩展到许多 GPU 是微不足道的，允许主动学习步骤在几分钟而不是几小时或几天内进行。

为了验证我们的数据过滤器的有效性，我们训练了两个具有相同超参数的 GLIDE 模型：一个在未过滤的数据上，一个在过滤后的数据集上。我们将前一个模型称为 未过滤模型，而后者作为 过滤模型. 正如预期的那样，我们发现未经过滤的模型通常会在响应此类内容的请求时产生不太明确或图形的内容。然而，我们还发现了数据过滤的一个意想不到的副作用：它创建或放大了模型对某些人口统计的偏见。

修复数据过滤器引入的偏差

生成模型试图匹配其训练数据的分布，包括其中的任何偏差。因此，过滤训练数据有可能在下游模型中产生或放大偏差。一般来说，修复原始数据集中的偏差是一项艰巨的社会技术任务，我们将继续研究，超出了本文的范围。我们在这里解决的问题是数据过滤本身特别引起的偏差放大。通过我们的方法，我们旨在防止过滤后的模型更多比未过滤的模型有偏差，本质上减少了数据过滤引起的分布偏移。

作为过滤导致的偏差放大的一个具体示例，请考虑提示“a ceo”。当我们的未过滤模型为这个提示生成图像时，它倾向于产生比女性更多的男性图像，我们预计这种偏差大部分反映了我们当前的训练数据。然而，当我们通过过滤模型运行相同的提示时，偏差似乎被放大了。几代人几乎完全是男性的形象。

我们假设这种偏见放大的特殊情况来自两个地方：首先，即使女性和男性在原始数据集中具有大致相等的代表性，数据集也可能偏向于在更性感的环境中呈现女性；其次，我们的分类器本身可能由于实现或类定义而存在偏差，尽管我们努力确保在数据收集和验证阶段不会出现这种情况。由于这两种影响，我们的过滤器可能会删除比男性更多的女性图像，这会改变模型在训练中观察到的性别比例。

为了更彻底地研究过滤器引起的偏差，我们想要一种方法来衡量我们的数据过滤器对各种概念的偏差的影响程度。值得注意的是，我们的暴力和性内容过滤器纯粹是基于图像的，但我们数据集的多模态特性使我们能够直接测量这些过滤器对文本的影响。由于每张图像都附有文字说明，因此我们能够查看过滤和未过滤数据集中手动选择关键字的相对频率，以估计过滤器对任何给定概念的影响程度。

为了将其付诸实践，我们使用 Apache Spark 计算过滤和未过滤数据集中所有标题中的少数关键字（例如“父母”、“女人”、“孩子”）的频率。尽管我们的数据集包含数亿个文本图像对，但使用我们的计算集群计算这些关键字频率只需要几分钟。

在计算关键词频率之后，我们能够确认我们的数据集过滤器确实比其他关键词更偏向某些关键词的频率。例如，过滤器将“女人”一词的频率降低了 14%，而“男人”一词的频率仅降低了 6%。这在很大程度上证实了我们已经通过从在两个数据集上训练的 GLIDE 模型中抽样观察到的轶事。

现在我们有了衡量过滤器引起的偏差的代理，我们需要一种方法来减轻它。为了解决这个问题，我们旨在重新加权过滤数据集，使其分布更好地匹配未过滤图像的分布。作为一个说明这个想法的玩具示例，假设我们的数据集包含 50% 的猫照片和 50% 的狗照片，但我们的数据过滤器删除了 75% 的狗，但只删除了 50% 的猫。最终的数据集将是 ⅔ 猫和 ⅓ 狗，在此数据集上训练的基于可能性的生成模型可能会生成比狗更多的猫图像。我们可以通过将狗的每张图像的训练损失乘以 2 来解决这种不平衡，模拟将每张狗的图像重复两次的效果。事实证明，我们可以将这种方法扩展到我们的真实数据集和模型，这种方式在很大程度上是自动的——也就是说，我们不需要手动选择我们想要重新加权的特征。

我们使用来自特殊分类器的概率计算过滤数据集中图像的权重，类似于崔等人。（2019）. 为了训练这个分类器，我们从两个数据集中统一采样图像并预测图像来自哪个数据集。特别是，该模型预测 P（未过滤|图像），给定一个先验 P（未过滤）= 0.5. 在实践中，我们不希望这个模型太强大，否则它可能会首先学习我们的过滤器实现的确切功能。相反，我们希望模型比我们的原始数据过滤器更平滑，捕获受过滤器影响的广泛类别，同时仍不确定是否会过滤特定图像。为此，我们在一个小型的 CLIP 模型。

一旦我们有了一个分类器来预测图像来自未过滤数据集的概率，我们仍然需要将此预测转换为图像的权重。例如，假设 P（未过滤|图像） = 0.8。这意味着在未过滤数据中找到样本的可能性是过滤数据的 4 倍，并且权重为 4 应该可以纠正不平衡。更一般地，我们可以使用权重 P(未过滤|图像)/P(过滤|图像).^[1]

这种重新加权方案实际上在多大程度上减轻了放大的偏差？当我们使用新的加权方案对之前的过滤模型进行微调时，微调后的模型的行为与我们之前发现的有偏样本上的未过滤模型更加匹配。虽然这令人鼓舞，但我们还希望使用基于关键字的偏见启发式更彻底地评估这种缓解措施。为了在考虑我们新的加权方案的同时测量关键字频率，我们可以简单地通过包含它的样本的权重对过滤数据集中的关键字的每个实例进行加权。这样做，我们得到了一组新的关键字频率，它们反映了过滤数据集中的样本权重。

在我们检查的大多数关键字中，重新加权方案减少了过滤引起的频率变化。对于我们之前的“男人”和“女人”示例，相对频率降低分别为 1% 和 –1%，而之前的值分别为 14% 和 6%。虽然这个指标只是实际过滤偏差的代表，但令人欣慰的是，我们基于图像的重新加权方案实际上显着改善了基于文本的指标。

我们将继续调查 DALL·E 2 中的剩余偏差，部分是通过对模型行为的更大评估以及对过滤如何影响偏差和能力发展的调查。

防止图像反流

我们观察到 DALL·E 2 的内部前辈有时会逐字复制训练图像。这种行为是不可取的，因为我们希望 DALL·E 2 默认创建原始的、独特的图像，而不仅仅是将现有图像“拼接”在一起。此外，逐字复制训练图像可能会引发有关版权侵权、所有权和隐私（如果人们的照片出现在训练数据中）的法律问题。

为了更好地理解图像反流的问题，我们收集了一个经常导致重复图像的提示数据集。为此，我们使用经过训练的模型从我们的训练数据集中对 50,000 个提示进行采样，并根据与相应训练图像的感知相似性对样本进行排序。最后，我们手动检查了最热门的匹配，在 50k 的总提示中只发现了几百个真正的重复对。尽管返流率似乎低于 1%，但出于上述原因，我们认为有必要将返流率降至 0。

当我们研究反刍图像数据集时，我们注意到了两种模式。首先，这些图像几乎都是简单的矢量图形，由于信息含量低，很容易记忆。其次，更重要的是，这些图像在训练数据集中都有许多近乎重复的内容。例如，可能有一个矢量图形，它看起来像一个显示 1 点钟的时钟，但随后我们会发现一个训练样本包含相同的时钟，显示 2 点钟，然后是 3 点钟，等等。有一次我们意识到这一点，我们使用分布式最近邻搜索来验证，事实上，所有反刍图像在数据集中都有感知相似的重复。其他名称合作在大型语言模型中观察到类似的现象，发现数据重复与记忆密切相关。

上述发现表明，如果我们对数据集进行重复数据删除，我们可能会解决反流问题。为了实现这一目标，我们计划使用神经网络来识别看起来相似的图像组，然后从每组中删除除一张图像之外的所有图像。^[2] 但是，这需要检查每个图像是否与数据集中的所有其他图像重复。由于我们的整个数据集包含数亿张图像，因此我们天真地需要检查数百万亿个图像对才能找到所有重复项。虽然这在技术上是可以实现的，特别是在大型计算集群上，但我们发现了一种更高效的替代方案，其工作效果几乎与成本的一小部分相同。

考虑一下如果我们在执行重复数据删除之前对数据集进行聚类会发生什么。由于附近的样本通常落入同一簇，因此大多数重复对不会跨越簇决策边界。然后，我们可以对每个集群内的样本进行重复数据删除，而无需检查集群外部的重复项，同时只丢失所有重复对中的一小部分。这比简单的方法要快得多，因为我们不再需要检查每一对图像。^[3] 当我们在一小部分数据上凭经验测试这种方法时，发现使用时有 85% 的重复对 K = 1024 集群。

为了提高上述算法的成功率，我们利用了一个关键观察结果：当您对数据集的不同随机子集进行聚类时，生成的聚类决策边界通常会大不相同。因此，如果重复对跨越数据的一个聚类的聚类边界，则同一对可能会落入不同聚类中的单个聚类中。您尝试的聚类越多，您就越有可能发现给定的重复对。在实践中，我们决定使用五个聚类，这意味着我们在五个不同聚类的联合中搜索每个图像的重复项。在实践中，这发现了我们数据子集上所有重复对的 97%。

令人惊讶的是，我们的数据集几乎有四分之一被重复数据删除删除了。当我们查看发现的几乎重复的对时，其中许多都包含有意义的变化。回想上面的时钟示例：数据集可能包含同一时钟在一天中不同时间的许多图像。虽然这些图像可能使模型记住这个特定时钟的外观，但它们也可能帮助模型学会区分时钟上的时间。考虑到删除了多少数据，我们担心删除这样的图像可能会损害模型的性能。

为了测试去重对我们模型的影响，我们训练了两个具有相同超参数的模型：一个在完整数据集上，一个在数据集的去重版本上。为了比较模型，我们使用了与评估原始 GLIDE 模型相同的人工评估。令人惊讶的是，我们发现人类评估者略微首选该模型在去重数据上进行了训练，这表明数据集中的大量冗余图像实际上损害了性能。

一旦我们对去重数据进行了模型训练，我们就会重新运行我们之前从训练数据集中完成超过 50k 提示的反流搜索。我们发现，当给出来自训练数据集的图像的确切提示时，新模型永远不会反刍训练图像。为了让这个测试更进一步，我们还在整个训练数据集上对 50k 个生成的图像中的每一个执行了最近邻搜索。通过这种方式，我们认为我们可能会捕捉到模型反刍出与给定提示相关联的图像不同的图像。即使进行了更彻底的检查，我们也从未发现图像反流的情况。

下一步

虽然上面讨论的所有缓解措施都代表着我们在降低与 DALL·E 2 相关风险的目标方面取得了重大进展，但每个缓解措施仍有改进的空间：

更好的预训练过滤器可以让我们在更多数据上训练 DALL·E 2 并有可能进一步减少模型中的偏差。我们当前的过滤器经过调整以降低误报率，但会以许多误报为代价。结果，我们过滤掉了大约 5% 的整个数据集，尽管这些过滤后的图像中的大多数根本没有违反我们的内容政策。改进我们的过滤器可以让我们回收一些训练数据。
偏见在系统开发和部署的许多阶段被引入并可能被放大。评估和减轻像 DALL·E 2 这样的系统中的偏见以及这种偏见引起的危害是我们在 OpenAI 继续研究的一个重要的跨学科问题，作为我们更广泛使命的一部分。我们在这方面的工作包括建立评估以更好地理解问题、管理新数据集以及应用人工反馈和微调等技术来构建更强大和更具代表性的技术。
我们继续研究深度学习系统中的记忆和泛化也很重要。虽然重复数据删除是防止记忆的良好第一步，但它并不能告诉我们了解 DALL·E 2 等模型为何或如何记忆训练数据的所有信息。

时间戳记： 2022 年 6 月 28 日

时间戳记： 2024 年 4 月 23 日

由柏拉图重新发布

DALL·E: Outpainting 介绍

DALL·E 现已上市，无需等候名单

通过视频预训练 (VPT) 学习玩 Minecraft

前沿人工智能监管：管理新出现的公共安全风险

人工智能的民主投入

训练大型神经网络的技术

预测用于虚假宣传活动的语言模型的潜在滥用——以及如何降低风险

ChatGPT 和 Whisper API 简介

超级智能的治理

OpenAI 对儿童安全的承诺：采用安全设计原则

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理