训练大型神经网络的技术

由柏拉图重新发布

关注： 0

训练大型神经网络的技术

大型神经网络是人工智能最新进展的核心，但训练它们是一项艰巨的工程和研究挑战，需要编排 GPU 集群来执行单个同步计算。随着集群和模型规模的增长，机器学习从业者开发了越来越多的技术来在许多 GPU 上并行进行模型训练。乍一看，理解这些并行技术可能令人望而生畏，但只要对计算结构进行一些假设，这些技术就会变得更加清晰 - 在这一点上，您只需像网络一样从 A 到 B 来回穿梭不透明位围绕数据包切换穿梭机。

三层模型上的各种并行策略的图示。每种颜色代表一层，虚线分隔不同的 GPU。

无并行性

训练神经网络是一个迭代过程。在每次迭代中，我们都会向前传递模型的层计算一批数据中每个训练示例的输出。然后另一遍继续落后通过各层，通过计算a来传播每个参数对最终输出的影响程度梯度对于每个参数。批次的平均梯度、参数和一些每个参数的优化状态被传递给优化算法，例如 Adam ，它计算下一次迭代的参数（对数据应该有稍微更好的性能）和新的每参数优化状态。随着训练对批量数据进行迭代，模型不断发展以产生越来越准确的输出。

各种并行技术将训练过程划分为不同的维度，包括：

数据并行性——在不同的 GPU 上运行批次的不同子集；
管道并行性——在不同的 GPU 上运行模型的不同层；
张量并行性——分解单个运算的数学运算，例如将矩阵乘法拆分到多个 GPU 上；
混合专家——仅通过每层的一小部分来处理每个示例。

（在这篇文章中，我们假设您正在使用 GPU 来训练神经网络，但同样的想法也适用于使用任何其他 GPU 的神经网络）神经网络加速器.)

数据并行

数据并行 训练意味着将相同的参数复制到多个 GPU（通常称为“workers”），并为每个 GPU 分配不同的示例以同时处理。仅数据并行性仍然要求您的模型适合单个 GPU 的内存，但可以让您利用多个 GPU 的计算，但代价是存储许多参数的重复副本。话虽如此，有一些策略可以增加 GPU 可用的有效 RAM，例如在使用之间临时将参数卸载到 CPU 内存。

当每个数据并行工作线程更新其参数副本时，它们需要进行协调以确保每个工作线程继续拥有相似的参数。最简单的方法是在worker之间引入阻塞通信：（1）独立计算每个worker上的梯度； (2) 平均各个工人的梯度; (3) 在每个工作人员上独立计算相同的新参数。步骤 (2) 是一个阻塞平均值，需要传输大量数据（与工作线程数量乘以参数大小成正比），这可能会损害您的训练吞吐量。有各种异步同步方案消除这种开销，但会损害学习效率；在实践中，人们通常坚持使用同步方法。

流水线并行

管道并行 训练时，我们跨 GPU 划分模型的连续块。每个 GPU 仅保存一小部分参数，因此相同的模型在每个 GPU 上消耗的内存成比例减少。

将大型模型分割成连续层的块很简单。然而，各层的输入和输出之间存在顺序依赖性，因此，当工作人员等待前一机器的输出用作其输入时，简单的实现可能会导致大量空闲时间。这些等待时间块被称为“气泡”，浪费了空闲机器可以完成的计算。

我们可以重用数据并行性的思想，通过让每个工作线程一次只处理数据元素的子集来降低泡沫成本，从而使我们能够巧妙地将新计算与等待时间重叠。核心思想是将一个批次拆分为多个微批次；每个微批次的处理速度应该成比例地更快，并且每个工作人员一旦可用就开始处理下一个微批次，从而加快管道执行速度。如果有足够的微批次，则可以在大部分时间使用工作人员，并在步骤开始和结束时将气泡降至最低。梯度在微批次之间取平均值，并且仅在所有微批次完成后才会更新参数。

模型划分的工人数量通常称为 管道深度.

在前向传递过程中，工作人员只需将其层块的输出（称为激活）发送给下一个工作人员；在向后传递期间，它仅将这些激活的梯度发送给前一个工作人员。如何安排这些传递以及如何跨微批次聚合梯度有很大的设计空间。管道让每个工作进程连续向前和向后传递，然后在最后同步聚合来自多个微批次的梯度。白日梦相反，安排每个工作人员交替处理前向和后向传递。

张量并行

管道并行性按层“垂直”分割模型。也可以在层内“水平”分割某些操作，这通常称为 张量平行 训练。对于许多现代模型（例如变压器），计算瓶颈是将激活批处理矩阵与大权重矩阵相乘。矩阵乘法可以被认为是行和列对之间的点积；可以在不同的 GPU 上计算独立的点积，或者在不同的 GPU 上计算每个点积的一部分并对结果求和。无论采用哪种策略，我们都可以将权重矩阵分割成大小均匀的“分片”，将每个分片托管在不同的 GPU 上，并使用该分片计算整个矩阵乘积的相关部分，然后再进行通信以组合结果。

一个例子是威震天，它在 Transformer 的自注意力层和 MLP 层中并行化矩阵乘法。 PTD-P 使用张量、数据和管道并行性；它的管道调度为每个设备分配多个非连续层，以更多网络通信为代价减少气泡开销。

有时，网络的输入可以跨维度并行化，并具有相对于交叉通信的高度并行计算。序列并行性就是这样一种想法，其中输入序列在时间上被分割成多个子示例，通过允许计算以更细粒度的示例进行，按比例减少峰值内存消耗。

混合专家 (MoE)

随着混合专家 (MoE) 方法中，仅使用网络的一小部分来计算任何一个输入的输出。一种示例方法是拥有多组权重，网络可以在推理时通过门控机制选择使用哪一组权重。这可以在不增加计算成本的情况下启用更多参数。每组权重都被称为“专家”，希望网络能够学会为每个专家分配专门的计算和技能。不同的专家可以托管在不同的 GPU 上，从而提供了一种清晰的方法来扩展模型所使用的 GPU 数量。

GShard 使用一种方案将 MoE Transformer 扩展到多达 600 亿个参数，其中只有 MoE 层被分割到多个 TPU 设备上，而其他层则完全复制。开关变压器通过将一个输入路由到单个专家，将模型大小扩展到数万亿个参数，并具有更高的稀疏性。

其他节省内存的设计

还有许多其他计算策略可以使训练越来越大的神经网络变得更容易处理。例如：

要计算梯度，您需要保存原始激活，这可能会消耗大量设备 RAM。 检查点 （也称为激活重新计算）存储激活的任何子集，并在向后传递期间及时重新计算中间激活。这以最多一次额外的完整前向传递的计算成本节省了大量内存。人们还可以通过以下方式不断地在计算和内存成本之间进行权衡：选择性激活重新计算，它是激活的检查点子集，存储成本相对较高，但计算成本较低。
混合精度训练 是使用较低精度的数字来训练模型（最常见的是 FP16）。现代加速器可以通过较低精度的数字达到更高的 FLOP 计数，并且还可以节省设备 RAM。如果小心谨慎，生成的模型几乎不会失去准确性。
卸货是将未使用的数据暂时卸载到 CPU 或不同设备之间，并在需要时将其读回。简单的实现会大大减慢训练速度，但复杂的实现将预取数据，以便设备永远不需要等待。这个想法的一个实现是零它将参数、梯度和优化器状态分割到所有可用的硬件上，并根据需要具体化它们。
内存高效优化器 已提出减少优化器维护的运行状态的内存占用，如适配器.
压缩也可用于在网络中存储中间结果。例如，要旨压缩为向后传递保存的激活；戴尔·E 在同步梯度之前压缩梯度。

在 OpenAI，我们正在训练和改进大型模型，从底层基础设施一直到部署它们解决现实世界的问题。如果您想将这篇文章中的想法付诸实践——特别是与我们的扩展和应用研究团队相关——我们招聘背景：教育初创公司，需要第三方平台协助招聘!

时间戳记： 2022 年 6 月 9 日

时间戳记： 2022 年 4 月 13 日

训练大型神经网络的技术

由柏拉图重新发布

无并行性

数据并行

流水线并行

管道

白日梦

张量并行

混合专家 (MoE)

其他节省内存的设计

更多来自 OpenAI

前沿风险和准备

高效训练语言模型，填补中间空缺

通过大模型进化

在 ChatGPT 中管理数据的新方法

介绍 ChatGPT Plus

OpenAI 宣布董事会新成员

通过过程监督改进数学推理

OpenAI 领导团队更新

OpenAI 都柏林简介

OpenAI 宣布领导层换届

测量古德哈特定律

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理