Meta 推出第三代 Llama 大语言模型

由柏拉图重新发布

关注： 0

Meta 发布了其最新的大型语言模型 (LLM)——名为 Llama 3——并声称它将挑战 Google、Mistral 和 Anthropic 等更大的模型。

长文中透露公告周四，Llama 3 提供了从 400 亿到超过 XNUMX 亿个参数的版本。作为参考，OpenAI 和 Google 最大的模型接近 XNUMX 万亿个参数。

目前，我们只能访问 Llama 3 的 70 亿和 XNUMX 亿参数文本变体。 Meta 尚未完成其最大、最复杂模型的训练，但暗示它们将是多语言和多模式的——这意味着它们是由多个较小的领域优化模型组装而成的。

Meta 声称，即使只有 70 亿个参数，Llama 3 也完全有能力与更大的模型进行正面交锋。

Meta 声称 Llama3-8B 和 70B 的性能优于更大的模型，包括 Gemini Pro 和 Anthropic 的 Claude 3

Meta 声称 Llama3-8B 和 70B 的性能优于更大的型号，包括 Gemini Pro 和 Anthropic 的 Claude 3 – 点击放大

更好的数据，更好的模型

据 Meta 称，最大的收益之一来自于使用词汇量为 128,000 个标记的标记器。在法学硕士的背景下，标记可以是几个字符、整个单词，甚至是短语。人工智能将人类输入分解为令牌，然后使用其令牌词汇表生成输出。

Meta 解释说，它的分词器有助于更有效地编码语言，从而显着提高性能。通过使用更高质量的数据集和训练后的额外微调步骤来提高模型的性能和整体准确性，获得了额外的收益。

具体来说，Meta 透露 Llama 3 使用从公开来源收集的超过 15 万亿个代币进行了预训练。

Llama 3 的训练数据集比 Llama 2 大七倍多，包含的代码多四倍，其中推出就在九个月前。但是，正如俗话所说，“垃圾输入，垃圾输出”——因此 Meta 声称它开发了一系列数据过滤管道，以确保 Llama 3 接受尽可能少的不良信息训练。

这些质量控制包括启发式过滤器和 NSFW 过滤器，以及重复数据删除和用于在训练之前预测信息质量的文本分类器。 Meta 甚至使用其较旧的 Llama 2 模型（据称该模型“在识别高质量数据方面出奇地出色”）来帮助区分小麦和谷壳。

30% 的训练数据来自 XNUMX 多种语言，Meta 预测这将有助于为模型带来更丰富的多语言功能。目前，Social Network™️ 表示用户不应期望在英语以外的语言中获得相同程度的性能。

在如此大的数据集上训练小模型通常被认为是浪费计算时间，甚至会产生精度回报递减的情况。训练数据与计算资源的理想组合被称为“龙猫最优” [PDF] 金额。根据 Meta 的说法，对于像 Llama3-8B 这样的 200 亿参数模型，这将是大约 XNUMX 亿个代币。

然而，在测试中，Meta 发现即使在更大的数据集上进行训练，Llama 3 的性能仍在持续提高。该公司写道：“在我们对多达 70 万亿个代币进行训练后，我们的 15 亿和 XNUMX 亿参数模型继续以对数线性方式改进。”

结果似乎是一个相对紧凑的模型，能够生成与更大的模型相当的结果。计算方面的权衡可能被认为是值得的，因为较小的模型通常更容易推理，因此更容易大规模部署。

在 8 位精度下，8 亿个参数模型仅需要 4GB 内存。降低到 XNUMX 位精度（无论是使用支持它的硬件还是使用量化来压缩模型）都会将内存需求降低大约一半。

Meta 在一对计算集群上训练模型，每个集群包含 24,000 个 Nvidia GPU。正如您可能想象的那样，在如此大的集群上进行训练虽然速度更快，但也会带来一些挑战 - 在训练运行过程中出现故障的可能性会增加。

为了缓解这一问题，Meta 解释说，它开发了一个训练堆栈，可以自动检测、处理和维护错误。超大规模企业还添加了故障监控和存储系统，以减少训练运行中断时检查点和回滚的开销。完成后，Meta 对模型进行了一系列训练后测试和微调步骤。

除了 Llama3-8B 和 70B 之外，Meta 还推出了新的和更新的信任和安全工具，包括 Llama Guard 2 和 Cybersec Eval 2，以帮助用户保护模型免受滥用和/或即时注入攻击。 Code Shield 是另一个新增功能，它提供了旨在帮助过滤 Llama 3 生成的不安全代码的护栏。

正如我们之前报道的，LLM 辅助代码生成带来了一些有趣的结果攻击向量 Meta 希望避免的情况。