Meta 发布了其最新的大型语言模型 (LLM)——名为 Llama 3——并声称它将挑战 Google、Mistral 和 Anthropic 等更大的模型。
长文中透露 公告 周四,Llama 3 提供了从 400 亿到超过 XNUMX 亿个参数的版本。作为参考,OpenAI 和 Google 最大的模型接近 XNUMX 万亿个参数。
目前,我们只能访问 Llama 3 的 70 亿和 XNUMX 亿参数文本变体。 Meta 尚未完成其最大、最复杂模型的训练,但暗示它们将是多语言和多模式的——这意味着它们是由多个较小的领域优化模型组装而成的。
Meta 声称,即使只有 70 亿个参数,Llama 3 也完全有能力与更大的模型进行正面交锋。
更好的数据,更好的模型
据 Meta 称,最大的收益之一来自于使用词汇量为 128,000 个标记的标记器。在法学硕士的背景下,标记可以是几个字符、整个单词,甚至是短语。人工智能将人类输入分解为令牌,然后使用其令牌词汇表生成输出。
Meta 解释说,它的分词器有助于更有效地编码语言,从而显着提高性能。通过使用更高质量的数据集和训练后的额外微调步骤来提高模型的性能和整体准确性,获得了额外的收益。
具体来说,Meta 透露 Llama 3 使用从公开来源收集的超过 15 万亿个代币进行了预训练。
Llama 3 的训练数据集比 Llama 2 大七倍多,包含的代码多四倍,其中 推出 就在九个月前。但是,正如俗话所说,“垃圾输入,垃圾输出”——因此 Meta 声称它开发了一系列数据过滤管道,以确保 Llama 3 接受尽可能少的不良信息训练。
这些质量控制包括启发式过滤器和 NSFW 过滤器,以及重复数据删除和用于在训练之前预测信息质量的文本分类器。 Meta 甚至使用其较旧的 Llama 2 模型(据称该模型“在识别高质量数据方面出奇地出色”)来帮助区分小麦和谷壳。
30% 的训练数据来自 XNUMX 多种语言,Meta 预测这将有助于为模型带来更丰富的多语言功能。目前,Social Network™️ 表示用户不应期望在英语以外的语言中获得相同程度的性能。
在如此大的数据集上训练小模型通常被认为是浪费计算时间,甚至会产生精度回报递减的情况。训练数据与计算资源的理想组合被称为“龙猫最优” [PDF] 金额。根据 Meta 的说法,对于像 Llama3-8B 这样的 200 亿参数模型,这将是大约 XNUMX 亿个代币。
然而,在测试中,Meta 发现即使在更大的数据集上进行训练,Llama 3 的性能仍在持续提高。该公司写道:“在我们对多达 70 万亿个代币进行训练后,我们的 15 亿和 XNUMX 亿参数模型继续以对数线性方式改进。”
结果似乎是一个相对紧凑的模型,能够生成与更大的模型相当的结果。计算方面的权衡可能被认为是值得的,因为较小的模型通常更容易推理,因此更容易大规模部署。
在 8 位精度下,8 亿个参数模型仅需要 4GB 内存。降低到 XNUMX 位精度(无论是使用支持它的硬件还是使用量化来压缩模型)都会将内存需求降低大约一半。
Meta 在一对计算集群上训练模型,每个集群包含 24,000 个 Nvidia GPU。正如您可能想象的那样,在如此大的集群上进行训练虽然速度更快,但也会带来一些挑战 - 在训练运行过程中出现故障的可能性会增加。
为了缓解这一问题,Meta 解释说,它开发了一个训练堆栈,可以自动检测、处理和维护错误。超大规模企业还添加了故障监控和存储系统,以减少训练运行中断时检查点和回滚的开销。完成后,Meta 对模型进行了一系列训练后测试和微调步骤。
除了 Llama3-8B 和 70B 之外,Meta 还推出了新的和更新的信任和安全工具,包括 Llama Guard 2 和 Cybersec Eval 2,以帮助用户保护模型免受滥用和/或即时注入攻击。 Code Shield 是另一个新增功能,它提供了旨在帮助过滤 Llama 3 生成的不安全代码的护栏。
正如我们之前报道的,LLM 辅助代码生成带来了一些有趣的结果 攻击向量 Meta 希望避免的情况。
订购
在接下来的几个月中,Meta 计划推出更多模型,其中包括一个超过 400 亿个参数的模型,并支持更多功能、语言和更大的上下文窗口。后者将允许用户提出更大、更复杂的查询——比如总结一大块文本。
Llama3-8B 和 70B 目前可以从 Meta 下载 官网。 Amazon Web Services、Microsoft Azure、Google Cloud、Hugging Face 等公司也计划提供在其平台上部署的模型。
如果您想在您的计算机上测试 Llama3,您可以查看我们关于运行本地 LLM 的指南 此处。安装完成后,您可以通过运行以下命令来启动它:
骆驼运行骆驼3
玩得开心并让我们知道进展如何。 ®
- :具有
- :是
- $UP
- 000
- 15%
- 200
- 200十亿
- 24
- 30
- 400
- 7
- 70
- a
- 关于
- 滥用
- ACCESS
- 根据
- 实现
- 添加
- 增加
- 额外
- 额外收益
- 后
- 前
- AIS
- 让
- 还
- Amazon
- 亚马逊网络服务
- 量
- an
- 和
- 另一个
- 人类的
- 保健
- AS
- 问
- 组装
- At
- 攻击
- 自动化
- 可使用
- 避免
- Azure
- 坏
- BE
- 更好
- 最大
- 亿
- 十亿代币
- 商业
- 阻止
- 提高
- 边界
- 都
- 午休
- 带来
- 但是
- by
- 来了
- CAN
- 能力
- 能力
- 案件
- 挑战
- 挑战
- 字符
- 查
- 索赔
- 点击
- 云端技术
- 簇
- CO
- 码
- 购买的订单均
- 紧凑
- 可比
- 完成
- 复杂
- 计算
- 计算
- 考虑
- 包含
- 上下文
- 持续
- 控制
- 目前
- data
- 数据集
- 首次亮相
- 学位
- 部署
- 部署
- 设计
- 检测
- 发达
- 递减
- 完成
- 向下
- 下载
- 下降
- 删除
- 每
- 更容易
- 有效
- 八
- 或
- 英语
- 确保
- 错误
- 甚至
- 超额
- 期望
- 解释
- 面部彩妆
- 失败
- 失败
- 远
- 快
- 少数
- 过滤
- 过滤器
- 针对
- 发现
- 四
- 止
- 开玩笑
- 功能
- 未来
- 收益
- 双子座
- 通常
- 生成
- 产生
- 发电
- 代
- 越来越
- GOES
- 去
- 非常好
- 谷歌
- 谷歌云
- 得到了
- 图形处理器
- 守卫
- 指南
- 半
- 处理
- 硬件
- 帮助
- 帮助
- 高品质
- 提示
- 创新中心
- HTTPS
- 人
- 理想
- 确定
- 想像
- 改善
- in
- 包括
- 包含
- 增加
- 信息
- 输入
- 不安全
- 安装
- 有趣
- 间断
- 成
- 推出
- ISN
- IT
- 它的
- JPG
- 只是
- 知道
- 语言
- 语言
- 大
- 大
- 最大
- 最新
- 发射
- 导致
- 让
- 喜欢
- 可能性
- 容易
- 喜欢
- 小
- 骆驼
- LLM
- 本地
- 寻找
- 机
- 保养
- 意
- 内存
- 聚体
- 元
- 微软
- 微软Azure
- 中间
- 可能
- 减轻
- 混合
- 模型
- 模型
- 监控
- 个月
- 更多
- 最先进的
- 许多
- 多
- 命名
- 接近
- 全新
- 下页
- 九
- 现在
- NSFW
- Nvidia公司
- of
- 提供
- 老年人
- on
- 一旦
- 一
- 仅由
- OpenAI
- or
- 其他名称
- 其它
- 我们的
- 输出
- 性能优异
- 产量
- 超过
- 最划算
- 开销
- 对
- 参数
- 参数
- 百分
- 性能
- 短语
- 计划
- 计划
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 可能
- 平台精度
- 预测
- 都曾预测
- 先前
- 先
- 专业版
- 生产
- 提供
- 公然
- 质量
- 查询
- 范围
- RE
- 减少
- 参考
- 简称
- 相对
- 报道
- 岗位要求
- 需要
- 资源
- 导致
- 成果
- 回报
- 揭密
- 滚
- 轧制
- 运行
- 运行
- s
- 维护
- 实现安全
- 说
- 同
- 说
- 说
- 鳞片
- 似乎
- 分开
- 系列
- 特色服务
- XNUMX所
- Shield
- 显著
- 小
- 小
- So
- 社会
- 一些
- 东西
- 来源
- 堆
- 步骤
- 存储
- 大量
- 这样
- 支持
- 支持
- 出奇
- 产品
- test
- 测试
- 文本
- 比
- 这
- 信息
- 其
- 他们
- 然后
- 他们
- Free Introduction
- 星期四
- 从而
- 次
- 时
- 至
- 令牌
- 工具
- 熟练
- 产品培训
- 兆
- 信任
- 二
- 释放
- 更新
- us
- 使用
- 用过的
- 用户
- 运用
- Ve
- 版本
- 想
- 是
- 废物回收
- we
- 卷筒纸
- Web服务
- 井
- 去
- 为
- ,尤其是
- 这
- 而
- 全
- 将
- 窗户
- 话
- 合算
- 将
- 写
- 但
- 完全
- 您一站式解决方案
- 和风网