科创院在 Amazon SageMaker 上训练最先进的 Falcon LLM 40B 基础模型 | 亚马逊网络服务

科创院在 Amazon SageMaker 上训练最先进的 Falcon LLM 40B 基础模型 | 亚马逊网络服务

这篇博文是与 Ebtesam Almazrouei 博士共同撰写的,Ebtesam Almazrouei 博士是 AI-Cross Center Unit 的执行董事兼代理首席 AI 研究员,也是 TII 的 LLM 项目的项目负责人。

阿拉伯联合酋长国 (UAE) 技术创新研究所(TII),阿布扎比的应用研究支柱 先进技术研究委员会,推出了 Falcon LLM,这是一种具有 40 亿个参数的基础大型语言模型 (LLM)。 TII 是一家领先的全球研究中心,致力于推动知识的前沿。 TII 的科学家、研究人员和工程师团队致力于提供发现科学和变革性技术。 TII 的工作重点是让我们的社会面向未来的突破。 在 1 万亿个代币上训练, TII 猎鹰法学硕士 拥有一流的性能,同时保持令人难以置信的成本效益。 Falcon-40B 与其他高性能 LLM 的性能相匹配,是公众中排名第一的开源模型 抱脸公开法学硕士排行榜. 它以开源的形式提供两种不同的尺寸——Falcon-40B 和 Falcon-7B,并且是使用数据预处理和模型训练作业从头开始构建的 亚马逊SageMaker. 开源的 Falcon 40B 使用户能够构建和定制满足独特用户需求的 AI 工具,促进无缝集成并确保数据资产的长期保存。 模型权重可在任何地方下载、检查和部署。

从 7 月 XNUMX 日开始,这两个 Falcon LLM 也将在 Amazon SageMaker JumpStart 中提供,SageMaker 的机器学习 (ML) 中心提供预训练模型、内置算法和预构建解决方案模板,可帮助您快速开始使用 ML。 您只需点击几下即可部署和使用 Falcon LLM SageMaker 工作室 或以编程方式通过 SageMaker Python 开发工具包. 要针对 Falcon LLM 部署和运行推理,请参阅 SageMaker JumpStart 简介——使用 Falcon LLM 生成文本 示例笔记本。

技术创新学院在 Amazon SageMaker 上训练最先进的 Falcon LLM 40B 基础模型 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

Ebtesam Almazrouei 博士,执行董事兼人工智能交叉中心部门代理首席人工智能研究员和 TII 法学硕士项目负责人,分享:

“我们自豪地宣布全球顶级开源语言模型 Falcon-40B 正式开源。 Falcon-40B 是一个特殊的开源模型,具有 40B 参数,专门设计为因果解码器模型。 它在包含 1,000B 代币的庞大数据集上进行了训练,其中包括使用精选语料库增强的 RefinedWeb。 该模型在 Apache 2.0 许可证下提供,确保其可访问性和可用性。 在 Hugging Face 维护的公共排行榜上,Falcon-40B 已经超越了 LLaMA-65B、StableLM 和 MPT 等知名模型。 Falcon-40B 的架构针对推理进行了优化,结合了 FlashAttention 和多查询技术。”

“这一举措体现了我们致力于突破人工智能创新界限和社区参与、教育、实际应用和协作的技术准备水平。 Ebtesam 博士继续说道。 “通过将 Falcon-40B 作为开源模型发布,我们为研究人员、企业家和组织提供了利用其卓越功能并推动从医疗保健到太空、金融、制造到生物技术等人工智能驱动解决方案进步的机会; 人工智能驱动的解决方案的可能性是无限的。 要访问 Falcon-40B 并探索其非凡潜力,请访问 猎鹰LLM.tii.ae。 与我们一起利用 Falcon-40B 的力量塑造人工智能的未来并彻底改变行业”

在这篇文章中,我们与 Almazrouei 博士深入探讨了 Falcon LLM 在 SageMaker 上的培训、数据管理、优化、性能和后续步骤。

新一代法学硕士

LLM 是经过训练以完成自然文本序列的软件算法。 由于它们的规模和与之交互的训练数据量,LLM 具有令人印象深刻的文本处理能力,包括摘要、问题回答、上下文学习等。

2020 年初,世界各地的研究组织都将重点放在模型大小上,观察到准确性与参数数量相关。 例如,GPT-3 (2020) 和 BLOOM (2022) 具有大约 175 亿个参数,Gopher (2021) 具有 230 亿个参数,MT-NLG (2021) 具有 530 亿个参数。 2022年, 霍夫曼等人。 观察到当前模型参数和数据集大小之间的计算平衡是次优的,并发布了经验比例定律,表明将计算预算平衡到在更多数据上训练的较小模型可能会导致模型性能更好。 他们在 70B 参数 Chinchilla (2022) 模型中实施了他们的指导,该模型的性能优于更大的模型。

SageMaker 上的法学硕士培训

SageMaker 是一组托管 API,用于开发、训练、调整和托管机器学习 (ML) 模型,包括 LLM。 许多客户依赖 SageMaker 来处理他们的 LLM 工作负载,例如 稳定人工智能, AI21 实验室, 拥抱脸LG人工智能. SageMaker培训 使用用户定义的硬件配置和代码提供计算集群。 计算作业按运行次数计费,按次计算,这意味着用户在不使用该服务时无需为 GPU 容量付费。 TII 使用 SageMaker Training API 提供的瞬态集群来训练 Falcon LLM,最多 48 个 ml.p4d.24xlarge 实例,在 384 个 NVIDIA A100 GPU 中累积。 现在,TII 正在训练下一个 Falcon LLM,并将他们的训练扩展到 3,136 A100 GPU(392 ml.p4d 实例)。

为了提高科学质量和培训速度,项目的各个层面都进行了前所未有的定制创新。 在接下来的部分中,我们将描述在深度学习 (DL) 训练系统的所有层进行的优化 TII。

可扩展的数据管理

最新一代的法学硕士从训练数据的规模和质量中获得优势。 该团队特别关注高质量万亿代币数据集的制作。 多个 SageMaker Training CPU 作业将 PB 级廉价、可扩展的 Web 数据转换为精心策划的安全训练数据集。 自动化系统对数据进行过滤和重复数据删除; 例如,ML 分类器用于过滤脏话。 在 ml.c5.18xlarge(72 个 vCPU,144 GB RAM)上运行的 CPU 作业通过 SageMaker Training 在几个 API 调用中实例化以运行数据转换任务。 该团队针对不同的用例使用了单实例和多实例 CPU 作业。 其中一些作业使用了数百个并行的无共享架构 (SNA) 作业,每个作业都在一台机器上,对于需要工作间同步的任务,该团队启动了多实例作业,在数十个实例和数千个 vCPU 中累积。 有趣的是,在下游数据集准备任务中,该团队在单个 SageMaker 训练作业中增加了 257 ml.c5.18xlarge,累积了 18,504 个 vCPU 和 37 TB 内存。

最大化训练吞吐量

为了最大限度地降低培训成本和缩短上市时间,该团队寻求了几个优化方向,以加快与每秒处理的培训令牌成正比的培训速度,并以 TFLOPs/GPU 衡量。 该团队使用了一个完全自定义的 3D 并行 LLM 训练框架,具有用编译的 GPU 代码编写的自定义优化层。 该团队甚至编写了自己的自定义矩阵乘法实现来获得更高的速度! 该团队还开发了使并行通信适应底层网络拓扑的逻辑。 在他们最初的缩放实验中,TII 能够在 166 个 GPU 上的 147B 模型上达到 256 TFLOPs/GPU,在 173 个 GPU 上的 13B 模型上达到 16 TFLOPs/GPU,据我们所知,已知最快的模型 TFLOPs 在云中实现测试时间在2022年底。

无服务器存储

LLM 培训是存储密集型的; 数 TB 的训练数据需要传输到训练集群,数 TB 的模型检查点定期从集群传回永久存储。 在作业重启的情况下,检查点还需要尽快到达训练集群。 在传统的高性能计算 (HPC) 中,计算节点连接到分布式文件系统,通过类 POSIX 接口提供高性能 I/O 和吞吐量。 在 AWS 中,客户经常使用 适用于Lustre的Amazon FSx 用于此目的的文件系统(有关详细信息,请参阅 使用适用于Lustre和Amazon EFS文件系统的Amazon FSx加快在Amazon SageMaker上的培训),我们还记录了 BeeGFS 的自我管理使用 分布式计算机视觉案例研究. 由于关注成本和操作简单性,该团队决定不实施和操作文件系统服务器,而是接受了专门在无服务器对象存储之上构建的挑战 亚马逊简单存储服务 (亚马逊 S3)。 自定义 S3 数据集类是使用 AWS SDK for Python (Boto3) 构建的,它提供了令人满意的性能,同时使科学家能够在同一代码库中自主迭代 I/O 工程和模型科学。

客户端创新

LLM 项目很少由单一的培训工作组成; 需要大量工作来进行初步测试和体验。 在主要生产培训过程中,可能会链接多个作业,例如更新配置或软件版本、部署补丁或从故障中恢复。 TII 的科学家进行了重大工程,以构建适应 LLM 培训的定制客户端。 在 SageMaker Training SDK 之上构建了一个启动器客户端,以便在一个命令中打包多个功能,例如代码版本控制、Docker 映像构建和作业启动。 此外,一个 AWS Lambda 无服务器计算功能旨在根据需要观察、监控和干预作业。

使用 Slack 机器人进行推理质量审核

训练快结束时,团队将模型部署在内部 SageMaker 托管 GPU 端点 用于实时交互。 该团队甚至创建了一个 Slack 机器人来与之对话,以获得真实的反馈并对模型进行定性质量审核。

培训和绩效监控

训练 LLM 需要大量的计算资源,包括 CPU、GPU 和内存资源。 因此,TII 需要监控训练作业的性能和空闲时间,以确保计算资源的最佳利用及其成本效益。

为了构建自动化监控解决方案,TII 使用了 亚马逊CloudWatch 用于监视训练作业的 GPU、CPU 和内存利用率的警报。 CloudWatch 从 SageMaker 训练作业中使用的底层容器实例收集原始数据并将其处理成可读的、近乎实时的指标。 之后,我们为每个指标设置阈值,如果任何指标低于阈值,就会触发警报。 此警报通知 TII 的团队资源利用率低,使他们能够采取纠正措施来纠正资源利用率限制。

除了监控资源利用率,TII 还可以监控训练作业资源的空闲时间。 如果训练作业资源长时间闲置,则可能表明训练周期的任何阶段都存在瓶颈,需要进行人工调查。 在某些情况下,资源利用率仍然相对最佳,但培训过程本身没有进展。 对于这些情况,TII 将 CloudWatch 警报与 Lambda 函数集成以查询和读取生成的训练日志,然后根据生成的错误或日志生成过程的空闲(集群已暂停)采取自动操作。 警报会触发停止训练作业的操作,这可确保 TII 在资源未被利用时不会产生不必要的成本。

结论

通过将 SageMaker 与专有的定制创新相结合,TII 能够在多个方面训练出最先进的模型:技术突破、科学质量、训练速度以及操作简便性。

“阿联酋Falcon 40B的发布,世界排名第一的开源人工智能模型,彰显了技术领先地位,并为该领域人工智能驱动的创新铺平了道路。ion”表示 Ebtesam Almazrouei 博士; 补充说“我们展示了对《国家人工智能战略2031》中概述的目标的承诺。我们积极参与以Falcon-40B为代表的全球技术进步,在我们追求知识经济的过程中发挥着至关重要的作用。 通过对人工智能解决方案的投资和开发,我们的目标是为经济增长、社会进步和教育进步创造新的机遇。

“Falcon-40B 的开源性质反映了我们对人工智能领域协作、透明度、创新和研究的奉献精神。 我们相信先进人工智能技术能力的民主化,使全世界的研究人员和组织都可以使用 Falcon-40B。”

“展望未来,我们将继续为人工智能和技术进步做出贡献,推出即将推出的模型。 此外,我们将积极推动先进人工智能技术在我国组织和企业中的采用,促进符合我们战略目标的增长和繁荣。”

– Almazrouei 博士

要了解有关 Falcon LLM 的更多信息,请查看网站 猎鹰LLM.tii.ae 和 Hugging Face上的模特卡!


作者简介

技术创新学院在 Amazon SageMaker 上训练最先进的 Falcon LLM 40B 基础模型 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。Ebtesam Almazrouei博士 是技术创新研究院 (TII) 的执行董事兼代理首席人工智能研究员和 Al-Cross 中心单位的创始人。 作为技术创新研究所 (TII) Al-Cross 中心单位的创始人,Almazrouei 博士在塑造 TII 的人工智能能力方面发挥了关键作用。 她在人工智能和机器学习方面的战略愿景和专业知识使她能够领导突破性的研究计划并促进跨职能合作,从而在多个行业提供创新的人工智能解决方案。

Almazrouei 博士的显着成就之一是她在 Falcon 40B 的开发中发挥了重要作用,Falcon 40B 是一门获得全球认可的尖端法学硕士。 Falcon 2023B 的出色表现使其在 2022 年 XNUMX 月的 Hugging Face 排行榜上名列全球第一。此外,她还领导开发了 XNUMX 年 XNUMX 月发布的全球最大的阿拉伯语大语言模型(LLM)Noor。

Almazrouei 博士因其对人工智能的贡献而受到全世界的认可,并与该领域的其他杰出女性一起入选 2023 年世界领先人工智能女性名单。 她还是可持续发展和 AI for Good 倡议的倡导者,也是 Abu Dhabi AI Connect 的总主席和许多 IEEE 国际会议的 TPC 主席。

她的贡献超出了她在 TII 的工作范围,她领导了阿联酋人工智能和区块链理事会的大数据专家小组委员会,并且是无线世界研究论坛 (WWRF) 全球指导委员会的成员。 她是一位科学作家、专利发明人、企业家和著名演讲家,因在伦敦人工智能峰会、世界人工智能戛纳电影节和科技峰会等著名峰会上发表主题演讲而闻名。

技术创新学院在 Amazon SageMaker 上训练最先进的 Falcon LLM 40B 基础模型 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。威尔巴德尔 是位于阿联酋迪拜的高级经理 AI/ML 解决方案架构师,他是全球亚马逊机器学习团队的一员。 Will 热衷于以创新方式使用技术对社区产生积极影响。 在业余时间,他喜欢潜水、踢足球和探索太平洋岛屿。

技术创新学院在 Amazon SageMaker 上训练最先进的 Falcon LLM 40B 基础模型 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。奥利维尔·克鲁尚 是 AWS 的机器学习专家解决方案架构师,常驻法国。 Olivier 帮助 AWS 客户(从小型初创公司到大型企业)开发和部署生产级机器学习应用程序。 在业余时间,他喜欢阅读研究论文并与朋友和家人一起探索荒野。

时间戳记:

更多来自 AWS机器学习