FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异

由柏拉图重新发布

关注： 0

如今，我们的大多数客户对大型语言模型 (LLM) 感到兴奋，并思考生成式人工智能如何改变他们的业务。然而，将这样的解决方案和模型引入日常运营并不是一件容易的事。在这篇文章中，我们讨论如何使用导致基础模型操作 (FMOps) 的 MLOps 原理来操作生成式 AI 应用程序。此外，我们深入研究了文本到文本应用程序和 LLM 操作 (LLMOps)（FMOps 的子集）最常见的生成式 AI 用例。下图说明了我们讨论的主题。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

具体来说，我们简要介绍了 MLOps 原则，并重点关注与 FMOps 和 LLMOps 相比在流程、人员、模型选择和评估、数据隐私和模型部署方面的主要区别。这适用于开箱即用、从头开始创建基础模型或对其进行微调的客户。我们的方法同样适用于开源和专有模型。

机器学习操作总结

正如帖子中所定义的使用 Amazon SageMaker 的企业的 MLOps 基础路线图、ML 和操作 (MLOps) 是人员、流程和技术的结合，可有效生产机器学习 (ML) 解决方案。为了实现这一目标，团队和角色的组合需要协作，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

这些团队如下：

高级分析团队（数据湖和数据网格） – 数据工程师负责准备和提取来自多个来源的数据，构建 ETL（提取、转换和加载）管道来管理和编目数据，并为 ML 用例准备必要的历史数据。这些数据所有者专注于向多个业务部门或团队提供对其数据的访问。
数据科学团队 – 数据科学家需要专注于根据笔记本中预定义的关键绩效指标 (KPI) 创建最佳模型。研究阶段完成后，数据科学家需要与 ML 工程师合作，创建自动化构建（ML 管道）并将模型部署到使用 CI/CD 管道的生产中。
业务团队 – 产品所有者负责定义用于评估模型性能的业务案例、需求和 KPI。 ML 消费者是使用推理结果（预测）来推动决策的其他业务利益相关者。
平台团队 – 架构师负责业务的整体云架构以及所有不同服务如何连接在一起。安全中小企业根据业务安全策略和需求审查架构。 MLOps 工程师负责为数据科学家和 ML 工程师提供安全的环境，以生产 ML 用例。具体来说，他们负责根据业务和安全需求标准化 CI/CD 管道、用户和服务角色以及容器创建、模型使用、测试和部署方法。
风险与合规团队 – 对于限制性更强的环境，审计员负责评估数据、代码和模型工件，并确保业务符合数据隐私等法规。

请注意，同一个人可以涵盖多个角色，具体取决于业务的扩展和 MLOps 成熟度。

这些角色需要专用环境来执行不同的流程，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

环境如下：

平台管理 – 平台管理环境是平台团队有权创建 AWS 账户并链接正确的用户和数据的地方
时间 – 数据层，通常称为数据湖或数据网格，是数据工程师或所有者和业务利益相关者用来准备、交互和可视化数据的环境
实验 – 数据科学家使用沙箱或实验环境来测试新的库和机器学习技术，以证明他们的概念证明可以解决业务问题
模型构建、模型测试、模型部署 – 模型构建、测试和部署环境是 MLOps 层，数据科学家和 ML 工程师在此协作实现自动化并将研究转化为生产
机器学习治理 – 最后一个难题是机器学习治理环境，其中所有模型和代码工件都由相应的角色存储、审查和审计

下图说明了参考架构，该架构已在使用 Amazon SageMaker 的企业的 MLOps 基础路线图.

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

每个业务部门都有各自的一组开发（自动模型训练和构建）、预生产（自动测试）和生产（模型部署和服务）帐户来生产 ML 用例，这些用例从集中式或分散式数据湖或数据中检索数据分别为网格。所有生成的模型和代码自动化都使用模型注册表的功能存储在集中的工具帐户中。所有这些帐户的基础设施代码都在共享服务帐户（高级分析治理帐户）中进行版本控制，平台团队可以抽象、模板化、维护和重用该帐户，以供每个新团队加入 MLOps 平台。

生成式 AI 定义以及与 MLOps 的差异

在经典 ML 中，上述人员、流程和技术的组合可以帮助您将 ML 用例产品化。然而，在生成人工智能中，用例的性质需要扩展这些功能或新功能。这些新概念之一是基础模型（FM）。之所以如此称呼它们，是因为它们可用于创建各种其他人工智能模型，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

FM 已经基于 TB 级的数据进行了训练，并拥有数千亿个参数，能够根据生成式 AI 用例的三个主要类别来预测下一个最佳答案：

文本到文本 – FM（法学硕士）已经根据未标记的数据（例如自由文本）进行了培训，并且能够预测下一个最佳单词或单词序列（段落或长论文）。主要用例围绕类人聊天机器人、摘要或其他内容创建（例如编程代码）。
文本到图像 – 标记数据，例如成对的，已用于训练 FM，它能够预测像素的最佳组合。示例用例是服装设计生成或想象的个性化图像。
文本转音频或视频 – 有标签和无标签的数据都可以用于 FM 训练。一个主要的生成式人工智能用例例子是音乐创作。

为了生产这些生成式 AI 用例，我们需要借用并扩展 MLOps 域以包括以下内容：

FM 操作 (FMOps) – 这可以生产生成人工智能解决方案，包括任何用例类型
法学硕士操作（LLMOps） – 这是 FMOps 的一个子集，专注于生产基于 LLM 的解决方案，例如文本到文本

下图说明了这些用例的重叠。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

与经典的 ML 和 MLOps 相比，FMOps 和 LLMOps 的延迟基于我们在以下部分中介绍的四个主要类别：人员和流程、FM 的选择和适应、FM 的评估和监控、数据隐私和模型部署以及技术需求。我们将在另一篇文章中介绍监控。

每种生成型人工智能用户类型的运营之旅

为了简化流程描述，我们需要对主要的生成式 AI 用户类型进行分类，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

用户类型如下：

提供服务者 – 从头开始构建 FM 并将其作为产品提供给其他用户（微调者和消费者）的用户。他们拥有深厚的端到端 ML 和自然语言处理 (NLP) 专业知识和数据科学技能，以及庞大的数据标签和编辑团队。
微调器 – 用户重新培训（微调）提供商提供的 FM，以满足自定义要求。他们将模型部署为供消费者使用的服务。这些用户需要强大的端到端机器学习和数据科学专业知识以及模型部署和推理知识。还需要强大的调优领域知识，包括即时工程。
消费者 – 用户通过文本提示或视觉界面与提供商或微调器的生成式人工智能服务进行交互，以完成所需的操作。不需要机器学习专业知识，但大多数情况下，需要了解服务功能的应用程序开发人员或最终用户。为了获得更好的结果，只有及时的工程设计才是必要的。

根据定义和所需的 ML 专业知识，MLOps 主要是提供商和微调者所需要的，而消费者可以使用应用程序生产化原则（例如 DevOps 和 AppDev）来创建生成式 AI 应用程序。此外，我们观察到用户类型之间的变化，其中提供商可能成为微调者以支持基于特定垂直领域（例如金融部门）的用例，或者消费者可能成为微调者以获得更准确的结果。但让我们观察一下每种用户类型的主要流程。

消费者的旅程

下图说明了消费者的旅程。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

如前所述，消费者需要选择、测试和使用 FM，通过提供特定输入（也称为提示。在计算机编程和人工智能的背景下，提示是指为模型或系统提供的输入以生成响应。这可以是文本、命令或问题的形式，系统用它们来处理和生成输出。然后，最终用户可以使用 FM 生成的输出，他们还应该能够对这些输出进行评级，以增强模型未来的响应。

除了这些基本过程之外，我们注意到消费者表达了通过利用微调器提供的功能来微调模型的愿望。以生成图像的网站为例。在这里，最终用户可以设置私人帐户，上传个人照片，然后生成与这些图像相关的内容（例如，生成描绘最终用户骑着摩托车挥舞剑或位于异国他乡的图像）。在这种情况下，由消费者设计的生成式人工智能应用程序必须通过 API 与微调器后端交互，才能将此功能提供给最终用户。

不过，在深入研究之前，我们首先关注一下模型选择、测试、使用、输入输出交互和评分的过程，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

*15K 可用 FM 参考

步骤 1. 了解顶级 FM 功能

选择基础模型时需要考虑许多维度，具体取决于用例、可用数据、法规等。一个好的清单虽然不全面，但可能如下所示：

专有或开源 FM – 专有模型通常会产生财务成本，但它们通常提供更好的性能（就生成的文本或图像的质量而言），通常由模型提供商的专门团队开发和维护，以确保最佳的性能和可靠性。另一方面，我们还看到开源模型的采用，除了免费之外，还提供了可访问性和灵活性的额外好处（例如，每个开源模型都是可微调的）。截至 40 年 2023 月，Anthropic 的 Claude 模型就是专有模型的一个示例，Falcon-XNUMXB 就是高性能开源模型的一个示例。
商业许可证 – 在决定 FM 时，许可考虑因素至关重要。值得注意的是，某些模型是开源的，但由于许可限制或条件而不能用于商业目的。差异可能很微妙：新发布的 xgen-7b-8k-基地例如，模型是开源且可商业使用的（Apache-2.0 许可证），而模型的指令微调版本 xgen-7b-8k-inst 仅出于研究目的而发布。在为商业应用程序选择 FM 时，必须验证许可协议、了解其局限性并确保其符合项目的预期用途。
参数 – 参数的数量（由神经网络中的权重和偏差组成）是另一个关键因素。更多参数通常意味着更复杂且潜在更强大的模型，因为它可以捕获数据中更复杂的模式和相关性。然而，代价是它需要更多的计算资源，因此运行成本更高。此外，我们确实看到了较小模型的趋势，特别是在开源领域（模型范围从 7 到 40 亿），这些模型在经过微调后表现良好。
迅速的 – 模型的速度受其大小的影响。由于计算复杂性增加，较大的模型往往处理数据的速度较慢（延迟较高）。因此，平衡对具有高预测能力的模型（通常是更大的模型）的需求与对速度的实际要求至关重要，特别是在需要实时或近实时响应的应用程序中，例如聊天机器人。
上下文窗口大小（令牌数量） – 上下文窗口，由每个提示可以输入或输出的最大标记数定义，对于确定模型一次可以考虑多少上下文至关重要（一个标记大致相当于 0.75 个英语单词）。具有较大上下文窗口的模型可以理解并生成较长的文本序列，这对于涉及较长对话或文档的任务非常有用。
训练数据集 – 了解 FM 训练的数据类型也很重要。一些模型可以在不同的文本数据集（例如互联网数据、编码脚本、指令或人类反馈）上进行训练。其他人也可以接受多模式数据集的培训，例如文本和图像数据的组合。这会影响模型对不同任务的适用性。此外，组织可能会存在版权问题，具体取决于模型训练的确切来源，因此，必须仔细检查训练数据集。
质量保证 – FM 的质量可能会根据其类型（专有与开源）、大小及其训练内容而有所不同。质量取决于上下文，这意味着对于一个应用程序来说被认为是高质量的东西可能对于另一个应用程序来说却不是。例如，在互联网数据上训练的模型对于生成会话文本可能被认为是高质量的，但对于技术或专业任务来说质量较差。
可微调 – 通过调整模型权重或层来微调 FM 的能力可能是一个关键因素。微调可以使模型更好地适应应用程序的特定上下文，从而提高手头特定任务的性能。然而，微调需要额外的计算资源和技术专业知识，并且并非所有模型都支持此功能。开源模型（通常）总是可以微调的，因为模型工件可供下载，并且用户可以随意扩展和使用它们。专有模型有时可能提供微调选项。
现有客户技能 – FM 的选择还可能受到客户或开发团队的技能和熟悉程度的影响。如果组织的团队中没有 AI/ML 专家，那么 API 服务可能更适合他们。此外，如果团队在特定 FM 方面拥有丰富的经验，那么继续使用它可能比投入时间和资源来学习和适应新的 FM 更有效。

以下是两个候选列表的示例，一个用于专有模型，另一个用于开源模型。您可以根据您的具体需求编译类似的表格，以快速了解可用选项。请注意，这些模型的性能和参数变化很快，并且在阅读时可能已经过时，而其他功能可能对特定客户很重要，例如支持的语言。

以下是 AWS 中提供的著名专有 FM 的示例（2023 年 XNUMX 月）。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

以下是 AWS 中提供的著名开源 FM 的示例（2023 年 XNUMX 月）。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在汇总了 10-20 个潜在候选模型的概述后，有必要进一步完善此候选列表。在本节中，我们提出了一种快速机制，该机制将产生两个或三个可行的最终模型作为下一轮的候选模型。

下图说明了最初的入围过程。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

通常，提示工程师是创建高质量提示的专家，这些提示允许人工智能模型理解和处理用户输入，他们会尝试各种方法在模型上执行相同的任务（例如摘要）。我们建议不要即时创建这些提示，而是从提示目录中系统地提取。这个提示目录是存储提示的中心位置，以避免重复，启用版本控制，并在团队内共享提示，以确保不同开发阶段的不同提示测试人员之间的一致性，我们将在下一节中介绍。此提示目录类似于要素存储的 Git 存储库。生成式人工智能开发人员（可能与提示工程师是同一个人）需要评估输出，以确定其是否适合他们正在寻求开发的生成式人工智能应用程序。

步骤 2. 测试和评估顶级 FM

在候选名单减少到大约三个 FM 后，我们建议采取评估步骤来进一步测试 FM 的功能和用例的适用性。根据评估数据的可用性和性质，我们建议不同的方法，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

首先使用的方法取决于您是否标记了测试数据。

如果你有标签数据，你可以用它来进行模型评估，就像我们对传统的机器学习模型所做的那样（输入一些样本并将输出与标签进行比较）。根据测试数据是否具有离散标签（例如正面、负面或中性情绪分析）还是非结构化文本（例如摘要），我们提出不同的评估方法：

准确度指标 – 对于离散输出（例如情感分析），我们可以使用标准准确度指标，例如精确度、召回率和 F1 分数
相似度指标 – 如果输出是非结构化的（例如摘要），我们建议相似性度量，例如 ROUGE 和余弦相似度

有些用例并不适合有一个真正的答案（例如，“为我 5 岁的女儿创作一个简短的儿童故事”）。在这种情况下，评估模型变得更具挑战性，因为您没有标记的测试数据。根据人工审查模型与自动评估的重要性，我们提出了两种方法：

人在环 (HIL) – 在这种情况下，一组即时测试人员将审查模型的响应。根据应用程序的关键程度，提示测试人员可能会审查 100% 的模型输出或仅审查样本。
LLM驱动的评估 – 在这种情况下，即时测试人员被法学硕士取代，理想情况下，法学硕士比被测试的人员更强大（尽管可能更慢且成本最高）。法学硕士将审查所有模型生成的回答并对其进行评分。此方法可能会导致质量较低，但它是一种更便宜且更快的评估选项，可以为模型的性能提供良好的初始衡量标准。

例如，我们可以使用以下针对 LLM 的示例提示，其中包括输入查询、LLM 响应和说明：“我们希望请求您对 AI 助手的性能提供反馈，以响应上面显示的用户问题。请评价助理回复的有用性、相关性、准确性和详细程度。助理将获得1到10分的总体评分，评分越高表明整体表现越好。”

该提示将被发送到另一个 LLM (EvalLLM) 进行评估。以下是由 EvalLLM（本例中为 Claude）评估 Falcon-40B 模型响应的示例。我们使用这样的问题：“如果苏伊士运河从未修建过怎么办？” 响应如下：

问：如果苏伊士运河从未修建过怎么办？

falcon-40b-指令

如果苏伊士运河从未建成，船只就必须绕行非洲才能在地中海和红海之间航行。这将显着增加航行时间和距离，降低效率且成本更高。此外，如果没有苏伊士运河，中东和北非的许多国家与世界其他地区的联系将会大大减弱，从而阻碍经济和文化的发展。

评论（评分：9/10）

助理的回答高度相关、准确且详细。它为用户关于苏伊士运河不存在的假设问题提供了极好的答案。助理正确地指出了对海上旅行的影响以及对中东和北非的经济和文化影响。然而，它本可以进一步阐述地缘政治影响或对全球贸易格局的影响，以便做出更全面的应对。

下图说明了端到端评估流程示例。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

基于这个例子，为了进行评估，我们需要提供示例提示（我们将其存储在提示目录中），以及基于我们的具体应用的评估标记或未标记数据集。例如，使用带标签的评估数据集，我们可以提供提示（输入和查询），例如“请告诉我 2023 年英国首相的全名”，以及输出和答案，例如“Rishi Sunak”。对于未标记的数据集，我们仅提供问题或说明，例如“生成零售网站的源代码”。我们将提示目录和评估数据集的组合称为 评价提示目录。我们之所以区分提示目录和评估提示目录，是因为后者专用于特定的用例，而不是提示目录包含的通用提示和指令（例如问答）。

有了这个评估提示目录，下一步就是将评估提示提供给顶级 FM。结果是一个评估结果数据集，其中包含每个 FM 的提示、输出以及带标签的输出和分数（如果存在）。对于未标记的评估提示目录，HIL 或 LLM 还需要一个额外的步骤来审查结果并提供分数和反馈（如我们之前所述）。最终结果将是汇总结果，结合了所有输出的分数（计算平均精度或人工评分），并允许用户对模型的质量进行基准测试。

收集评估结果后，我们建议根据多个维度选择模型。这些通常归结为精度、速度和成本等因素。下图显示了一个示例。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

每个模型都会在这些维度上拥有优势和某些权衡。根据用例，我们应该为这些维度分配不同的优先级。在前面的示例中，我们选择将成本作为最重要的因素，其次是精度，然后是速度。尽管它速度较慢且效率不如 FM1，但它仍然足够有效且托管成本低得多。因此，我们可能会选择 FM2 作为首选。

步骤 3. 开发生成式 AI 应用程序后端和前端

此时，生成式 AI 开发人员在工程师和测试人员的帮助下，已经为特定应用选择了正确的 FM。下一步是开始开发生成式人工智能应用程序。我们将生成式人工智能应用程序的开发分为两层，后端和前端，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在后端，生成式 AI 开发人员将选定的 FM 纳入解决方案，并与提示工程师一起创建自动化，将最终用户输入转换为适当的 FM 提示。提示测试人员会在提示目录中创建必要的条目，以进行自动或手动（HIL 或 LLM）测试。然后，生成式人工智能开发人员创建提示链和应用机制以提供最终输出。在这种情况下，提示链接是一种创建更加动态和上下文感知的 LLM 应用程序的技术。它的工作原理是将复杂的任务分解为一系列更小、更易于管理的子任务。例如，如果我们向法学硕士询问“英国首相出生在哪里以及那个地方距离伦敦有多远”，则该任务可以分解为单独的提示，可以根据答案构建提示之前的即时评估，例如“谁是英国首相”、“他们的出生地是哪里”以及“那个地方离伦敦有多远？” 为了确保一定的输入和输出质量，生成式人工智能开发人员还需要创建监控和过滤最终用户输入和应用程序输出的机制。例如，如果法学硕士申请应该避免有毒请求和响应，他们可以对输入和输出应用毒性检测器并将其过滤掉。最后，他们需要提供一个评级机制，该机制将支持通过好的和坏的例子来扩展评估提示目录。这些机制的更详细描述将在以后的帖子中介绍。

为了向生成人工智能最终用户提供功能，需要开发与后端交互的前端网站。因此，DevOps和AppDevs（云上的应用程序开发人员）角色需要遵循最佳开发实践来实现输入/输出和评分的功能。

除了这个基本功能外，前端和后端还需要包含创建个人用户帐户、上传数据、作为黑匣子启动微调以及使用个性化模型代替基本FM的功能。生成式人工智能应用程序的生产过程与普通应用程序类似。下图描述了一个示例架构。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在此架构中，生成式 AI 开发人员、提示工程师和 DevOps 或 AppDev 手动创建和测试应用程序，方法是使用专用代码存储库通过 CI/CD 将应用程序部署到开发环境（上图中的生成式 AI App Dev）并与开发分支。在这个阶段，生成式AI开发者将通过调用微调器的FM提供商提供的API来使用相应的FM。然后，为了广泛测试应用程序，他们需要将代码提升到测试分支，这将触发通过 CI/CD 部署到预生产环境（生成 AI 应用程序预生产）。在这种环境下，提示测试人员需要尝试大量的提示组合并查看结果。提示、输出和审查的组合需要移至评估提示目录，以便将来自动化测试过程。经过广泛的测试后，最后一步是通过与主分支（生成式 AI 应用程序产品）合并，通过 CI/CD 将生成式 AI 应用程序推广到生产。请注意，所有数据，包括提示目录、评估数据和结果、最终用户数据和元数据以及微调的模型元数据，都需要存储在数据湖或数据网格层中。 CI/CD 管道和存储库需要存储在单独的工具帐户中（类似于 MLOps 中描述的帐户）。

供应商之旅

FM 提供商需要训练 FM，例如深度学习模型。对于他们来说，端到端 MLOps 生命周期和基础设施是必要的。在历史数据准备、模型评估和监测方面需要补充。下图展示了他们的旅程。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

在经典的 ML 中，历史数据通常是通过 ETL 管道提供真实数据来创建的。例如，在流失预测用例中，自动化会根据客户的新状态更新数据库表以自动流失/不流失。就 FM 而言，它们需要数十亿个标记或未标记的数据点。在文本到图像的用例中，数据标记团队需要标记手动配对。这是一项昂贵的工作，需要大量的人力资源。亚马逊 SageMaker Ground Truth Plus 可以提供贴标团队来为您执行此活动。对于某些用例，此过程也可以部分自动化，例如通过使用类似 CLIP 的模型。对于法学硕士，例如文本到文本，数据是未标记的。然而，它们需要准备并遵循现有历史未标记数据的格式。因此，需要数据编辑人员进行必要的数据准备并确保一致性。

准备好历史数据后，下一步就是模型的训练和生产。请注意，可以使用我们为消费者描述的相同评估技术。

微调师的旅程

微调器的目标是使现有的 FM 适应其特定环境。例如，FM模型可以准确地总结通用文本，但不能准确地总结财务报告，或者无法为非通用编程语言生成源代码。在这些情况下，微调人员需要标记数据，通过运行训练作业来微调模型，部署模型，根据消费者流程进行测试，并监控模型。下图说明了此过程。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

目前，有两种微调机制：

微调 – 通过使用 FM 和标记数据，训练作业重新计算深度学习模型层的权重和偏差。此过程可能需要大量计算，并且需要有代表性的数据量，但可以生成准确的结果。
参数高效微调 (PEFT) – 研究人员表明，通过在深度学习模型中添加额外的小层，他们可以获得满意的结果，而不是重新计算所有权重和偏差（例如，劳拉）。 PEFT 比深度微调需要更低的计算能力，并且需要更少的输入数据进行训练。缺点是准确性可能较低。

下图说明了这些机制。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

现在我们已经定义了两种主要的微调方法，下一步是确定如何部署和使用开源和专有的 FM。

借助开源 FM，微调人员可以从网络下载模型工件和源代码，例如，通过使用拥抱脸模型中心。这使您可以灵活地深度微调模型，将其存储到本地模型注册表，并将其部署到亚马逊SageMaker 端点。此过程需要互联网连接。为了支持更安全的环境（例如金融行业的客户），您可以在本地下载模型，运行所有必要的安全检查，然后将其上传到 AWS 账户上的本地存储桶。然后，微调器在没有互联网连接的情况下使用本地存储桶中的 FM。这确保了数据隐私，并且数据不会通过互联网传输。下图说明了此方法。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

对于专有的 FM，部署过程会有所不同，因为微调人员无法访问模型工件或源代码。这些模型存储在专有 FM 提供商 AWS 帐户和模型注册表中。要将此类模型部署到 SageMaker 端点，微调器可以仅请求将直接部署到端点的模型包。此过程要求在专有 FM 提供商的帐户中使用客户数据，这引发了有关在远程帐户中使用客户敏感数据来执行微调以及在多个客户之间共享的模型注册表中托管模型的问题。如果专有 FM 提供商需要为这些模型提供服务，这会导致多租户问题变得更具挑战性。如果微调器使用亚马逊基岩，这些挑战都得到了解决——数据不通过互联网传输，FM 提供商无法访问微调器的数据。如果微调者想要为来自多个客户的模型提供服务，例如我们之前给出的网站示例，成千上万的客户将向其上传个性化图像，那么开源模型也会面临同样的挑战。然而，这些场景可以被认为是可控的，因为只涉及微调器。下图说明了此方法。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

从技术角度来看，微调器需要支持的架构类似于 MLOps 的架构（见下图）。微调需要在开发中通过创建 ML 管道来进行，例如使用 Amazon SageMaker管道; 执行预处理、微调（训练作业）和后处理；如果是开源FM，则将微调后的模型发送到本地模型注册表（否则，新模型将存储到专有的FM提供环境中）。然后，在预生产中，我们需要按照我们针对消费者场景描述的方式测试模型。最后，模型将在产品中提供服务和监控。请注意，当前（微调）的 FM 需要 GPU 实例端点。如果我们需要将每个微调模型部署到单独的端点，那么在数百个模型的情况下，这可能会增加成本。因此，我们需要使用多模型端点并解决多租户挑战。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

微调者根据特定环境调整 FM 模型，以将其用于其业务目的。这意味着大多数时候，微调者也是支持所有层所需的消费者，正如我们在前面几节中所描述的，包括生成式 AI 应用程序开发、数据湖和数据网格以及 MLOps。

下图展示了微调器为生成式 AI 最终用户提供的完整 FM 微调生命周期。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

下图说明了关键步骤。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

关键步骤如下：

最终用户创建个人帐户并上传私人数据。
数据存储在数据湖中，并经过预处理以遵循 FM 期望的格式。
这会触发一个微调 ML 管道，将模型添加到模型注册表中，
从那里，要么通过最少的测试将该模型部署到生产中，要么该模型通过 HIL 和手动审批门推动广泛的测试。
经过微调的模型可供最终用户使用。

由于这种基础设施对于非企业客户来说很复杂，因此 AWS 发布了 Amazon Bedrock 来减轻创建此类架构的工作量，并使微调的 FM 更接近生产。

FMOps 和 LLMOps 角色和流程差异化因素

基于前面的用户类型旅程（消费者、生产者和微调者），需要具有特定技能的新角色，如下图所示。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

新角色如下：

数据标记者和编辑者 – 这些用户标记数据，例如配对，或准备未标记的数据（例如自由文本），并扩展高级分析团队和数据湖环境。
微调器 – 这些用户对 FM 有深入的了解，并且知道如何调整它们，从而扩展了专注于经典 ML 的数据科学团队。
生成式人工智能开发人员 – 他们在选择 FM、链接提示和应用程序以及过滤输入和输出方面拥有深厚的知识。他们属于一个新的团队——生成式人工智能应用团队。
提示工程师 – 这些用户设计输入和输出提示以使解决方案适应上下文并测试和创建提示目录的初始版本。他们的团队是生成式人工智能应用团队。
提示测试人员 – 他们大规模测试生成式人工智能解决方案（后端和前端），并将结果提供给增强提示目录和评估数据集。他们的团队是生成式人工智能应用团队。
应用程序开发和开发运营 – 他们开发生成式人工智能应用程序的前端（例如网站）。他们的团队是生成式人工智能应用团队。
生成式人工智能最终用户 – 这些用户将生成式人工智能应用程序作为黑匣子使用、共享数据并评估输出的质量。

下图说明了合并生成式 AI 的 MLOps 流程图的扩展版本。

FMOps/LLMOps：实施生成式 AI 以及与 MLOps 的差异 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

新的应用程序层是生成式 AI 开发人员、提示工程师和测试人员以及 AppDevs 创建生成式 AI 应用程序的后端和前端的环境。生成式 AI 最终用户通过互联网（例如 Web UI）与生成式 AI 应用程序前端进行交互。另一方面，数据标记者和编辑者需要在不访问数据湖或数据网格后端的情况下预处理数据。因此，为了与数据安全交互，需要带有编辑器的 Web UI（网站）。 SageMaker Ground Truth 提供了开箱即用的此功能。

结论

MLOps 可以帮助我们高效地生产 ML 模型。然而，要实施生成式人工智能应用程序，您需要额外的技能、流程和技术，从而产生 FMOps 和 LLMOps。在这篇文章中，我们定义了 FMOps 和 LLMOps 的主要概念，并描述了与 MLOps 功能在人员、流程、技术、FM 模型选择和评估方面的主要区别。此外，我们还说明了生成式人工智能开发人员的思维过程以及生成式人工智能应用程序的开发生命周期。

未来，我们将专注于为我们讨论的每个领域提供解决方案，并将提供有关如何集成 FM 监控（例如毒性、偏差和幻觉）和第三方或私有数据源架构模式的更多详细信息，例如检索增强生成 (RAG)，转化为 FMOps/LLMOps。

要了解更多信息，请参阅使用 Amazon SageMaker 的企业的 MLOps 基础路线图并尝试端到端解决方案使用 Amazon SageMaker JumpStart 预训练模型实施 MLOps 实践.

如果您有任何意见或疑问，请将其留在评论部分。

作者简介

Sokratis Kartakis 博士 是 Amazon Web Services 的高级机器学习和运营专家解决方案架构师。 Sokratis 致力于通过利用 AWS 服务并塑造其运营模型（即 MLOps 基础）和利用最佳开发实践的转型路线图，帮助企业客户实现其机器学习 (ML) 解决方案的工业化。他花了 15 年以上的时间在能源、零售、健康、金融/银行、赛车运动等领域发明、设计、领导和实施创新的端到端生产级机器学习和物联网 (IoT) 解决方案。 Sokratis 喜欢与家人和朋友一起度过业余时间，或者骑摩托车。

海科霍茨 是人工智能和机器学习领域的高级解决方案架构师，特别关注自然语言处理、大型语言模型和生成式人工智能。在此之前，他曾担任亚马逊欧盟客户服务数据科学主管。 Heiko 帮助我们的客户在 AWS 上的 AI/ML 之旅中取得成功，并与许多行业的组织合作，包括保险、金融服务、媒体和娱乐、医疗保健、公用事业和制造。在业余时间，Heiko 尽可能多地旅行。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。汽车/电动汽车，碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
图表Prime。使用 ChartPrime 提升您的交易游戏。访问这里。
块偏移量。现代化环境抵消所有权。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/fmops-llmops-operationalize-generative-ai-and-differences-with-mlops/

时间戳记： 2023 年 9 月 1 日

时间戳记： 2023 年 2 月 2 日

由柏拉图重新发布

构建具有特定领域和特定语言定制的多语言文档翻译工作流程

使用 Amazon SageMaker 改进机器学习模型的治理

通过参数化数据集和计划作业更好地控制您的 Amazon SageMaker Data Wrangler 工作负载

AI21 Jurassic-1 基础模型现已在 Amazon SageMaker 上可用

Amazon Search 如何在 AWS 上使用 NVIDIA Triton 实现低延迟、高吞吐量的 T5 推理

利用生成式 AI 来利用企业数据的力量：来自 Amazon Kendra、LangChain 和大型语言模型的见解 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

机器学习操作总结

生成式 AI 定义以及与 MLOps 的差异

每种生成型人工智能用户类型的运营之旅

消费者的旅程

步骤 1. 了解顶级 FM 功能

步骤 2. 测试和评估顶级 FM

步骤 3. 开发生成式 AI 应用程序后端和前端

供应商之旅

微调师的旅程

FMOps 和 LLMOps 角色和流程差异化因素

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理