使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 | 亚马逊网络服务

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 | 亚马逊网络服务

企业寻求利用机器学习 (ML) 的潜力来解决复杂问题并改善结果。 直到最近,构建和部署 ML 模型都需要深厚的技术和编码技能,包括调整 ML 模型和维护操作管道。 自 2021 年推出以来, 亚马逊 SageMaker 画布 使业务分析师能够构建、部署和使用各种机器学习模型,包括表格、计算机视觉和自然语言处理,而无需编写一行代码。 这加速了企业将机器学习应用于时间序列预测、客户流失预测、情绪分析、工业缺陷检测等用例的能力。

如宣布 2023 年 10 月 5 日,SageMaker Canvas 将其对模型的支持扩展到基础模型 (FM)——用于生成和总结内容的大型语言模型。 随着 12 年 2023 月 XNUMX 日发布,SageMaker Canvas 允许用户提出问题并获得基于其企业数据的答复。 这确保了结果是特定于上下文的,从而开辟了可以应用无代码机器学习来解决业务问题的额外用例。 例如,业务团队现在可以制定与组织的特定词汇和原则一致的响应,并且可以更快地查询冗长的文档以获得基于这些文档内容的具体响应。 所有这些内容均以私密且安全的方式执行,确保通过适当的治理和保护措施访问所有敏感数据。

首先,云管理员配置并填充 亚马逊肯德拉 将企业数据作为 SageMaker Canvas 数据源的索引。 Canvas 用户选择其文档所在的索引,并且可以构思、研究和探索,因为他们知道输出将始终得到其真实来源的支持。 SageMaker Canvas 使用最先进的 FM 亚马逊基岩亚马逊SageMaker JumpStart。 对话可以从多个 FM 并排开始,比较输出,真正让每个人都可以使用生成人工智能。

在这篇文章中,我们将回顾最近发布的功能,讨论架构,并提供分步指南,使 SageMaker Canvas 能够从您的知识库中查询文档,如以下屏幕截图所示。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

解决方案概述

基础模型可以产生幻觉——通用的、模糊的、不相关的或实际上不正确的反应。 检索增强生成 (RAG) 是减少幻觉的常用方法。 RAG 架构用于从 FM 外部检索数据,然后用于执行上下文学习以回答用户的查询。 这确保了 FM 可以使用来自可信知识库的数据,并使用该知识来回答用户的问题,从而降低产生幻觉的风险。

使用 RAG,FM 外部并用于增强用户提示的数据可以来自多个不同的数据源,例如文档存储库、数据库或 API。 第一步是将文档和任何用户查询转换为兼容的格式以执行相关性语义搜索。 为了使格式兼容,文档集合或知识库以及用户提交的查询被使用嵌入模型转换为数字表示。

在此版本中,RAG 功能以无代码且无缝的方式提供。 企业可以使用 Amazon Kendra 作为底层知识管理系统来丰富 Canvas 中的聊天体验。 下图展示了该解决方案的架构。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

将 SageMaker Canvas 连接到 Amazon Kendra 需要一次性设置。 我们在设置 Canvas 来查询文档中详细描述了设置过程。 如果您尚未设置 SageMaker 域,请参阅 加入 Amazon SageMaker 域.

作为域配置的一部分,云管理员可以选择一个或多个 Kendra 索引,业务分析师通过 SageMaker Canvas 与 FM 交互时可以查询这些索引。

在对 Kendra 索引进行水合和配置后,业务分析师通过启动新聊天并选择“查询文档”切换按钮将它们与 SageMaker Canvas 结合使用。 然后,SageMaker Canvas 将管理 Amazon Kendra 与所选 FM 之间的底层通信,以执行以下操作:

  1. 使用来自用户的问题查询 Kendra 索引。
  2. 从 Kendra 索引中检索片段(和来源)。
  3. 使用原始查询的片段设计提示,以便基础模型可以从检索到的文档生成答案。
  4. 向用户提供生成的答案,以及用于制定响应的页面/文档的引用。

设置Canvas来查询文档

在本节中,我们将引导您完成设置 Canvas 以查询通过 Kendra 索引提供的文档的步骤。 您应该具备以下先决条件:

  • SageMaker 域设置 – 加入 Amazon SageMaker 域
  • 创建一个 肯德拉指数 (或多于一个)
  • 设置 Kendra Amazon S3 连接器 – 按照以下步骤操作 亚马逊 S3 连接器 – 并将 PDF 文件和其他文档上传到与 Kendra 索引关联的 Amazon S3 存储桶
  • 设置 IAM,以便 Canvas 具有适当的权限,包括调用 Amazon Bedrock 和/或 SageMaker 终端节点所需的权限 – 按照 设置画布聊天 文件

现在您可以更新域,以便它可以访问所需的索引。 在 SageMaker 控制台上,对于给定域,选择域设置选项卡下的编辑。 启用“启用 Amazon Kendra 查询文档”开关,该开关可在 Canvas 设置步骤中找到。 激活后,选择一个或多个您想要与 Canvas 一起使用的 Kendra 索引。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

这就是配置 Canvas 查询文档功能所需的全部内容。 用户现在可以进入 Canvas 内的聊天,并开始使用通过 Kendra 索引附加到域的知识库。 知识库的维护者可以继续更新事实来源,并且借助 Kendra 中的同步功能,聊天用户将能够自动无缝地使用最新信息。

使用查询文档功能进行聊天

作为 SageMaker Canvas 用户,可以从聊天中访问查询文档功能。 要启动聊天会话,请从 SageMaker Canvas 的“即用型模型”选项卡中单击或搜索“生成、提取和总结内容”按钮。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

到达那里后,您可以使用屏幕顶部的开关打开和关闭查询文档。 查看信息提示以了解有关该功能的更多信息。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

启用查询文档后,您可以在云管理员启用的 Kendra 索引列表中进行选择。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

您可以在开始新聊天时选择索引。 然后,您可以在用户体验中提出问题,并从所选索引中自动获取知识。 请注意,针对特定索引开始对话后,无法切换到另一个索引。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

对于提出的问题,聊天将显示 FM 生成的答案以及有助于生成答案的源文档。 单击任何源文档时,Canvas 会打开文档预览,突出显示 FM 使用的摘录。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

结论

对话式人工智能具有巨大的潜力,可以通过提供具有自然直观交互的类人助手来改变客户和员工的体验,例如:

  • 对某个主题进行研究或搜索和浏览组织的知识库
  • 总结大量内容以快速收集见解
  • 搜索实体、情感、PII 和其他有用数据,并增加非结构化内容的商业价值
  • 生成文件和商业信函的草稿
  • 从不同的内部来源(事件、聊天日志、wiki)创建知识文章

聊天界面、知识检索和 FM 的创新集成使企业能够利用其领域知识和事实来源对用户问题提供准确、相关的答复。

通过将 SageMaker Canvas 连接到 Amazon Kendra 中的知识库,组织可以将其专有数据保留在自己的环境中,同时仍然受益于 FM 最先进的自然语言功能。 随着 SageMaker Canvas 的查询文档功能的推出,我们让任何企业都可以轻松使用法学硕士及其企业知识作为事实来源,以提供安全的聊天体验。 所有这些功能都以无代码格式提供,使企业能够避免处理重复和非专业的任务。

要了解有关 SageMaker Canvas 的更多信息以及它如何帮助每个人更轻松地开始机器学习,请查看 SageMaker Canvas 公告。 通过阅读以下内容,详细了解 SageMaker Canvas 如何帮助促进数据科学家和业务分析师之间的协作 构建、共享和部署帖子。 最后,要了解如何创建您自己的检索增强生成工作流程,请参阅 SageMaker JumpStart RAG.

参考资料

Lewis, P.、Perez, E.、Piktus, A.、Petroni, F.、Karpukhin, V.、Goyal, N.、Küttler, H.、Lewis, M.、Yih, W.、Rocktäschel, T.,里德尔,S.,基拉,D.(2020)。 知识密集型 NLP 任务的检索增强生成。 神经信息处理系统的进展, 33,9459-9474。


作者简介

大卫德的图片戴维德·加利特利 是 AI/ML 的高级专家解决方案架构师。 他居住在布鲁塞尔,与全球寻求采用低代码/无代码机器学习技术和生成人工智能的客户密切合作。 他从很小的时候就开始做开发人员,7 岁就开始编码。他在大学开始学习 AI/ML,从那时起就爱上了它。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。比拉尔·阿拉姆 是 AWS 的企业解决方案架构师,专注于金融服务行业。 大多数时候,Bilal 都在帮助客户构建、提升和保护其 AWS 环境,以部署最关键的工作负载。 他在电信、网络和软件开发方面拥有丰富的经验。 最近,他一直在研究使用人工智能/机器学习来解决业务问题。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。普什米人迷雾 是 AWS 的高级产品经理。 工作之余,Pashmeen 喜欢冒险远足、摄影以及与家人共度时光。

使您的业务用户能够使用 Amazon SageMaker Canvas Generative AI 从公司文档中提取见解 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。丹·辛瑞奇 是 AWS 的高级产品经理,帮助实现低代码/无代码机器学习的民主化。 在加入 AWS 之前,Dan 构建并商业化了企业 SaaS 平台和时间序列模型,供机构投资者用来管理风险和构建最佳投资组合。 工作之余,他会打曲棍球、水肺潜水和阅读科幻小说。

时间戳记:

更多来自 AWS机器学习