使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务

由柏拉图重新发布

关注： 0

生成人工智能（生成式人工智能）模型在生成高质量文本、图像和其他内容方面表现出了令人印象深刻的能力。然而，这些模型需要大量干净、结构化的训练数据才能充分发挥其潜力。大多数现实世界的数据以 PDF 等非结构化格式存在，需要进行预处理才能有效使用。

根据 IDC，非结构化数据占当今所有业务数据的 80% 以上。这包括电子邮件、PDF、扫描文档、图像、音频、视频等格式。虽然这些数据蕴藏着宝贵的见解，但其非结构化性质使得人工智能算法难以解释和学习。根据一个德勤2019年调查，只有 18% 的企业表示能够利用非结构化数据。

随着人工智能采用的不断加速，开发有效的机制来消化和学习非结构化数据在未来变得更加重要。这可能涉及更好的预处理工具、半监督学习技术以及自然语言处理的进步。最有效地利用非结构化数据的公司将从人工智能中获得显着的竞争优势。干净的数据对于良好的模型性能非常重要。提取的文本仍然包含大量乱码和样板文本（例如，阅读 HTML）。从互联网上抓取的数据通常包含大量重复内容。来自社交媒体、评论或任何用户生成的内容的数据也可能包含有毒和有偏见的内容，您可能需要使用一些预处理步骤将其过滤掉。还可能存在大量低质量内容或机器人生成的文本，可以使用随附的元数据将其过滤掉（例如，过滤掉收到低客户评级的客户服务响应）。

数据准备在检索增强生成的多个阶段都很重要（鲁尔）楷模。知识源文档需要预处理，例如清理文本和生成语义嵌入，以便可以有效地索引和检索它们。用户的自然语言查询也需要预处理，因此可以将其编码为向量并与文档嵌入进行比较。检索相关上下文后，它们可能需要额外的预处理（例如截断），然后才能连接到用户的查询以创建基础模型的最终提示。亚马逊 SageMaker 画布现在支持全面的数据准备功能亚马逊SageMaker数据牧马人。通过这种集成，SageMaker Canvas 为客户提供了一个端到端的无代码工作区来准备数据、构建和使用 ML 和基础模型，以加快从数据到业务洞察的速度。您现在可以轻松发现和聚合来自 50 多个数据源的数据，并使用 SageMaker Canvas 可视化界面中的 300 多个内置分析和转换来探索和准备数据。

解决方案概述

在这篇文章中，我们使用 PDF 文档数据集 —亚马逊基岩用户指南。此外，我们还展示了如何预处理 RAG 数据集。具体来说，我们清理数据并创建 RAG 工件来回答有关数据集内容的问题。考虑以下机器学习 (ML) 问题：用户提出一个大型语言模型 (LLM) 问题：“如何在 Amazon Bedrock 中过滤和搜索模型？”。 LLM在训练或微调阶段没有看过文档，因此无法回答问题，很可能会产生幻觉。我们这篇文章的目标是从 PDF（即 RAG）中找到相关的文本并将其附加到提示中，从而使法学硕士能够回答特定于本文档的问题。

下面，我们将展示如何执行所有这些主要预处理步骤亚马逊 SageMaker 画布（供电亚马逊SageMaker数据牧马人):

从 PDF 文档中提取文本（由 Textract 提供支持）
删除敏感信息（由 Comprehend 提供支持）
将文本分成块。
为每个部分创建嵌入（由 Bedrock 提供支持）。
将嵌入上传到矢量数据库（由 OpenSearch 提供支持）

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

先决条件

对于本演练，您应该具备以下条件：

备注: 按照说明创建 OpenSearch 服务域相关信息。为简单起见，我们选择带有主用户名和密码的选项以进行细粒度的访问控制。创建域后，使用以下映射创建向量索引，向量维度 1536 与 Amazon Titan 嵌入对齐：

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

演练

构建数据流

在本节中，我们将介绍如何构建数据流以从 PDF 中提取文本和元数据、清理和处理数据、使用 Amazon Bedrock 生成嵌入以及在 Amazon OpenSearch 中对数据建立索引。

启动 SageMaker Canvas

要启动 SageMaker Canvas，请完成以下步骤：

在亚马逊 SageMaker 控制台，选择域名在导航窗格中。
选择您的域名。
在启动菜单上，选择帆布.

创建数据流

请完成以下步骤以在 SageMaker Canvas 中创建数据流：

在 SageMaker Canvas 主页上，选择 数据管理员.
创建在页面右侧，然后给出数据流名称并选择创建.
这将出现在数据流页面上。
导入日期，选择表格数据。

现在让我们从 Amazon S3 存储桶导入数据：

导入日期 并选择表格从下拉列表中选择。
数据源 并选择 Amazon S3 从下拉列表中选择。
导航到包含 PDF 文件位置的元数据文件，然后选择该文件。
现在元数据文件已加载到数据准备数据流中，我们可以继续添加后续步骤以将数据和索引转换为 Amazon OpenSearch的。在这种情况下，文件具有以下元数据，以及每个文件在 Amazon S3 目录中的位置。

要添加新转换，请完成以下步骤：

选择加号并选择 添加变换.
添加步骤 并选择 自定义转换.
您可以使用 Pandas、PySpark、Python 用户定义函数和 SQL PySpark 创建自定义转换。选择 蟒蛇（PySpark） 对于这个用例。
输入步骤的名称。从示例代码片段中，浏览并选择 从pdf中提取文本。对代码片段进行必要的更改并选择地址.
让我们添加一个步骤，利用以下方法从提取的数据中编辑个人身份信息 (PII) 数据亚马逊领悟。选 添加步骤 并选择 自定义转换。并选择 Python（PySpark）。

从示例代码片段中，浏览并选择 掩码 PII。 对代码片段进行必要的更改并选择 添加。

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

下一步是将文本内容分块。选择 添加步骤 并选择 自定义转换。并选择 Python（PySpark）。

从示例代码片段中，浏览并选择 块文本。 对代码片段进行必要的更改并选择 添加。

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

让我们使用以下方法将文本内容转换为向量嵌入亚马逊基岩泰坦嵌入模型。选择 添加步骤 并选择 自定义转换。并选择 Python（PySpark）。

从示例代码片段中，浏览并选择 使用 Bedrock 生成文本嵌入。 对代码片段进行必要的更改并选择 添加。

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

现在我们可以为 PDF 文件内容提供矢量嵌入。让我们继续将数据索引到 Amazon OpenSearch 中。选择 添加步骤 并选择 自定义转换。并选择 Python（PySpark）。 您可以随意重写以下代码以使用您喜欢的矢量数据库。为简单起见，我们使用主用户名和密码来访问 OpenSearch API，对于生产工作负载，请根据您的组织策略选择选项。

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

最后，创建的数据流如下：

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

通过此数据流，PDF 文件中的数据已被读取并使用 Amazon OpenSearch 中的矢量嵌入进行索引。现在我们需要创建一个包含查询的文件来查询索引数据并将其保存到 Amazon S3 位置。我们将搜索数据流指向该文件，并在 Amazon S3 位置的新文件中输出包含相应结果的文件。

准备提示

在我们从 PDF 创建知识库后，我们可以通过在知识库中搜索一些示例查询来测试它。我们将按如下方式处理每个查询：

为查询生成嵌入（由 Amazon Bedrock 提供支持）
查询最近邻居上下文的向量数据库（由 Amazon OpenSearch 提供支持）
将查询和上下文合并到提示中。
使用提示查询 LLM（由 Amazon Bedrock 提供支持）
在 SageMaker Canvas 主页上，选择 资料准备.
创建在页面右侧，然后给出数据流名称并选择创建.

现在让我们加载用户问题，然后通过组合问题和类似文档来创建提示。此提示提供给法学硕士以生成用户问题的答案。

让我们加载包含用户问题的 csv 文件。选择 导入数据 并选择表格从下拉列表中选择。
数据源， 并选择 Amazon S3 从下拉列表中。或者，您可以选择上传包含用户查询的文件。
让我们添加一个自定义转换以将数据转换为向量嵌入，然后从 Amazon OpenSearch 搜索相关嵌入，然后使用知识库中的查询和上下文向 Amazon Bedrock 发送提示。要为查询生成嵌入，您可以使用相同的示例代码片段 使用 Bedrock 生成文本嵌入 上面第 7 步提到的。

让我们调用 Amazon OpenSearch API 来搜索相关文档以查找生成的向量嵌入。使用 Python (PySpark) 添加自定义转换。

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

让我们添加一个自定义转换来调用 Amazon Bedrock API 进行查询响应，并传递来自 Amazon OpenSearch 知识库的文档。从示例代码片段中，浏览并选择 通过上下文查询基岩。 对代码片段进行必要的更改并选择 添加。

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

综上所述，基于RAG的问答数据流如下：

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

机器学习从业者花费大量时间编写特征工程代码，将其应用到初始数据集，在工程数据集上训练模型，并评估模型准确性。鉴于这项工作的实验性质，即使是最小的项目也会导致多次迭代。相同的特征工程代码通常会一次又一次地运行，重复相同的操作会浪费时间和计算资源。在大型组织中，这可能会导致更大的生产力损失，因为不同的团队经常运行相同的工作，甚至因为不了解先前的工作而编写重复的特征工程代码。为了避免特征的重新处理，我们将数据流导出到 Amazon SageMaker 管道。 我们来选择 查询右侧的 + 按钮。 选择导出数据流并选择 运行 SageMaker 管道 （通过 Jupyter 笔记本）。

使用 Amazon SageMaker Data Wrangler 简化生成 AI 的数据准备 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

打扫干净

为避免将来产生费用，请删除或关闭您在关注此帖子时创建的资源。参考注销 Amazon SageMaker 画布以获得更多细节。

结论

在这篇文章中，我们通过扮演数据专业人员的角色，向您展示了 Amazon SageMaker Canvas 的端到端功能如何为 LLM 准备数据。交互式数据准备可以快速清理、转换和分析数据，以设计信息特征。通过消除编码复杂性，SageMaker Canvas 允许快速迭代来创建高质量的训练数据集。这种加速的工作流程直接导致构建、培训和部署高性能机器学习模型以产生业务影响。凭借全面的数据准备和从数据到见解的统一体验，SageMaker Canvas 使用户能够改善他们的机器学习结果。

我们鼓励您通过探索来了解更多亚马逊SageMaker数据牧马人, 亚马逊 SageMaker 画布, 亚马逊泰坦模型，亚马逊基岩和亚马逊开放搜索服务使用本文中提供的示例实现和与您的业务相关的数据集构建解决方案。如果您有疑问或建议，请发表评论。

作者简介

阿贾伊戈文达拉姆 是 AWS 的高级解决方案架构师。他与使用 AI/ML 解决复杂业务问题的战略客户合作。他的经验在于为适度到大规模的 AI/ML 应用程序部署提供技术指导和设计协助。他的知识范围从应用程序架构到大数据、分析和机器学习。他喜欢边休息边听音乐、体验户外活动以及与亲人共度时光。

尼基塔·伊夫金 是 Amazon SageMaker Data Wrangler 的一名高级应用科学家，对机器学习和数据清理算法感兴趣。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/simplify-data-prep-for-gen-ai-with-amazon-sagemaker-data-wrangler/

时间戳记： 2023 年 11 月 27 日

使用 Amazon SageMaker 功能存储及其功能级元数据功能在整个组织内促进功能发现和重用

源群集：

AWS机器学习

源节点： 1606966

时间戳记： 2022 年 8 月 3 日

使用 JWT 共享密钥通过 ACL 保护您的 Amazon Kendra 索引

AWS机器学习

源节点： 1819917

时间戳记： 2023 年 3 月 29 日

由柏拉图重新发布

使用 Amazon SageMaker 功能存储及其功能级元数据功能在整个组织内促进功能发现和重用

使用 Hugging Face Amazon SageMaker 容器微调和部署汇总器模型，并带来您自己的脚本

使用 Amazon Lex 捕获街道地址

使用 AWS IoT Greengrass V2 使用 Amazon SageMaker Edge Manager 进行异常检测

通过 Amazon SageMaker JumpStart 解决方案中的机器学习解决端到端业务问题

使用支持 VPC 的 Amazon Kendra S3 Connector 准确搜索答案

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

解决方案概述

先决条件

演练

构建数据流

准备提示

打扫干净

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理