全球各地的企业都希望利用多个数据源为其员工和最终客户实施统一的搜索体验。 考虑到需要检查和索引的大量数据,检索速度、解决方案可扩展性和搜索性能成为选择企业智能搜索解决方案时需要考虑的关键因素。 此外,这些独特的数据源包括结构化和非结构化内容存储库——包括各种文件类型——这可能会导致兼容性问题。
亚马逊肯德拉 是一种高度准确和智能的搜索服务,使用户能够使用自然语言处理和高级搜索算法从您的非结构化和结构化数据中搜索问题的答案。 它返回问题的具体答案,为用户提供接近于与人类专家互动的体验。
今天,Amazon Kendra 推出了七种额外的数据格式支持选项供您使用。 这使您可以轻松地按原样集成现有数据源,并跨多个内容存储库执行智能搜索。
在本文中,我们将讨论新支持的数据格式以及如何使用它们。
新支持的数据格式
此前,亚马逊肯德拉 支持文件 其中包括常见问题和答案形式的结构化文本,以及 HTML 文件、Microsoft PowerPoint 演示文稿、Microsoft Word 文档、纯文本文档和 PDF 形式的非结构化文本。
通过此次发布,Amazon Kendra 现在支持七种额外的数据格式:
- 富文本格式 (RTF)
- JavaScript 对象表示法 (JSON)
- 降价(MD)
- 逗号分隔值 (CSV)
- 微软Excel(微软Excel)
- 可扩展标记语言(XML)
- 可扩展样式表语言转换(XSLT)
Amazon Kendra 用户可以通过以下两种方式将这些具有不同数据格式的文档提取到他们的索引中:
解决方案概述
在以下部分中,我们将逐步介绍从数据源添加文档并对这些文档执行搜索的步骤。
下图显示了我们的解决方案架构。
要针对任何受支持的格式测试此解决方案,您需要使用自己的数据。 您可以通过将相同或不同格式的文档上传到 S3 存储桶来进行测试。
创建 Amazon Kendra 索引
有关创建 Amazon Kendra 索引的说明,请参阅 创建索引.
如果您有用于此演示的预先存在的索引,则可以跳过此步骤。
将文档上传到 S3 存储桶并使用 S3 连接器摄取到索引
完成以下步骤以将 S3 存储桶连接到您的索引:
- 创建一个S3存储桶 存储您的文档。
- 建立资料夹 名为样本数据。
- 将要测试的文档上传到该文件夹。
- 在 Amazon Kendra 控制台上,转到您的索引并选择 资料来源.
- 添加数据源.
- 下 可用数据源, 选择 S3 并选择 添加连接器.
- 输入连接器的名称(例如
Demo_S3_connector
)并选择 下一页. - 浏览S3 并选择您上传文档的 S3 存储桶。
- 针对 IAM角色, 创建一个新角色。
- 针对 设置同步运行计划, 选择 按需运行.
- 下一页.
- 点击 查看并创建 页面,选择 添加数据源.
- 创建过程完成后,选择 立即同步.
现在您已经摄取了一些文档,您可以导航到内置的搜索控制台来测试查询。
使用 Amazon Kendra 搜索控制台搜索您的文档
在Amazon Kendra控制台上,选择 搜索索引内容 在导航窗格中。
以下是搜索不同文档类型的结果示例:
- RTF格式 – 输入RTF格式的数据上传到S3 bucket并同步数据源:
以下屏幕截图显示了搜索结果。
- JSON – 输入上传到S3 bucket中的JSON格式数据并同步数据源:
以下屏幕截图显示了搜索结果。
- 降价 – 输入上传到S3 bucket的MD格式的数据并同步数据源:
以下屏幕截图显示了搜索结果。
- CSV – 输入上传到S3 bucket的CSV格式的数据并同步数据源:
以下屏幕截图显示了搜索结果。
- Excel – 输入上传到S3存储桶的Excel格式的数据并同步数据源:
以下屏幕截图显示了搜索结果。
- XML – 输入XML格式的数据上传到S3 bucket并同步数据源:
以下屏幕截图显示了搜索结果。
- XSLT – 输入XSLT格式的数据上传到S3 bucket并同步数据源:
以下屏幕截图显示了搜索结果。
清理
为避免产生未来成本,请使用以下步骤清理您在此解决方案中创建的资源:
- 在Amazon Kendra控制台上,选择 指数 在导航窗格中。
- 选择包含要删除的数据源的索引。
- 在导航窗格中,选择 资料来源.
- 选择要删除的数据源,然后选择 删除.
当您删除数据源时,Amazon Kendra 会删除有关该数据源的所有存储信息。 Amazon Kendra 删除索引中存储的所有文档数据,以及与数据源关联的所有运行历史记录和指标。 删除数据源不会从您的存储中删除原始文档。
- 在Amazon Kendra控制台上,选择 导航窗格中的索引.
- 选择要删除的索引,然后选择 删除.
请参阅 删除索引和数据源 以获得更多细节。
- 在Amazon S3控制台上,选择 水桶 在导航窗格中。
- 选择要删除的存储桶,然后选择 删除.
- 输入存储桶的名称以确认删除,然后选择 删除存储桶.
如果存储桶包含任何对象,您将收到错误警报。 在删除之前清空存储桶,方法是选择错误消息中的链接并按照 空桶 页。 然后返回到 删除存储桶 页并删除存储桶。
- 要验证您是否已删除存储桶,请打开 水桶 页面并输入您删除的存储桶的名称。 如果找不到存储桶,则删除成功。
请参阅 删除存储桶页面 以获得更多细节。
结论
在本文中,我们讨论了 Amazon Kendra 现在支持的新数据格式。 此外,我们还讨论了如何使用 Amazon Kendra 提取和搜索存储在 S3 存储桶中的这些新文档类型。 要了解有关支持的不同数据格式的更多信息,请参阅 文件类型.
我们向您介绍了基础知识,但还有许多我们没有在本文中介绍的附加功能,例如:
- 您可以为 Amazon Kendra 索引启用基于用户的访问控制,并限制对您配置的用户和组的访问。
- 您可以将其他字段映射到 Amazon Kendra 索引属性,并使它们能够在搜索结果中进行分面、搜索和显示。
- 您可以将 Service Now 和 Salesforce 等不同的第三方数据源连接器与 Amazon Kendra 中的自定义文档丰富 (CDE) 功能集成,以在摄取期间执行额外的属性映射逻辑甚至自定义内容转换。 有关支持的连接器的完整列表,请参阅 同轴连接器.
要了解这些可能性及更多信息,请参阅 Amazon Kendra 开发人员指南.
关于作者
里沙布·亚达夫 是 AWS 的合作伙伴解决方案架构师,在 AWS 的 DevOps 和安全产品方面拥有广泛的背景。 他与东盟合作伙伴合作,提供有关企业云采用和架构审查的指导,以及通过实施 Well-Architected Framework 构建 AWS 实践。 工作之余,他喜欢将时间花在运动领域和FPS游戏上。
克鲁蒂·贾亚辛哈 饶 是一名合作伙伴解决方案架构师,专注于 AI 和 ML。 她为 AWS 合作伙伴提供技术指导,指导他们遵循最佳实践在 AWS 云中构建安全、有弹性且高度可用的解决方案。
克尔西·库马尔·卡鲁尔 是 AWS 的一名软件开发工程师。 自过去 2 年以来,他一直在 AWS Kendra 团队工作,负责各种功能和客户。 在业余时间,他喜欢进行远足等户外活动,以及排球等运动。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/new-expanded-data-format-support-in-amazon-kendra/
- 10
- 100
- 7
- a
- 关于
- ACCESS
- 精准的
- 横过
- 活动
- 增加
- 额外
- 另外
- 采用
- 高级
- AI
- 警惕
- 算法
- 所有类型
- 允许
- Amazon
- 亚马逊肯德拉
- 和
- 答案
- 架构
- 东盟
- 相关
- 属性
- 可使用
- AWS
- 背景
- 基础
- 成为
- before
- 最佳
- 最佳实践
- 建立
- 建筑物
- 内建的
- 原因
- 选择
- 关闭
- 云端技术
- 云采用
- 兼容性
- 完成
- 确认
- 分享链接
- 考虑
- 考虑
- 安慰
- 包含
- 内容
- 控制
- 成本
- 外壳
- 创建信息图
- 创建
- 创造
- 创建
- 习俗
- 合作伙伴
- data
- 详情
- 开发商
- 研发支持
- 不同
- 讨论
- 讨论
- 屏 显:
- 文件
- 文件
- ,我们将参加
- 容易
- 员工
- enable
- 使
- 工程师
- 输入
- 企业
- 错误
- 甚至
- 例子
- Excel
- 现有
- 扩大
- 体验
- 技术专家
- 广泛
- 因素
- 特征
- 部分
- 字段
- 文件
- 档
- 专注焦点
- 以下
- 申请
- 格式
- 发现
- FPS
- 骨架
- 频繁
- 止
- 未来
- 赌博
- 给予
- 地球
- Go
- 组的
- 高度
- 创新中心
- How To
- HTML
- HTTPS
- 人
- 实施
- 履行
- in
- 包括
- 指数
- 信息
- 输入
- 说明
- 整合
- 智能化
- 互动
- 介绍
- 问题
- IT
- JSON
- 键
- 语言
- 大
- 发射
- 推出
- 学习用品
- 友情链接
- 清单
- 寻找
- 许多
- 地图
- 制图
- 的话
- 指标
- 微软
- ML
- 更多
- MS
- 多
- 姓名
- 命名
- 自然
- 自然语言处理
- 导航
- 旅游导航
- 需求
- 需要
- 全新
- 对象
- 对象
- 供品
- 优惠精选
- 打开
- 附加选项
- 原版的
- 学校以外
- 己
- 面包
- 部分
- 合伙人
- 伙伴
- 过去
- 演出
- 性能
- 执行
- 朴素
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 可能性
- 帖子
- 在练习上
- 做法
- 案例分享
- 过程
- 处理
- 提供
- 提供
- 有疑问吗?
- 接收
- 去掉
- 弹性
- 资源
- 限制
- 成果
- 回报
- 回报
- 评论
- 角色
- 运行
- Salesforce的
- 同
- 可扩展性
- 搜索
- 部分
- 安全
- 保安
- 服务
- XNUMX所
- 作品
- 自
- 软件
- 软件开发
- 方案,
- 解决方案
- 一些
- 来源
- 来源
- 具体的
- 速度
- 花
- 运动
- 步
- 步骤
- 存储
- 商店
- 存储
- 结构化
- 成功
- 这样
- SUPPORT
- 支持
- 支持
- 团队
- 文案
- test
- 测试
- 基础知识
- 其
- 第三方
- 通过
- 次
- 至
- 转型
- 转换
- 类型
- 统一
- 独特
- 上传
- 上传
- 使用
- 用户
- 利用
- 价值观
- 各个
- 确认
- 体积
- 方法
- Word
- 工作
- 工作
- 合作
- XML
- XSLT
- 年
- 完全
- 您一站式解决方案
- 和风网