亚马逊肯德拉 是一种由机器学习 (ML) 提供支持的高度准确且易于使用的智能搜索服务。 Amazon Kendra 提供了一套数据源连接器来简化您的内容的摄取和索引过程,无论它位于何处。
组织中的有价值数据存储在结构化和非结构化存储库中。 企业搜索解决方案应该能够将多个结构化和非结构化存储库中的数据汇集在一起,以进行索引和搜索。
Confluence 就是这样一种非结构化数据存储库。 Confluence 是一个团队工作区,它为知识工作者团队提供了一个创建、捕获和协作任何项目或想法的地方。 团队空间帮助团队构建、组织和共享工作,因此每个团队成员都可以了解机构知识并访问他们需要的信息。
有两个合流 供品:
- 云端技术 – 这是作为软件即服务 (SaaS) 产品提供的。 它始终在线、不断更新且高度安全。
- 数据中心(自行管理) – 在这里,您将 Confluence 托管在您的基础架构上,该基础架构可以在本地或云端。 这使您可以将数据保存在网络中并自行管理。
我们很高兴地宣布,您现在可以使用新的 Amazon Kendra connector V2 for Confluence 在云和数据中心搜索存储在您的 Confluence 帐户中的信息。 在这篇文章中,我们展示了如何索引存储在 Confluence 中的信息并使用 Amazon Kendra 智能搜索功能。 此外,基于 ML 的智能搜索可以准确地从具有自然语言叙述内容的非结构化文档中找到信息,而关键字搜索对此效果不佳。
此版本的新功能
除了云版本的基本身份验证外,该版本还支持 OAuth 2.0 身份验证。 对于数据中心(本地)版本,除了基本身份验证和个人访问令牌之外,我们还添加了 OAuth2,用于显示基于用户访问权限的搜索结果。 您可以受益于以下功能:
- 除了空间、页面、博客和附件之外,您现在还可以抓取评论
- 您现在可以对同步范围进行细粒度的选择——您可以指定页面、博客、评论和附件
- 您可以选择导入身份(或不导入)
- 此版本为选择实体标题和文件类型提供正则表达式支持
- 您可以选择多种同步模式
解决方案概述
借助 Amazon Kendra,您可以配置多个数据源以提供一个集中位置来搜索整个文档存储库。 对于我们的解决方案,我们演示了如何使用适用于 Confluence 的 Amazon Kendra 连接器为 Confluence 存储库编制索引。 该解决方案包括以下步骤:
- 选择身份验证机制。
- 在 Confluence 上配置应用程序并获取连接详细信息。
- 将详细信息存储在 AWS机密管理器.
- 通过 Amazon Kendra 控制台创建 Confluence 数据源 V2。
- 索引 Confluence 存储库中的数据。
- 运行示例查询以测试解决方案。
先决条件
要试用适用于 Confluence 的 Amazon Kendra 连接器,您需要具备以下条件:
选择身份验证机制
选择您喜欢的身份验证方法:
- 基础 – 这适用于 Cloud 和 Data Center 版本。 您需要用户 ID 和密码来配置此方法。
- 个人访问令牌 – 此选项仅适用于 Data Center 版本。
- OAuth2 – 这更复杂,适用于云和数据中心版本。
收集身份验证详细信息
在本节中,我们将展示根据您的身份验证方法收集您的身份验证详细信息的步骤。
基本身份验证
对于数据中心版的基本身份验证,您只需要您的登录名和密码。 确保您的登录名具有收集所有内容的权限。
对于云版,您的用户 ID 用作您的用户登录名。 对于您的密码,您需要获得一个令牌。 完成以下步骤:
- 登录到 https://id.atlassian.com/manage-profile/security/api-tokens 并选择 创建 API 令牌.
- 针对 标签, 输入令牌的名称。
- 创建.
- 复制该值并将其保存以用作您的密码。
个人访问令牌
此身份验证方法仅适用于本地(数据中心)。 完成以下步骤以获取身份验证详细信息:
- 使用您希望 Amazon Kendra 在检索内容时使用的用户 ID 和密码登录到您的 Confluence URL。
- 选择配置文件图标并选择 个人设置.
- 个人访问令牌 在导航窗格中,然后选择 创建令牌.
- 针对 令牌名称,输入名称。
- 针对 到期日,取消选择 自动到期.
- 创建.
- 复制令牌并将其保存在安全的地方。
要配置 Secrets Manager,我们使用登录 URL 和此值。
Confluence Cloud 版本的 OAuth2 身份验证
这种身份验证方法遵循完整的 OAuth2.0 (3LO) 文档 从合流。 我们首先在 Confluence 上创建和配置一个应用程序,并为 OAuth2 启用它。 Cloud 和 Data Center 版本的过程略有不同。 然后我们获得授权令牌并将其交换为访问令牌。 最后,我们得到客户端 ID、客户端密码和客户端代码。 完成以下步骤:
- 登录到 Confluence 应用程序。
- 导航 https://developer.atlassian.com/.
- 旁边 我的应用程序,选择 创建 并选择 OAuth2 集成.
- 针对 名字,输入名称。
- 创建.
- 授权 在导航窗格中。
- 地址 在您的授权类型旁边。
- 针对 回调网址,输入您用于登录 Confluence 的 URL。
- 保存更改.
- 下 授权网址生成器,选择 添加 API.
- 旁边 用户身份API,选择 地址,然后选择 配置.
- 编辑范围 为应用程序配置读取范围。
- 选择 查看活动用户个人资料 和 查看用户资料.
- 权限 在导航窗格中。
- 旁边 合流 API,选择 地址,然后选择 配置.
- 点击 经典示波器 标签,选择 编辑范围.
- 选择所有阅读、搜索和下载范围。
- 保存.
- 点击 粒度范围 标签,选择 编辑范围.
- 搜索读取并选择找到的所有范围。
- 保存.
- 授权 在导航窗格中。
- 在您的授权类型旁边,选择 配置.
您应该看到列出了三个 URL。
- 复制代码 精细的 Confluence API 授权 URL.
以下是示例代码:
- 如果要生成刷新令牌以便不必重复此过程,请添加
offline_access
(或%20offline_access
) 到 URL 中所有范围的末尾(例如,&scope=REQUESTED_SCOPE%20REQUESTED_SCOPE_TWO%20offline_access
). - 如果您每次都生成一个新令牌,只需在浏览器中输入 URL。
- 接受.
您将被重定向到您的 Confluence 主页。
- 检查浏览器 URL 并找到
code=xxxxx
. - 复制此代码并保存。
这是我们用来与访问令牌交换的授权代码。
- 返回到 Atlassian 开发人员控制台并选择 个人设置 在导航窗格中。
- 复制客户端 ID 和机密 ID 的值并保存。
我们需要这些值来调用以将授权令牌与访问令牌交换。
接下来,我们使用 邮差 用于发布授权代码以获取访问令牌的实用程序。 您可以使用替代工具,例如 卷曲 也这样做。
- 发布授权码的网址是
https://auth.atlassian.com/oauth/token
. - 要发布的 JSON 正文如下:
grant_type
参数是硬编码的。 我们收集了以下值 client_id
和 client_secret
在上一步中。 code 的值是我们之前收集的授权码。
成功的响应将返回访问令牌。 如果您之前添加了对 URL 的离线访问,您还会获得一个刷新令牌。
- 保存访问令牌以在设置 Secrets Manager 时使用。
如果您从刷新令牌生成新令牌,则当前令牌仅在 1 小时内有效。 如果您需要获得新的令牌,则可以重新开始。 但是,如果您有刷新令牌,请像以前一样使用 Postman 发布到以下 URL: https://auth.atlassian.com/oauth/token
. 对令牌正文使用以下 JSON 格式:
该调用将返回一个新的访问令牌
Confluence 数据中心版的 OAuth2 身份验证
如果使用具有 OAuth2 身份验证的数据中心版本,请完成以下步骤:
- 登录到 Confluence 数据中心版。
- 选择齿轮图标,然后选择 一般配置.
- 在导航窗格中,选择 申请链接,然后选择 建立连结.
- 在 建立连结 弹出窗口,选择 外用 和 来电,然后选择 继续.
- 针对 名字,输入名称。
- 针对 重定向网址,输入
https://httpbin.org/
. - 保存.
- 复制并保存客户端 ID 和客户端密码的值。
- 在单独的浏览器选项卡上,打开 URL https://example-app.com/pkce.
- 生成随机字符串 和 计算哈希.
- 复制下面的值 代码挑战。
- 返回到您的原始选项卡。
- 使用以下 URL 获取授权码:
使用您之前复制的客户端 ID,以及 https://httpbin.org
对于重定向 URI。 为了 CODE_CHALLENGE
,输入您之前复制的代码。
- 让.
你被重定向到 httpbin.org
.
- 保存代码以在下一步中使用。
使用您之前保存的客户端 ID、客户端密码和授权代码。 为了 CODE_VERIFIER
,输入您生成代码挑战时的值。
- 复制访问令牌和刷新令牌以备后用
访问令牌和刷新令牌的有效期仅为 1 小时。 要刷新令牌,请将以下代码发布到同一 URL 以获取新值:
新令牌的有效期为 1 小时。
在 Secrets Manager 中存储 Confluence 凭证
要将您的 Confluence 凭证存储在 Secrets Manager 中,请完成以下步骤:
- 在Secrets Manager控制台上,选择 储存新秘密.
- 选择 其他类型的秘密.
- 根据机密的类型,输入键值,如下所示:
- 对于 Confluence Cloud 基本身份验证,输入以下键值对(注意密码不是登录密码,而是您之前创建的令牌):
- 对于 Confluence Cloud OAuth 身份验证,输入以下键值对:
- 对于 Confluence Data Center 基本身份验证,输入以下键值对:
- 对于 Confluence 数据中心个人访问令牌身份验证,输入以下键值对:
- 对于 Confluence 数据中心 OAuth 身份验证,输入以下键值对:
- 下一页.
- 针对 秘密名称,输入名称(例如,
AmazonKendra-my-confluence-secret
). - 输入可选描述。
- 下一页.
- 在 配置轮换 部分,将所有设置保留为默认值并选择 下一页.
- 点击 评论 页面,选择 线上商城.
为 Confluence 配置 Amazon Kendra 连接器
要配置 Amazon Kendra 连接器,请完成以下步骤:
- 在Amazon Kendra控制台上,选择 创建一个索引.
- 针对 索引名称,输入索引的名称(例如,
my-confluence-index
). - 输入可选描述。
- 针对 角色名称,输入 IAM 角色名称。
- 配置可选的加密设置和标签。
- 下一页.
- 在 配置用户访问控制 部分,将设置保留为默认值并选择 下一页.
- 在 指定配置 部分,选择 开发者版 并选择 下一页.
- 在审查页面上,选择 创建.
这将创建并传播 IAM 角色,然后创建 Amazon Kendra 索引,这可能需要 30 分钟。
创建 Confluence 数据源
完成以下步骤以创建数据源:
- 在Amazon Kendra控制台上,选择 资料来源 在导航窗格中。
- 下 Confluence 连接器 V2.0,选择 添加连接器.
.
- 针对 资料来源名称,输入名称(例如,
my-Confluence-data-source
). - 输入可选描述。
- 下一页.
- 选择任一 汇流云 or 汇流服务器 取决于您的数据源。
- 针对 认证,选择您的身份验证选项。
- 选择 身份爬虫已开启.
- 针对 IAM角色¸选择 创建一个新角色.
- 针对 角色名称,输入名称(例如,
AmazonKendra-my-confluence-datasource-role
). - 下一页.
对于 Confluence Data Center 和 Cloud 版本,我们可以添加额外的可选信息(未显示),例如 VPC。 仅对于数据中心版,我们可以为网络代理添加额外信息。 如果使用仅对数据中心而非云版本有效的个人访问令牌,还有一个额外的身份验证选项。
- 针对 同步范围, 选择所有要同步的内容。
- 针对 同步模式, 选择 全同步.
- 针对 频率,选择 按需运行.
- 下一页.
- 或者,您可以设置映射字段。
映射字段是一项有用的练习,您可以在其中将字段名称替换为用户友好且适合您组织词汇表的值。
- 对于这篇文章,保留所有默认值并选择 下一页.
- 查看设置并选择 添加数据源.
- 要同步数据源,请选择 立即同步.
同步完成时会出现一条横幅消息。
测试解决方案
现在您已将 Confluence 账户中的内容提取到您的 Amazon Kendra 索引中,您可以测试一些查询。 出于测试目的,我们创建了一个包含两个团队的 Confluence 网站:成员为 Analyst1 的 team1 和成员为 Analyst2 的 team2。
- 在Amazon Kendra控制台上,导航到您的索引并选择 搜索索引内容.
- 输入示例搜索查询并查看您的搜索结果(您的结果将根据您帐户的内容而有所不同)。
Confluence 连接器还从 Confluence 抓取本地身份信息。 您可以使用此功能按用户缩小查询范围。 Confluence 提供全面的可见性选项。 用户可以选择他们的内容被其他用户、空间级别或群组看到。 当您按用户过滤搜索时,查询仅返回用户在摄取时有权访问的那些文档。
- 要使用此功能,请展开 使用用户名或组测试查询 并选择 应用用户名或组.
- 输入您的用户的用户名并选择 使用.
请注意,对于 Confluence Data Center 版本,用户名是电子邮件 ID。
重新运行您的搜索查询。
这会为您带来一组经过过滤的结果。 请注意,我们只返回 62 个结果。
我们现在返回并限制 Bob Straham 只能访问他的工作区并再次运行搜索。
请注意,我们只得到结果的一个子集,因为搜索仅限于 Bob 的内容。
将 Amazon Kendra 与应用程序(例如使用 体验生成器,您可以将用户身份(以云版的电子邮件 ID 或数据中心版的用户名的形式)传递给 Amazon Kendra,以确保每个用户只能看到特定于其用户 ID 的内容。 或者,您可以使用 AWS IAM 身份中心 (AWS Single Sign-On 的后继者)控制传递给 Amazon Kendra 的用户上下文以限制用户的查询。
恭喜! 您已成功使用 Amazon Kendra 根据从您的 Confluence 账户中索引的内容来显示答案和见解。
清理
为避免产生未来成本,请清理您在此解决方案中创建的资源。 如果您在测试此解决方案时创建了新的 Amazon Kendra 索引,请将其删除。 如果您仅使用适用于 Confluence V2 的 Amazon Kendra 连接器添加了新数据源,请删除该数据源。
结论
借助适用于 Amazon Kendra 的全新 Confluence 连接器 V2,组织可以使用由 Amazon Kendra 提供支持的智能搜索,安全地访问存储在其账户中的信息存储库。
要了解这些可能性及更多信息,请参阅 Amazon Kendra 开发人员指南. 有关从 Confluence 摄取数据时如何创建、修改或删除元数据和内容的更多信息,请参阅 在摄取期间丰富您的文档 和 通过 Amazon Kendra 中的自定义文档丰富功能丰富您的内容和元数据以增强您的搜索体验.
关于作者
阿什·拉格万卡 是 AWS 的高级企业解决方案架构师。 他的核心兴趣包括 AI/ML、无服务器和容器技术。 Ashish 居住在马萨诸塞州波士顿地区,喜欢阅读、户外活动以及与家人共度时光。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- 与 Adryenn Ashley 一起铸造未来。 访问这里。
- 使用 PREIPO® 买卖 PRE-IPO 公司的股票。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/index-your-confluence-content-using-the-new-confluence-connector-v2-for-amazon-kendra/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 17
- 1934
- 200
- 22
- 24
- 28
- 30
- 500
- 7
- 8
- 9
- a
- Able
- 关于
- 接受
- ACCESS
- 账号管理
- 精准的
- 准确
- 获得
- 横过
- 要积极。
- 加
- 添加
- 增加
- 额外
- 附加信息
- 再次
- AI / ML
- 所有类型
- 允许
- 还
- 时刻
- Amazon
- 亚马逊肯德拉
- 亚马逊网络服务
- an
- 和
- 宣布
- 答案
- 任何
- API
- APIs
- 应用
- 出现
- 应用领域
- 使用
- 保健
- 国家 / 地区
- AS
- At
- 认证
- 授权
- 避免
- AWS
- 背部
- 旗帜
- 基于
- 基本包
- BE
- 因为
- before
- 作为
- 得益
- 博客
- 粮食
- 身体
- 波士顿
- 都
- 带来
- 带来
- 浏览器
- 建
- 但是
- by
- 呼叫
- CAN
- 捕获
- Center
- 中央
- 挑战
- 选择
- 选择
- 选择
- 客户
- 云端技术
- 码
- 合作
- COM的
- 注释
- 竞争
- 完成
- 全面
- 确认
- 地都
- 安慰
- 容器
- 内容
- Contents
- 上下文
- 一直
- 控制
- 核心
- 成本
- 可以
- 履带
- 创建信息图
- 创建
- 创建
- 资历
- 电流
- 习俗
- data
- 数据中心
- 默认
- 演示
- 根据
- 描述
- 详情
- 开发商
- 不同
- do
- 文件
- 文件
- 别
- 向下
- 下载
- ,我们将参加
- 每
- 此前
- 版
- 有效
- 或
- 邮箱地址
- enable
- 加密
- 结束
- 提高
- 确保
- 输入
- 企业
- 实体
- 所有的
- 例子
- 交换
- 兴奋
- 锻炼
- 扩大
- 体验
- 家庭
- 专栏
- 特征
- 部分
- 字段
- 文件
- 过滤
- 终于
- 找到最适合您的地方
- 姓氏:
- 适合
- 以下
- 如下
- 针对
- 申请
- 格式
- 发现
- 止
- ,
- 功能
- 未来
- 收集
- 婴儿车
- 生成
- 产生
- 发电
- 得到
- 给
- Go
- 组的
- 有
- 有
- 帮助
- 相关信息
- 高度
- 他的
- 主页
- 主持人
- 小时
- 创新中心
- How To
- 但是
- HTML
- HTTP
- HTTPS
- ICON
- ID
- 主意
- 身份
- 身分
- if
- 进口
- in
- 包括
- 指数
- 信息
- 基础设施
- 可行的洞见
- 机构
- 智能化
- 利益
- 成
- 参与
- IT
- JPG
- JSON
- 只是
- 保持
- 知识
- 语言
- 学习用品
- 学习
- 离开
- Level
- 喜欢
- 极限
- 已发布
- 本地
- 日志
- 登录
- 机
- 机器学习
- 使
- 管理
- 经理
- 制图
- 机制
- 会员
- 的话
- 元数据
- 方法
- 分钟
- ML
- 修改
- 更多
- 多
- 姓名
- 名称
- 叙述
- 自然
- 导航
- 旅游导航
- 需求
- 网络
- 全新
- 新访问
- 下页
- 注意..
- 现在
- OAuth的
- of
- 最多线路
- 优惠精选
- 这一点在线下监测数字化产品的影响方面尤为明显。
- 好
- on
- 仅由
- 打开
- 附加选项
- 附加选项
- or
- 组织
- 原版的
- 其他名称
- 我们的
- 输出
- 户外活动
- 超过
- 页
- 对
- 面包
- 参数
- 部分
- 通过
- 通过
- 密码
- 权限
- 个人
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 弹出式
- 可能性
- 帖子
- 供电
- 首选
- 以前
- 权限
- 过程
- 产品
- 本人简介
- 项目
- 提供
- 代理
- 目的
- 查询
- 随机
- 阅读
- 阅读
- 重定向
- 正则表达式
- 重复
- 知识库
- 资源
- 响应
- 限制
- 受限
- 成果
- 回报
- 回报
- 检讨
- 权利
- 角色
- 运行
- s
- SaaS的
- 安全
- 同
- 保存
- 范围
- 搜索
- 秘密
- 部分
- 安全
- 安全
- 保安
- 看到
- 看到
- 看到
- 前辈
- 分开
- 无服务器
- 服务
- 服务
- 特色服务
- 集
- 设置
- 设置
- 几个
- Share
- 应该
- 显示
- 如图
- 简易
- 简化
- 单
- 略有不同
- So
- 软件
- 软件作为一种服务
- 方案,
- 解决方案
- 一些
- 来源
- 来源
- 太空
- 剩余名额
- 具体的
- 花费
- 开始
- 步
- 步骤
- 商店
- 存储
- 结构体
- 结构化
- 成功
- 顺利
- 这样
- 套房
- SUPPORT
- 支持
- 磁化面
- 采取
- 敲打
- 团队
- 队
- 技术
- test
- 测试
- 这
- 信息
- 其
- 他们
- 然后
- 那里。
- 博曼
- 他们
- Free Introduction
- 那些
- 三
- 次
- 标题
- 至
- 一起
- 象征
- 令牌
- 工具
- 工具
- 尝试
- 二
- 类型
- 下
- 更新
- 网址
- 使用
- 用过的
- 用户
- 用户友好
- 用户
- 运用
- 效用
- 折扣值
- 价值观
- 版本
- 非常
- 通过
- 能见度
- 想
- we
- 卷筒纸
- Web服务
- 您的网站
- 井
- ,尤其是
- 这
- 而
- 将
- 中
- 工作
- 工人
- 合作
- 完全
- 您一站式解决方案
- 你自己
- 和风网