企业可以访问大量数据,但由于数据是非结构化的,其中许多数据很难发现。传统的分析方法 非结构化数据 使用关键字或同义词匹配。它们无法捕获文档的完整上下文,因此在处理非结构化数据时效率较低。
相反,文本嵌入使用 机器学习 (ML) 捕获非结构化数据含义的能力。嵌入是由表征语言模型生成的,该模型将文本转换为数字向量并对文档中的上下文信息进行编码。这使得诸如语义搜索、 检索增强生成 (RAG)、主题建模和文本分类。
例如,在金融服务行业,应用程序包括从收益报告中提取见解、从财务报表中搜索信息以及分析金融新闻中的股票和市场情绪。文本嵌入使行业专业人士能够从文档中提取见解、最大限度地减少错误并提高绩效。
在这篇文章中,我们展示了一个应用程序,可以使用 Cohere 搜索和查询不同语言的财经新闻 嵌入 和 重新排序 型号 亚马逊基岩.
Cohere 的多语言嵌入模型
Cohere 是领先的企业人工智能平台,它构建世界一流的大型语言模型 (LLM) 和由 LLM 驱动的解决方案,使计算机能够搜索、捕获文本含义并进行对话。它们提供易用性以及强大的安全和隐私控制。
Cohere 的多语言嵌入模型 生成 100 多种语言的文档矢量表示,可在 Amazon Bedrock 上使用。这使得 AWS 客户可以将其作为 API 进行访问,从而无需管理底层基础设施,并确保敏感信息得到安全管理和保护。
多语言模型通过在语义向量空间中分配彼此接近的位置来对具有相似含义的文本进行分组。通过多语言嵌入模型,开发人员可以处理多种语言的文本,而无需在不同模型之间切换,如下图所示。这使得处理更加高效,并提高了多语言应用程序的性能。
以下是 Cohere 嵌入模型的一些亮点:
- 注重文档质量 – 典型的嵌入模型经过训练来衡量文档之间的相似性,但 Cohere 的模型也衡量文档质量
- 更好地检索 RAG 应用程序 – RAG 应用程序需要良好的检索系统,而 Cohere 的嵌入模型擅长这一点
- 经济高效的数据压缩 – Cohere 使用特殊的压缩感知训练方法,为您的矢量数据库节省大量成本
文本嵌入的用例
文本嵌入将非结构化数据转变为结构化形式。这使您能够客观地比较、剖析所有这些文档并从中获得见解。以下是 Cohere 嵌入模型支持的示例用例:
- 语义搜索 – 与矢量数据库结合使用时,可实现强大的搜索应用程序,并具有基于搜索短语含义的出色相关性
- 更大系统的搜索引擎 – 从 RAG 系统连接的企业数据源中查找并检索最相关的信息
- 文字分类 – 支持意图识别、情感分析和高级文档分析
- 主题建模 – 将文档集合转化为不同的集群,以发现新出现的主题和主题
通过 Rerank 增强搜索系统
在已经存在传统关键词搜索系统的企业中,如何引入现代语义搜索功能?对于长期成为公司信息架构一部分的此类系统,在许多情况下完全迁移到基于嵌入的方法是不可行的。
Cohere 的 Rerank 端点 旨在弥补这一差距。它充当搜索流程的第二阶段,根据用户的查询提供相关文档的排名。企业可以保留现有的关键字(甚至语义)系统用于第一阶段检索,并在第二阶段重新排名中通过Rerank端点提高搜索结果的质量。
Rerank 通过使用一行代码将语义搜索技术引入用户堆栈,提供了一种快速而直接的选项来改进搜索结果。该端点还提供多语言支持。下图说明了检索和重新排序的工作流程。
解决方案概述
金融分析师需要消化大量内容,例如金融出版物和新闻媒体,才能及时了解情况。根据 金融专业人士协会(法新社),财务分析师将 75% 的时间用于收集数据或管理流程,而不是进行增值分析。从各种来源和文档中寻找问题的答案是一项耗时且乏味的工作。 Cohere 嵌入模型可帮助分析师快速搜索多种语言的大量文章标题,以查找与特定查询最相关的文章并对其进行排名,从而节省大量时间和精力。
在以下用例示例中,我们展示了 Cohere 的嵌入模型如何在一个独特的管道中以不同语言搜索和查询财经新闻。然后我们演示如何将 Rerank 添加到嵌入检索(或将其添加到旧词汇搜索)可以进一步改善结果。
支持笔记本可在 GitHub上.
下图说明了应用程序的工作流程。
通过 Amazon Bedrock 启用模型访问
Amazon Bedrock 用户需要请求访问模型才能使用它们。要请求访问其他模型,请选择 模型访问 Amazon Bedrock 上的导航窗格 领事。 有关更多信息,请参阅 模型访问。对于本演练,您需要请求访问 Cohere Embed 多语言模型。
安装包并导入模块
首先,我们安装必要的包并导入我们将在本示例中使用的模块:
进口单证
我们使用的数据集 (MultiFIN) 包含涵盖 15 种语言(英语、土耳其语、丹麦语、西班牙语、波兰语、希腊语、芬兰语、希伯来语、日语、匈牙利语、挪威语、俄语、意大利语、冰岛语和瑞典语)的真实文章标题列表)。这是一个专为金融自然语言处理 (NLP) 设计的开源数据集,可在 GitHub存储库.
在我们的例子中,我们创建了一个包含 MultiFIN 数据的 CSV 文件以及一个包含翻译的列。我们不使用此列来为模型提供数据;当我们为那些不会说丹麦语或西班牙语的人打印结果时,我们用它来帮助我们跟进。我们指向该 CSV 来创建我们的数据框:
选择要查询的文档列表
MultiFIN 拥有 6,000 种不同语言的 15 多条记录。对于我们的示例用例,我们关注三种语言:英语、西班牙语和丹麦语。我们还按长度对标头进行排序并选择最长的标头。
因为我们选择最长的文章,所以我们确保长度不是由于重复序列造成的。以下代码显示了这种情况的示例。我们将清理它。
df['text'].iloc[2215]
我们的文档列表很好地分布在三种语言中:
以下是我们数据集中最长的文章标题:
嵌入和索引文档
现在,我们想要嵌入我们的文档并存储嵌入。嵌入是非常大的向量,封装了我们文档的语义。特别是,我们使用 Cohere 的 embed-multilingual-v3.0 模型,该模型创建 1,024 维的嵌入。
当查询被传递时,我们还嵌入查询并使用 hnswlib 库来查找最近的邻居。
只需几行代码即可建立 Cohere 客户端、嵌入文档并创建搜索索引。我们还跟踪文档的语言和翻译,以丰富结果的显示。
建立检索系统
接下来,我们构建一个函数,它将查询作为输入,嵌入它,并找到与其更密切相关的四个标头:
查询检索系统
让我们探索一下我们的系统如何处理几个不同的查询。我们从英语开始:
结果如下:
请注意以下事项:
- 我们提出相关但略有不同的问题,并且该模型足够细致,可以在顶部呈现最相关的结果。
- 我们的模型不执行基于关键字的搜索,而是执行语义搜索。即使我们使用“数据科学”这样的术语而不是“人工智能”,我们的模型也能够理解所询问的内容并在顶部返回最相关的结果。
用丹麦语查询怎么样?让我们看一下下面的查询:
在前面的示例中,英文首字母缩略词“PP&E”代表“财产、工厂和设备”,我们的模型能够将其连接到我们的查询。
在这种情况下,所有返回的结果都是丹麦语,但如果语义更接近,模型可以返回查询以外的语言的文档。我们具有完全的灵活性,只需几行代码,我们就可以指定模型是否应该只查看查询语言的文档,或者是否应该查看所有文档。
使用 Cohere Rerank 改善结果
嵌入非常强大。然而,我们现在将研究如何使用 Cohere 的 Rerank 端点进一步细化我们的结果,该端点经过训练可以根据查询对文档的相关性进行评分。
Rerank 的另一个优点是它可以在传统关键字搜索引擎之上工作。您无需更改为矢量数据库或对基础架构进行大幅更改,而且只需要几行代码。重新排名可用于 亚马逊SageMaker.
让我们尝试一个新的查询。这次我们使用SageMaker:
在这种情况下,语义搜索能够检索我们的答案并将其显示在结果中,但它不在顶部。但是,当我们使用检索到的文档列表再次将查询传递到 Rerank 端点时,Rerank 能够在顶部显示最相关的文档。
首先,我们创建客户端和 Rerank 端点:
当我们将文档传递给 Rerank 时,模型能够准确地选择最相关的文档:
结论
本文介绍了在金融服务领域的 Amazon Bedrock 中使用 Cohere 多语言嵌入模型的演练。我们特别演示了一个多语言金融文章搜索应用程序的示例。我们看到了嵌入模型如何能够高效、准确地发现信息,从而提高分析师的工作效率和输出质量。
Cohere 的多语言嵌入模型支持 100 多种语言。它消除了构建需要使用不同语言的文档语料库的应用程序的复杂性。这 Cohere嵌入模型 经过培训可以在实际应用中提供结果。它处理噪声数据作为输入,适应复杂的 RAG 系统,并通过其压缩感知训练方法提供成本效益。
立即开始在 Amazon Bedrock 中使用 Cohere 的多语言嵌入模型进行构建。
作者简介
詹姆斯·易 是 Amazon Web Services 技术合作伙伴 COE 技术团队的高级 AI/ML 合作伙伴解决方案架构师。他热衷于与企业客户和合作伙伴合作设计、部署和扩展 AI/ML 应用程序以获取业务价值。工作之余,他喜欢踢足球、旅行以及与家人共度时光。
贡萨洛·贝特贡 是尖端自然语言处理技术提供商 Cohere 的解决方案架构师。他帮助组织通过部署大型语言模型来满足其业务需求。
梅奥·阿米尔 是 Cohere 的开发者倡导者,Cohere 是一家尖端自然语言处理 (NLP) 技术的提供商。他帮助开发人员利用 Cohere 的大型语言模型 (LLM) 构建尖端应用程序。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- Able
- 关于
- ACCESS
- 根据
- 账号管理
- 精准的
- 准确
- 横过
- 行为
- 适应
- 添加
- 额外
- 地址
- 高级
- 优点
- 主张
- 法新社
- 再次
- 驳
- AI
- 人工智能平台
- AI / ML
- 所有类型
- 让
- 允许
- 沿
- 已经
- 还
- Amazon
- 亚马逊网络服务
- 量
- 量
- an
- 分析
- 分析人士
- 分析师
- 分析
- 和
- 回答
- API
- 应用领域
- 应用领域
- 的途径
- 方法
- 架构
- 保健
- 刊文
- 刊文
- AS
- 问
- At
- 增强
- 可使用
- AWS
- 基于
- 因为
- 很
- 作为
- 更好
- 之间
- 吹氣梢
- 促进
- 提高
- Brexit
- 桥
- 建立
- 建筑物
- 建立
- 商业
- 商业领袖
- 企业
- 但是
- by
- CAN
- 能力
- 捕获
- 案件
- 例
- 天花板
- 首席财务官
- 挑战
- 挑战
- 更改
- 更改
- 分类
- 清洁
- 客户
- 关闭
- 密切
- 接近
- CO
- 码
- 采集
- 柱
- 购买的订单均
- 公司
- 公司的
- 比较
- 完成
- 复杂
- 复杂
- 电脑
- 关心
- 分享链接
- 已联繫
- 内容
- 上下文
- 上下文
- 对比
- 控制
- 常规
- 公司
- 价格
- 节约成本
- 可以
- 情侣
- 再加
- 覆盖
- Covid-19
- 创建信息图
- 创建
- 创建
- 信用
- 危机
- 标准
- 策划
- 电流
- 合作伙伴
- 前沿
- 网络安全
- 丹麦
- 丹斯克
- data
- 数据科学
- 数据库
- de
- 期限
- 处理
- 专用
- 该
- 交付
- 交付结果
- 提供
- 演示
- 证明
- 部署
- 部署
- 存款
- 漂移
- 设计
- 设计
- 开发商
- 开发
- 研发支持
- 不同
- 难
- 消化
- 尺寸
- 通过各种方式找到
- 发现
- 屏 显:
- 不同
- 分布
- 分配
- do
- 文件
- 文件
- 不
- 域
- 别
- 向下
- 驾驶
- 两
- e
- 每
- 早
- 佣金
- 缓解
- 使用方便
- 经济
- 有效
- 高效
- 努力
- el
- 消除
- 其他
- 嵌
- 嵌入
- 新兴经济体的新市场。
- 排放
- 员工
- enable
- 使
- 结束
- 端点
- 订婚
- 发动机
- 英语
- 巨大
- 更多
- 丰富
- 确保
- 确保
- 企业
- 企业
- 环境
- 设备
- 故障
- ESG
- 建立
- 甚至
- 例子
- 优秀
- 现有
- 有经验
- 探索
- 提取
- 下降
- 家庭
- 高效率
- 可行
- 少数
- 数字
- 文件
- 金融
- 金融新闻
- 金融服务
- 找到最适合您的地方
- 寻找
- 发现
- 芬兰
- 五
- 高度灵活
- 流
- 专注焦点
- 遵循
- 以下
- 如下
- 针对
- 申请
- 发现
- 四
- 拳头
- 止
- ,
- 功能
- 进一步
- 差距
- 天然气
- 搜集
- 国内生产总值
- 产生
- 产生
- 全球
- 世界经济
- Go
- 理想中
- 去
- 非常好
- 希腊语
- 组的
- 指南
- 手柄
- 有
- he
- 头
- 头条新闻
- 希伯来文
- 帮助
- 帮助
- 亮点
- 他的
- 击中
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- 匈牙利
- i
- if
- 说明
- 实施
- 进口
- 改善
- 提高
- 改善
- in
- 包括
- 增加
- 指数
- 行业中的应用:
- info
- 信息
- 通知
- 基础设施
- 输入
- 输入
- 可行的洞见
- 安装
- 代替
- 整合
- 积分
- 意图
- 成
- 介绍
- 介绍
- IP
- IT
- 意大利
- 它的
- 一月
- 日文
- 工作机会
- JPG
- 只是
- 保持
- 景观
- 朗
- 语言
- 语言
- 大
- 大
- 最大
- LAS
- 名:
- 最新
- 领导人
- 领导
- 租赁
- 遗产
- 立法
- 立法建议
- 长度
- 减
- 自学资料库
- 喜欢
- Line
- 线
- 清单
- 已发布
- 贷款
- 长
- 长时间
- 看
- 该
- 占地
- 主要
- 使
- 制作
- 制作
- 男子
- 管理
- 管理
- 颠覆性技术
- 许多
- 地图
- 三月
- 市场
- 市场价值
- 市场
- 大规模
- 匹配
- 意
- 含义
- 衡量
- 措施
- 媒体
- 满足
- 会议
- 聚体
- 方法
- 移民
- ML
- 时尚
- 模型
- 造型
- 模型
- 现代
- 模块
- 更多
- 更高效
- 最先进的
- 许多
- 多
- 姓名
- 自然
- 自然语言处理
- 旅游导航
- 必要
- 需求
- 需要
- 邻居
- 全新
- 消息
- 下页
- NLP
- 没有
- 挪威语
- 笔记本
- 现在
- 众多
- NY
- 新
- 纽约时报
- 客观地
- of
- on
- 一
- 那些
- 仅由
- 猛攻
- 打开
- 开放源码
- 附加选项
- or
- 秩序
- 组织
- 原版的
- OS
- 其他名称
- 我们的
- 产量
- 学校以外
- 超过
- 包
- 包
- 大熊猫
- 面包
- 部分
- 特别
- 合伙人
- 伙伴
- 通过
- 通过
- 多情
- 付款
- 工资发放
- 为
- 演出
- 性能
- 挑
- 选择
- 管道
- 计划
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 播客
- 点
- 波兰语
- 职位
- 帖子
- 潜力
- 强大
- 前
- 当下
- 呈现
- 校长
- 打印
- 隐私
- 过程
- 处理
- 生产率
- 专业人士
- 进展
- 财产
- 提案
- 保护
- 提供
- 提供者
- 提供
- 出版物
- 目的
- 普华永道
- 质量
- 查询
- 题
- 有疑问吗?
- 很快
- R
- 提高
- 排名
- 排行
- RE
- 准备
- 真实的世界
- 承认
- 记录
- 减少
- 参考
- 提炼
- 改革
- 地区
- 有关
- 相关性
- 相应
- 留
- 遗迹
- 移除了
- 重开
- 重复
- 更换
- 报告
- 业务报告
- 请求
- 要求
- 导致
- 导致
- 成果
- 保留
- 回报
- 返回
- 俄语
- s
- sagemaker
- 保存
- 储
- 锯
- 鳞片
- 科学
- 得分了
- 搜索
- 搜索引擎
- 搜索
- 搜索
- 证券交易委员会
- 其次
- 安全
- 保安
- 看到
- 选
- 前辈
- 敏感
- 情绪
- 特色服务
- 会议
- 股东
- 应该
- 展示
- 作品
- 类似
- 单
- 网站
- 略有不同
- 慢慢地
- 足球
- 解决方案
- 一些
- 来源
- 来源
- 太空
- 西班牙语
- 说话
- 特别
- 花
- 花费
- 堆
- 团队
- 阶段
- 标准
- 看台
- 开始
- 开始
- 声明
- 留
- 库存
- 股市
- 股票
- 商店
- 简单的
- 策略
- 强烈
- 结构化
- 大量
- 这样
- SUPPORT
- 支持
- 支持
- 支持
- 磁化面
- 调查
- 永续发展
- 可持续发展
- 可持续发展
- 瑞典语
- Switch 开关
- 代名词
- 系统
- 产品
- 需要
- 目标
- 税
- 团队
- 科技
- 专业技术
- 术语
- 文本
- 文字分类
- 比
- 这
- 其
- 他们
- 然后
- 那里。
- 从而
- 博曼
- 他们
- Free Introduction
- 那些
- 三
- 通过
- 次
- 标题
- 至
- 今晚
- 最佳
- 主题
- Topics
- 跟踪时
- 熟练
- 产品培训
- 翻译
- 翻译
- 旅游
- 尝试
- 土耳其语
- 转
- 原来
- 普遍
- UN
- 揭露
- 相关
- 理解
- 独特
- 网址
- us
- 使用
- 用例
- 用户
- 使用
- 运用
- 折扣值
- 各种
- 非常
- 演练
- 想
- 是
- 波
- 方法..
- we
- 卷筒纸
- Web服务
- 井
- 什么是
- ,尤其是
- 是否
- 这
- WHO
- 将
- 也完全不需要
- 工作
- 工作流程
- 加工
- 世界
- 世界级
- 年
- 但
- 完全
- 您一站式解决方案
- 和风网