这篇文章是与施耐德电气北美人工智能解决方案工程和架构经理 Anthony Medeiros 以及商业智能经理 Blake Santschi 共同撰写的。 其他施耐德电气专家包括 Jesse Miller、Somik Chowdhury、Shaswat Babhulgaonkar、David Watkins、Mark Carlson 和 Barbara Sleczkowski。
公司使用企业资源规划 (ERP) 系统在一个系统中管理多种业务功能,例如会计、销售或订单管理。 特别是,它们通常用于存储与客户帐户相关的信息。 公司内的不同组织可能使用不同的 ERP 系统,大规模合并它们是一项复杂的技术挑战,需要特定领域的知识。
施耐德电气是能源管理和工业自动化数字化转型领域的领导者。 为了最好地满足客户的需求,施耐德电气需要跟踪 ERP 系统中相关客户帐户之间的链接。 随着客户群的增长,每天都会添加新客户,他们的客户团队必须手动对这些新客户进行分类,并将它们链接到正确的父实体。
链接决定基于互联网或媒体上公开的最新信息,并可能受到最近收购、市场新闻或部门重组的影响。 帐户链接的一个示例是确定亚马逊与其子公司 Whole Foods Market 之间的关系 [资源].
施耐德电气正在部署大型语言模型,因为它们能够回答各种特定知识领域的问题,但模型的训练日期限制了其知识。 他们通过使用 Retriever-Augmented Generation 开源大语言模型来解决这一挑战 亚马逊SageMaker JumpStart 处理大量提取的外部知识并展示 ERP 记录之间的公司或公共关系。
2023 年初,当施耐德电气决定使用人工智能 (AI) 自动化部分账户链接流程时,该公司与 AWS 机器学习解决方案实验室 (MLSL) 合作。 凭借 MLSL 在机器学习咨询和执行方面的专业知识,施耐德电气能够开发出一种人工智能架构,该架构将减少链接工作流程中的手动工作,并为其下游分析团队提供更快的数据访问。
生成式人工智能
生成式人工智能和大语言模型 (LLM) 正在改变商业组织解决与自然语言处理和理解相关的传统复杂挑战的方式。 法学硕士提供的一些好处包括能够理解大部分文本并通过产生类似人类的响应来回答相关问题。 AWS 通过 Amazon SageMaker JumpStart 提供许多选项,使客户能够轻松试验和生产 LLM 工作负载, 亚马逊基岩及 亚马逊泰坦.
外部知识获取
法学硕士以其压缩人类知识的能力而闻名,并在回答各种知识特定领域的问题方面表现出了卓越的能力,但他们的知识受到模型训练日期的限制。 我们通过将法学硕士与 Google 搜索 API 结合起来,提供强大的检索增强法学硕士 (RAG) 来解决施耐德电气面临的挑战,从而解决了信息切断的问题。 RAG 能够处理从 Google 搜索中提取的大量外部知识,并展示 ERP 记录之间的公司或公共关系。
请参见以下示例:
问题: 壹医疗的母公司是谁?
谷歌查询: “One Medical母公司” → 信息 → 法学硕士
答: One Medical 是亚马逊的子公司……
前面的例子(取自施耐德电气客户数据库)涉及 2023 年 XNUMX 月发生的一次收购,因此由于知识中断,LLM 无法单独捕获。 通过 Google 搜索增强法学硕士课程可保证获得最新信息。
Flan-T5型号
在该项目中,我们使用了来自 法兰-T5 模型家族。
Flan-T5 模型经过指令调整,因此能够执行各种零样本 NLP 任务。 在我们的下游任务中,不需要容纳大量的世界知识,而是在给定搜索结果提供的文本上下文的情况下在问答方面表现良好,因此,11B 参数 T5 模型表现良好。
JumpStart 通过以下方式方便地部署该模型系列 亚马逊SageMaker Studio 和 SageMaker SDK。 其中包括 Flan-T5 Small、Flan-T5 Base、Flan-T5 Large、Flan-T5 XL 和 Flan-T5 XXL。 此外,JumpStart 还提供了不同量化级别的几个版本的 Flan-T5 XXL。 我们将 Flan-T5-XXL 部署到端点以使用以下方法进行推理: Amazon SageMaker Studio 快速启动.
LangChain 检索增强法学硕士
浪链 是流行且快速发展的框架,允许开发由法学硕士支持的应用程序。 它基于以下概念: 链,它们是不同组件的组合,旨在改进给定任务的法学硕士的功能。 例如,它允许我们定制 提示 并将法学硕士与外部搜索引擎或数据源等不同工具集成。 在我们的用例中,我们使用了 Google 毒蛇 组件来搜索网络,并部署了可用的 Flan-T5-XXL 模型 Amazon SageMaker Studio 快速启动。 LangChain 执行整体编排,并允许将搜索结果页面馈送到 Flan-T5-XXL 实例中。
检索增强生成(RAG)由两个步骤组成:
- 恢复 来自外部来源的相关文本块
- 提高 给法学硕士的提示中带有上下文的块。
对于施耐德电气的用例,RAG 的处理过程如下:
- 给定的公司名称与“谁是 X 的母公司”之类的问题相结合,其中 X 是给定的公司),并使用 Serper AI 传递给谷歌查询
- 提取的信息与提示和原始问题相结合,并传递给法学硕士寻求答案。
下图说明了这个过程。
使用以下代码创建端点:
实例化搜索工具:
在下面的代码中,我们将检索和增强组件链接在一起:
即时工程
上下文和问题的组合称为提示。 我们注意到,我们使用的一揽子提示(围绕询问母公司的变化)对于大多数公共部门(领域)表现良好,但没有很好地推广到教育或医疗保健,因为母公司的概念在那里没有意义。 对于教育,我们使用“X”,而对于医疗保健,我们使用“Y”。
为了启用此特定于域的提示选择,我们还必须识别给定帐户所属的域。 为此,我们还使用了 RAG,其中包含多项选择问题“{account} 的域是什么?” 作为第一步,根据我们使用相关提示向帐户父级查询的答案作为第二步。 请看下面的代码:
特定于部门的提示将整体性能的准确度从 55% 提高到了 71%。 总体而言,为开发有效的产品而投入的精力和时间 提示 似乎显着提高了 LLM 反应的质量。
带有表格数据的 RAG (SEC-10k)
SEC 10K 文件是上市公司每年提交的子公司和分支机构的另一个可靠信息来源。 这些文件可直接在 SEC 上获取 埃德加 或通过 企业观察 API。
我们假设信息以表格格式给出。 下面是一个伪 CSV 模仿 SEC-10K 数据集原始格式的数据集。 可以合并多个 CSV 将数据源放入组合的 pandas 数据框中:
# A pseudo dataset similar by schema to the CorpWatch API dataset
df.head()
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/schneider-electric-leverages-retrieval-augmented-llms-on-sagemaker-to-ensure-real-time-updates-in-their-erp-systems/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- 100
- 10
- 11
- 15 年
- 15%
- 160
- 17
- 2023
- 7
- 710
- a
- 对,能力--
- Able
- 关于
- 以上
- 抽象化
- 加快
- ACCESS
- 容纳
- 账号管理
- 基本会计和财务报表
- 账户
- 精准的
- 获得
- 收购
- 横过
- 操作
- 添加
- 增加
- 额外
- 地址
- 解决
- 地址
- 优点
- 影响
- 经纪人
- AI
- AI / ML
- 允许
- 允许
- 单
- 还
- Amazon
- 亚马逊机器学习
- 亚马逊SageMaker
- 亚马逊SageMaker JumpStart
- 亚马逊网络服务
- 美国
- 其中
- 量
- 量
- an
- 分析
- 和
- 每年
- 另一个
- 回答
- Anthony
- API
- 出现
- 应用领域
- 应用的
- 应用
- 架构
- 保健
- 围绕
- 人造的
- 人工智能
- 人工智能(AI)
- AS
- 问
- 问
- 承担
- At
- 增加
- 增强
- 自动化
- 自动化和干细胞工程
- 可使用
- 直接可用
- AWS
- AWS机器学习
- 银行业
- 基地
- 基于
- BE
- 很
- before
- 属于
- 如下。
- 好处
- 最佳
- 之间
- 吹氣梢
- 提振
- 带来
- 建立
- 建筑物
- 商业
- 业务功能
- 商业智能
- 但是
- by
- 被称为
- CAN
- 能力
- 能力
- 卡尔森
- 抓
- 链
- 挑战
- 挑战
- 选择
- 城市
- 分类
- CNBC
- 码
- 柱
- 组合
- 组合
- 结合
- 公司
- 公司
- 复杂
- 元件
- 组件
- 理解
- 概念
- 关注
- 由
- 咨询
- 消费者
- 上下文
- 便捷
- 公司
- 创建信息图
- 创造价值
- 顾客
- 合作伙伴
- 每天
- data
- 数据访问
- 数据驱动
- 数据库
- 数据集
- 日期
- David
- 决定
- 决定
- 交付
- 交付
- 证明
- 部署
- 部署
- 部署
- 设计
- 设计
- 细节
- 详细
- 开发
- 发展
- 研发支持
- 不同
- 数字
- 数字化改造
- 直接
- do
- 文件
- 域
- 域名
- 两
- 早
- 易
- 教育
- 努力
- 电动
- enable
- 端点
- 能源
- 工程师
- 引擎
- 确保
- 进入
- 企业
- 实体
- ERP
- 例子
- 执行
- 展览
- 体验
- 实验
- 专门知识
- 专家
- 延长
- 外部
- 埃克森美孚(Exxon Mobil)
- 家庭
- 高效率
- 快
- 二月
- 美联储
- 少数
- 提交
- 申请
- 最后
- 找到最适合您的地方
- (名字)
- 专注焦点
- 重点
- 以下
- 如下
- 食品
- 针对
- 格式
- 骨架
- 止
- 功能
- 功能
- 进一步
- 此外
- 天然气
- 代
- 生成的
- 生成式人工智能
- 特定
- 全球
- 谷歌
- 谷歌搜索
- 图表
- 成长
- 成长
- 担保
- 民政事务总署
- 发生
- 有
- he
- 医疗保健
- 帮助
- 这里
- 更高
- 他的
- 创新中心
- HTML
- HTTP
- HTTPS
- 人
- i
- 鉴定
- 鉴定
- 说明
- 改善
- 改善
- in
- 包括
- 包括
- 恒温箱
- 产业
- 行业中的应用:
- 信息
- 初始
- 项目
- 输入
- 可行的洞见
- 例
- 整合
- 房源搜索
- 相互作用
- 利益
- 网络
- 成
- 投资
- IT
- 它的
- 约书亚
- JPG
- 保持
- 键
- 知道
- 知识
- 已知
- 实验室
- 语言
- 大
- 层
- 领导者
- 领导
- 学习
- 各级
- 杠杆
- 征
- 喜欢
- 有限
- 限制
- 友情链接
- 链接
- 链接
- LLM
- 机
- 机器学习
- 保持
- 制作
- 制作
- 管理
- 颠覆性技术
- 经理
- 手册
- 手动
- 许多
- 标记
- 市场
- 市场动态
- 有意义的
- 媒体
- 医生
- 医疗数据
- 合并
- 合并
- 方法
- 可能
- 磨坊主
- ML
- 模型
- 模型
- 更多
- 最先进的
- 多
- 姓名
- 命名
- 自然
- 自然语言处理
- 需求
- 需要
- 全新
- 纽约
- 纽约市
- 消息
- NLP
- 没有
- 北
- 北美
- 概念
- 现在
- 观察
- of
- 最多线路
- 油
- 石油&天然气
- on
- 一
- 一医
- 打开
- 开放源码
- 附加选项
- or
- 管弦乐编曲
- 秩序
- 组织
- 组织
- 组织
- 原版的
- 其他名称
- 我们的
- 输出
- 产量
- 最划算
- 己
- 网页
- 大熊猫
- 参数
- 母公司
- 部分
- 特别
- 合作
- 通过
- 多情
- 径
- 演出
- 性能
- 执行
- 执行
- 施行
- 制药
- 博士学位
- 管道
- 规划行程
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 热门
- 可能
- 帖子
- 供电
- 强大
- 先前
- 校长
- 问题
- 所得款项
- 过程
- 处理
- 生产
- 项目
- 正确
- 提供
- 提供
- 国家
- 公然
- 质量
- 题
- 有疑问吗?
- 宁
- 实时的
- 最近
- 记录
- 减少
- 有关
- 关系
- 关系
- 相应
- 可靠
- 卓越
- 需要
- 研究
- 研究员
- 资源
- 响应
- 回复
- 导致
- 成果
- 回报
- 健壮
- 常规
- 行
- 运行
- sagemaker
- 销售
- 鳞片
- 施耐德电气
- 科学
- 科学家
- SDK
- 搜索
- 搜索引擎
- 证券交易委员会
- 其次
- 扇形
- 行业
- 安全
- 看到
- 选择
- 前辈
- 服务
- 特色服务
- 几个
- 她
- 显著
- 类似
- 自
- 小
- 方案,
- 解决方案
- 解决
- 一些
- 来源
- 来源
- 专业
- 具体的
- 纺
- 纺
- 国家的最先进的
- 统计
- 步
- 步骤
- 商店
- 结构
- 工作室
- 细分
- 副
- 这样
- 支持
- 系统
- 产品
- 拍摄
- 任务
- 任务
- 团队
- 队
- 文案
- 文本
- 比
- 这
- 信息
- 其
- 他们
- 理论
- 那里。
- 因此
- 博曼
- 他们
- Free Introduction
- 思想
- 通过
- 从而
- 次
- 至
- 一起
- 工具
- 工具
- 最佳
- 跟踪时
- 交易
- 传统
- 熟练
- 转型
- 转型
- 可靠
- Twitch
- 二
- 揭露
- 理解
- 开锁
- 跟上时代的
- 最新动态
- us
- 使用
- 用过的
- 运用
- 折扣值
- 各个
- 广阔
- 版本
- 垂直
- 通过
- 是
- 方法..
- 方法
- we
- 财富
- 卷筒纸
- Web服务
- 井
- 什么是
- 什么是
- ,尤其是
- 这
- 而
- WHO
- 全
- 将
- 中
- 工作流程
- 工作流程
- 合作
- 世界
- 将
- X
- 年
- 纽约
- 完全
- 和风网