这是来自的来宾帖子 可扩展资本是欧洲领先的金融科技公司,提供数字财富管理和交易统一费率的经纪平台。
作为一家快速发展的公司,Scalable Capital 的目标不仅是建立创新、强大且可靠的基础设施,而且还为我们的客户提供最佳体验,尤其是在客户服务方面。
Scalable 每天都会收到来自客户的数百封电子邮件询问。 通过实施现代自然语言处理 (NLP) 模型,响应过程变得更加高效,客户的等待时间也大大减少。 机器学习 (ML) 模型在新收到的客户请求到达后立即对它们进行分类,并将其重定向到预定义的队列,这使得我们专门的客户成功代理能够根据自己的技能专注于电子邮件的内容并提供适当的响应。
在这篇文章中,我们演示了使用部署了 Hugging Face 转换器的技术优势 亚马逊SageMaker,例如大规模的培训和实验,以及提高生产力和成本效益。
问题陈述
Scalable Capital 是欧洲发展最快的金融科技公司之一。 为了实现投资民主化,该公司为客户提供进入金融市场的便捷途径。 Scalable的客户可以通过公司的经纪交易平台积极参与市场,或者使用Scalable Wealth Management进行智能化、自动化的投资。 2021 年,Scalable Capital 的客户群增加了十倍,从数万增加到数十万。
为了向我们的客户提供跨产品和客户服务的顶级(且一致)用户体验,该公司正在寻找自动化解决方案,以提高可扩展解决方案的效率,同时保持卓越运营。 Scalable Capital 的数据科学和客户服务团队发现,为客户提供服务的最大瓶颈之一是回复电子邮件查询。 具体来说,瓶颈在于分类步骤,员工必须每天阅读并标记请求文本。 电子邮件被路由到适当的队列后,各自的专家迅速参与并解决了案件。
为了简化这个分类过程,Scalable 的数据科学团队基于预训练的模型,使用最先进的 Transformer 架构构建并部署了多任务 NLP 模型。 distilbert-base-德语大小写 Hugging Face 发布的模型。 distilbert-base-德语大小写 使用 知识升华 预训练比原始 BERT 基础模型更小的通用语言表示模型的方法。 精简版本的性能与原始版本相当,同时更小、速度更快。 为了促进我们的 ML 生命周期流程,我们决定采用 SageMaker 来构建、部署、服务和监控我们的模型。 在下面的部分中,我们介绍我们的项目架构设计。
解决方案概述
Scalable Capital 的 ML 基础设施由两个 AWS 账户组成:一个作为开发阶段的环境,另一个作为生产阶段的环境。
下图显示了我们的电子邮件分类器项目的工作流程,但也可以推广到其他数据科学项目。
工作流由以下组件组成:
- 模型实验—— 数据科学家使用 亚马逊SageMaker Studio 执行数据科学生命周期的第一步:探索性数据分析 (EDA)、数据清理和准备以及构建原型模型。 探索阶段完成后,我们转向由 SageMaker 笔记本托管的 VSCode 作为我们的远程开发工具,以模块化和生产我们的代码库。 为了探索不同类型的模型和模型配置,同时跟踪我们的实验,我们使用 SageMaker 训练和 SageMaker 实验。
- 模型构建 – 在我们决定生产用例的模型之后,在本例中是多任务 distilbert-base-德语大小写 模型,根据 Hugging Face 的预训练模型进行微调,我们提交代码并将其推送到 Github 开发分支。 Github 合并事件触发我们的 Jenkins CI 管道,该管道进而使用测试数据启动 SageMaker Pipelines 作业。 这充当测试以确保代码按预期运行。 部署测试端点用于测试目的。
- 模型部署 – 在确保一切按预期运行后,数据科学家将开发分支合并到主分支中。 此合并事件现在会触发使用生产数据进行培训的 SageMaker Pipelines 作业。 然后,生成模型工件并将其存储在输出中 亚马逊简单存储服务 (Amazon S3) 存储桶,并且新的模型版本会记录在 SageMaker 模型注册表中。 数据科学家检查新模型的性能,然后批准它是否符合预期。 模型批准事件由以下方式捕获 亚马逊EventBridge,然后将模型部署到生产环境中的 SageMaker 端点。
- 多播 – 由于 SageMaker 端点是私有的,VPC 外部的服务无法访问,因此 AWS Lambda 功能和 Amazon API网关 需要公共端点才能与 CRM 进行通信。 每当新电子邮件到达 CRM 收件箱时,CRM 就会调用 API Gateway 公共端点,这又会触发 Lambda 函数来调用私有 SageMaker 端点。 然后,该函数通过 API 网关公共端点将分类转发回 CRM。 为了监控已部署模型的性能,我们在 CRM 和数据科学家之间实现了反馈循环,以跟踪模型的预测指标。 CRM 每月更新用于实验和模型训练的历史数据。 我们用 适用于 Apache Airflow 的 Amazon 托管工作流 (Amazon MWAA)作为我们每月重新训练的调度程序。
在以下部分中,我们将更详细地分解数据准备、模型实验和模型部署步骤。
资料准备
Scalable Capital 使用 CRM 工具来管理和存储电子邮件数据。 相关邮件内容由主题、正文、托管银行组成。 为每封电子邮件分配三个标签:电子邮件来自哪个业务线、哪个队列合适以及电子邮件的特定主题。
在开始训练任何 NLP 模型之前,我们确保输入数据是干净的,并且标签是根据期望分配的。
为了从可扩展客户端检索干净的查询内容,我们从原始电子邮件数据和额外的文本和符号中删除,例如电子邮件签名、印象、电子邮件链中先前消息的引用、CSS 符号等。 否则,我们未来训练的模型可能会遇到性能下降的情况。
随着可扩展的客户服务团队添加新标签并完善或删除现有标签以满足业务需求,电子邮件标签随着时间的推移而不断发展。 为了确保训练数据的标签以及预测的预期分类是最新的,数据科学团队与客户服务团队密切合作,以确保标签的正确性。
模型实验
我们从现成的预训练开始我们的实验 distilbert-base-德语大小写 Hugging Face 发布的模型。 由于预训练模型是通用语言表示模型,因此我们可以通过将适当的头附加到神经网络来调整架构来执行特定的下游任务,例如分类和问答。 在我们的用例中,我们感兴趣的下游任务是序列分类。 无需修改 现有架构,我们决定为每个所需类别微调三个单独的预训练模型。 随着 SageMaker 拥抱面部深度学习容器 (DLC),使用 Hugging Face 容器和 SageMaker Experiments API 可以让 NLP 实验的启动和管理变得简单。
下面是一段代码片段 train.py
:
以下代码是拥抱脸部估计器:
为了验证微调后的模型,我们使用 F1分数 由于我们的电子邮件数据集的不平衡性质,而且还要计算其他指标,例如准确性、精确度和召回率。 为了让 SageMaker Experiments API 注册训练作业的指标,我们需要首先将指标记录到训练作业本地控制台,这些指标由 亚马逊CloudWatch。 然后我们定义正确的正则表达式格式来捕获 CloudWatch 日志。 指标定义包括指标名称和用于从训练作业中提取指标的正则表达式验证:
作为分类器模型训练迭代的一部分,我们使用混淆矩阵和分类报告来评估结果。 下图显示了业务线预测的混淆矩阵。
以下屏幕截图显示了业务线预测的分类报告的示例。
作为我们实验的下一次迭代,我们将利用 多任务学习 来改进我们的模型。 多任务学习是一种模型学习同时解决多个任务的训练形式,因为任务之间共享信息可以提高学习效率。 通过在原始 distilbert 架构上附加两个分类头,我们可以进行多任务微调,从而为我们的客户服务团队获得合理的指标。
模型部署
在我们的用例中,电子邮件分类器将部署到端点,我们的 CRM 管道可以向该端点发送一批未分类的电子邮件并获取预测。 因为除了 Hugging Face 模型推理之外,我们还有其他逻辑,例如输入数据清理和多任务预测,所以我们需要编写一个遵循以下规则的自定义推理脚本: SageMaker 标准.
下面是一段代码片段 inference.py
:
当一切准备就绪后,我们使用 SageMaker Pipelines 来管理我们的训练管道并将其附加到我们的基础设施以完成我们的 MLOps 设置。
为了监控已部署模型的性能,我们构建了一个反馈循环,使 CRM 能够在案例结束时向我们提供分类电子邮件的状态。 根据这些信息,我们进行调整以改进部署的模型。
结论
在这篇文章中,我们分享了 SageMaker 如何帮助 Scalable 的数据科学团队高效管理数据科学项目(即电子邮件分类器项目)的生命周期。 生命周期从使用 SageMaker Studio 进行数据分析和探索的初始阶段开始; 继续使用 SageMaker 训练、推理和 Hugging Face DLC 进行模型实验和部署; 并通过与其他 AWS 服务集成的 SageMaker Pipelines 完成训练管道。 得益于此基础设施,我们能够更有效地迭代和部署新模型,从而能够改进 Scalable 中的现有流程以及客户的体验。
要了解有关 Hugging Face 和 SageMaker 的更多信息,请参阅以下资源:
作者简介
桑德拉·施密德博士 是 Scalable GmbH 的数据分析主管。 她与她的团队一起负责公司的数据驱动方法和用例。 她的重点是找到机器学习和数据科学模型以及业务目标的最佳组合,以便从数据中获得尽可能多的业务价值和效率。
胡当 Scalable GmbH 的数据科学家。 他的职责包括数据分析、构建和部署机器学习模型,以及为数据科学团队开发和维护基础设施。 在业余时间,他喜欢阅读、徒步旅行、攀岩以及了解最新的机器学习发展。
张米娅 是 Amazon Web Services 的 ML 专家解决方案架构师。 她与欧洲、中东和非洲地区的客户合作,并分享了利用她在应用数学、计算机科学和 AI/ML 方面的背景在云上运行 AI/ML 工作负载的最佳实践。 她专注于 NLP 特定的工作负载,并分享了她作为会议发言人和书籍作者的经验。 在空闲时间,她喜欢瑜伽、棋盘游戏和冲泡咖啡。
莫里茨·古特勒 是 AWS 数字原生业务部门的客户经理。 他专注于金融科技领域的客户,并支持他们通过安全且可扩展的云基础设施加速创新。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 汽车/电动汽车, 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- 图表Prime。 使用 ChartPrime 提升您的交易游戏。 访问这里。
- 块偏移量。 现代化环境抵消所有权。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-client-success-management-through-email-classification-with-hugging-face-on-amazon-sagemaker/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 100
- 13
- 15%
- 17
- 2021
- 26%
- 32
- 500
- 7
- a
- Able
- 关于
- 以上
- 加快
- 加速
- 接受
- ACCESS
- 容纳
- 根据
- 账号管理
- 账户
- 实现
- 横过
- 积极地
- 行为
- 适应
- 加
- 增加
- 调整
- 采用
- 优点
- 后
- 之后
- 中介代理
- AI / ML
- 瞄准
- 允许
- 还
- Amazon
- 亚马逊SageMaker
- 亚马逊网络服务
- 其中
- an
- 分析
- 分析
- 和
- 任何
- 阿帕奇
- API
- 应用的
- 方法
- 适当
- 批准
- 批准
- 架构
- 保健
- 参数
- AS
- 分配
- At
- 连接
- 作者
- 自动化
- 可使用
- AWS
- 背部
- 背景
- 银行
- 基地
- 基于
- 基础
- BE
- 因为
- 很
- 作为
- 好处
- 最佳
- 最佳实践
- 之间
- 板
- 棋盘游戏
- 身体
- 书
- 分支机构
- 午休
- 经纪
- 建立
- 建筑物
- 建
- 商业
- 企业
- 但是
- by
- CAN
- 资本
- 资本的
- 捕获
- 捕获
- 携带
- 案件
- 例
- 类别
- 链
- 分类
- 机密
- 清洁
- 客户
- 客户
- 攀登
- 关闭
- 关闭
- 云端技术
- 云基础设施
- 码
- 代码库
- 代码
- 咖啡
- 合作
- 组合
- 购买的订单均
- 承诺
- 通信
- 公司
- 公司的
- 可比
- 完成
- 完成对
- 组件
- 计算
- 一台
- 计算机科学
- 研讨会 首页
- 混乱
- 一贯
- 由
- 安慰
- 集装箱
- 内容
- Contents
- 正确
- 客户关系管理
- 的CSS
- 保管人
- 习俗
- 顾客
- 合作伙伴
- 每天
- data
- 数据分析
- 数据分析
- 资料准备
- 数据科学
- 数据科学家
- 数据驱动
- 日期
- 决定
- 决定
- 专用
- 深
- 深入学习
- 默认
- 定义
- 定义
- 定义
- 民主化
- 演示
- 部署
- 部署
- 部署
- 部署
- 部署
- 设计
- 细节
- 开发
- 发展
- 研发支持
- 发展
- 不同
- 数字
- 数字财富管理
- 向下
- 两
- 每
- 易
- 效率
- 有效
- 其他
- 邮箱地址
- 电子邮件
- 欧洲与中东地区
- 员工
- enable
- 端点
- 从事
- 确保
- 环境
- 时代
- 特别
- 欧洲
- 评估
- 评估
- 活动
- 一切
- 发展
- 检查
- 例子
- 追求卓越
- 执行
- 现有
- 期望
- 期望
- 预期
- 体验
- 有经验
- 体验
- 实验
- 实验
- 勘探
- 探索性数据分析
- 探索
- 额外
- f1
- 面部彩妆
- 促进
- 功能有助于
- 时尚
- 快
- 最快
- 增长最快的
- 反馈
- 数字
- 金融
- 寻找
- fintech
- fintechs
- (名字)
- 第一步
- 平面
- 专注焦点
- 重点
- 以下
- 针对
- 申请
- 格式
- 自由的
- 止
- 功能
- 未来
- Gain增益
- Games
- 网关
- 一般用途
- 生成
- 得到
- GitHub上
- 有限公司
- 理想中
- 成长
- 客人
- 游客发表
- 民政事务总署
- 有
- he
- 头
- 元首
- 这里
- 他的
- 历史的
- 托管
- 创新中心
- HTML
- HTTP
- HTTPS
- 数百
- 确定
- if
- 实施
- 实施
- 改善
- in
- 包括
- 来电
- 增加
- 增加
- 信息
- 基础设施
- 初始
- 創新
- 创新
- 输入
- 咨询内容
- 查询
- 集成
- 智能化
- 有兴趣
- 成
- 介绍
- 投资
- 投资
- 所调用
- IT
- 迭代
- 它的
- 工作
- JSON
- 保持
- 键
- 标签
- 标签
- 语言
- 最大
- 最新
- 领导
- 学习用品
- 学习
- 生命周期
- Line
- 加载
- 本地
- 日志
- 记录
- 寻找
- 离
- 机
- 机器学习
- 制成
- 维护
- 使
- 制作
- 管理
- 管理
- 颠覆性技术
- 管理的
- 市场
- 市场
- 数学
- 矩阵
- 合并
- 合并事件
- 条未读消息
- 方法
- 公
- 指标
- 可能
- ML
- 多播
- 模型
- 模型
- 现代
- 显示器
- 每月一次
- 更多
- 移动
- 许多
- 多
- 姓名
- 亦即
- 本地人
- 自然
- 自然语言处理
- 自然
- 需求
- 需要
- 网络
- 神经
- 神经网络
- 全新
- 下页
- NLP
- 笔记本
- 现在
- 数
- of
- 优惠精选
- on
- 一
- 那些
- 仅由
- 操作
- or
- 秩序
- 原版的
- 其他名称
- 除此以外
- 我们的
- 输出
- 产量
- 学校以外
- 超过
- 部分
- 参加
- 演出
- 性能
- 相
- 采摘的
- 管道
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 可能
- 帖子
- 做法
- 平台精度
- 预测
- 预测
- 准备
- 以前
- 小学
- 私立
- 过程
- 过程
- 处理
- 生成
- 生产
- 生产率
- 核心产品
- 项目
- 项目
- 正确
- 原型
- 提供
- 提供
- 国家
- 出版
- 目的
- 推
- 题
- 很快
- 报价
- 提高
- 率
- 原
- 达到
- 阅读
- 阅读
- 准备
- 合理
- 接收
- 记录
- 减少
- 参考
- 提炼
- 正则表达式
- 寄存器
- 注册处
- 相应
- 可靠
- 远程
- 去掉
- 报告
- 表示
- 请求
- 要求
- 必须
- 解决
- 资源
- 那些
- 回应
- 响应
- 回复
- 责任
- 提供品牌战略规划
- 导致
- 回报
- 健壮
- 岩石
- 运行
- sagemaker
- SageMaker管道
- 同
- 可扩展性
- 鳞片
- 科学
- 科学家
- 科学家
- 脚本
- 部分
- 部分
- 安全
- 段
- 提交
- 分开
- 序列
- 服务
- 服务
- 特色服务
- 格局
- 形
- 共用的,
- 分享
- 她
- 作品
- 签名
- 简易
- 同时
- 技能
- 小
- 片段
- So
- 方案,
- 解决方案
- 解决
- 或很快需要,
- 太空
- 喇叭
- 专家
- 专家
- 具体的
- 特别是
- 阶段
- 开始
- 开始
- 启动
- 国家的最先进的
- Status
- 住宿
- 步
- 步骤
- 存储
- 存储
- 存储
- 精简
- 工作室
- 主题
- 成功
- 这样
- 支持
- 肯定
- 采取
- 任务
- 任务
- 团队
- 队
- 文案
- HAST
- test
- 测试
- 文本
- 比
- 谢谢
- 这
- 其
- 他们
- 然后
- 那里。
- 因此
- 他们
- Free Introduction
- 数千
- 三
- 通过
- 次
- 至
- 一起
- 工具
- 主题
- 火炬
- 跟踪时
- 交易
- 交易平台
- 培训
- 熟练
- 产品培训
- 变压器
- 变形金刚
- 异常
- 转
- 二
- 类型
- 类型
- 最新动态
- us
- 使用
- 用例
- 用过的
- 用户
- 用户体验
- 使用
- 运用
- 验证
- 验证
- 折扣值
- 版本
- 等候
- 是
- we
- 财富
- 财富管理
- 卷筒纸
- Web服务
- 井
- 为
- ,尤其是
- 每当
- 这
- 而
- 中
- 也完全不需要
- 工作流程
- 工作流程
- 合作
- 写
- 瑜伽
- 和风网