亚马逊Lex 很高兴地宣布推出 Test Workbench,这是一种新的机器人测试解决方案,可提供用于简化和自动化机器人测试过程的工具。 在机器人开发期间,测试是开发人员通过在扩展之前识别系统中的错误、缺陷或错误来检查机器人是否满足特定要求、需求和期望的阶段。 测试有助于验证机器人在多个方面的性能,例如对话流(理解用户查询并准确响应)、意图重叠处理以及跨模式的一致性。 然而,测试通常是手动的、容易出错的和非标准化的。 Test Workbench 通过允许聊天机器人开发团队使用一致的方法生成、维护和执行测试集并避免自定义脚本和临时集成来标准化自动化测试管理。 在本文中,您将了解 Test Workbench 如何简化机器人语音和文本模式的自动化测试,并为音频转录、意图识别和单句输入和多轮对话的槽解析等参数提供准确性和性能测量。 这使您能够快速识别机器人改进区域并保持一致的基线以随着时间的推移测量准确性并观察由于机器人更新而导致的任何准确性回归。
Amazon Lex 是一项完全托管的服务,用于构建对话式语音和文本界面。 Amazon Lex 可帮助您在网站、联络中心服务和消息传递渠道上构建和部署聊天机器人和虚拟助手。 Amazon Lex 机器人有助于提高交互式语音响应 (IVR) 的工作效率、自动执行简单任务并提高整个组织的运营效率。 Amazon Lex 测试工作台标准化并简化了机器人测试生命周期,这对于改进机器人设计至关重要。
测试工作台的特点
Amazon Lex 测试工作台包括以下功能:
- 从机器人的对话日志中自动生成测试数据集
- 上传手动构建的测试集基线
- 执行单输入或多轮对话的端到端测试
- 测试机器人的音频和文本模式
- 查看机器人维度的聚合和向下钻取指标:
- 语音转录
- 意图识别
- 槽解析(包括多值槽或复合槽)
- 上下文标签
- 会话属性
- 请求属性
- 运行时提示
- 以秒为单位的时间延迟
先决条件
要测试此功能,您应该具备以下条件:
此外,您应该了解并了解以下服务和功能:
创建测试集
要创建测试集,请完成以下步骤:
- 点击 Amazon Lex控制台,下 测试工作台 在导航窗格中,选择 测试集.
您可以查看现有测试集的列表,包括名称、描述、测试输入数量、模式和状态等基本信息。 在以下步骤中,您可以选择从与机器人关联的对话日志生成测试集,或以 CSV 文件格式上传现有的手动构建的测试集。
- 创建测试集.
- 从对话日志生成测试集允许您执行以下操作:
- 在 CloudWatch 中包含机器人日志中的真实多回合对话
- 包括音频日志并进行测试以解决真实语音的细微差别、背景噪音和口音
- 加快测试集的创建
- 上传手动构建的测试集允许您执行以下操作:
- 测试没有生产数据的新机器人
- 针对任何新的或修改后的意图、槽和对话流对现有机器人执行回归测试
- 测试精心设计的详细场景,指定会话属性和请求属性
要生成测试集,请完成以下步骤。 要上传手动构建的测试集,请跳至第 7 步。
- 生成基线测试集。
- 选择您的选项 机器人名称, 机器人别名及 语言.
- 针对 时间范围, 设置日志的时间范围。
- 针对 现有 IAM 角色, 选择一个角色。
确保 IAM 角色能够授予您访问权限以从对话日志中检索信息。 请参阅创建 IAM 角色 使用适当的策略创建 IAM 角色。
- 如果您更喜欢使用手动创建的测试集,请选择 将文件上传到此测试集.
- 针对 将文件上传到此测试集, 从以下选项中进行选择:
- 选择 从 S3 存储桶上传 上传 CSV 文件 亚马逊简单存储服务 (Amazon S3)存储桶。
- 选择 将文件上传到此测试集 从您的计算机上传 CSV 文件。
您可以使用 样本测试集 在这篇文章中提供。 有关模板的详细信息,请选择 CSV 模板 页面上的链接。
- 针对 情态,选择测试集的模式,或者 文本 or Audio.
Test Workbench 为音频和文本输入格式提供测试支持。
- 针对 S3位置,输入将存储结果的 S3 存储桶位置。
- 或者,选择一个 AWS密钥管理服务 (AWS KMS) 加密输出转录本的密钥。
- 创建.
您新创建的测试集将列在 测试集 具有以下状态之一的页面:
- 准备注释 - 对于从 Amazon Lex 机器人对话日志生成的测试集,注释步骤用作手动门控机制以确保质量测试输入。 通过注释每个测试行项目的预期意图和预期插槽的值,您可以指出该行的“基本事实”。 收集机器人运行的测试结果,并将其与真实情况进行比较,以将测试结果标记为通过或失败。 然后,此行级别比较允许创建聚合度量。
- 准备测试 - 这表明测试集已准备好针对 Amazon Lex 机器人执行。
- 验证错误 – 检查上传的测试文件是否存在错误,例如超过支持的最大长度、意图名称中的无效字符或包含音频文件的无效 Amazon S3 链接。 如果测试集在 验证错误 状态,下载显示验证详细信息的文件以逐行查看测试输入问题或错误。 解决这些问题后,您可以手动将更正后的测试集 CSV 上传到测试集中。
执行测试集
测试集与机器人分离。 随着业务用例的发展,将来可以针对不同的机器人或机器人别名执行相同的测试集。 要根据基线测试数据报告机器人的性能指标,请完成以下步骤:
在这里您可以查看测试集的基本信息和导入的测试数据。
- 执行测试.
- 选择合适的选项 机器人名称, 机器人别名及 语言.
- 针对 测试类型, 选择 Audio or 文本.
- 针对 端点选择,选择 流 or 非流媒体.
- 验证差异 验证您的测试数据集。
在执行测试集之前,您可以验证测试覆盖率,包括识别存在于测试集中但不存在于机器人中的意图和插槽。 此预警用于设置测试人员对意外测试失败的期望。 如果检测到测试数据集和机器人之间存在差异,则 执行测试 页面将更新为 查看详情 按钮。
在测试数据集中发现但不在机器人别名中的意图和插槽列在以下屏幕截图中。
- 验证差异后,选择 执行 运行测试。
审查结果
执行测试集后生成的性能度量可帮助您确定需要改进的机器人设计领域,并有助于加快机器人开发和交付以支持您的客户。 Test Workbench 提供有关端到端对话和单行输入级别的意图分类和槽解析的见解。 完成的测试运行与时间戳一起存储在您的 S3 存储桶中,可用于未来的比较审查。
- 在Amazon Lex控制台上,选择 检测结果 在导航窗格中。
- 为您要查看的结果选择测试结果 ID。
在下一页上,测试结果将包括在四个主要选项卡中组织的结果明细: 总体结果,对话结果,意图和槽结果, 和 详细的结果。
总成绩
总体结果选项卡包含三个主要部分:
- 测试集输入故障 — 显示测试集中端到端对话和单个输入话语总数的图表。
- 单次输入击穿 — 显示通过或失败的单一输入数量的图表。
- 对话分解 — 显示通过或失败的多圈输入数量的图表。
对于以音频模式运行的测试集,提供了语音转录图表以显示在单一输入和对话类型上通过或失败的语音转录的数量。 在音频模态中,单个输入或多轮对话可以通过语音转录测试,但无法通过整体端到端测试。 例如,这可能是由插槽解析或意图识别问题引起的。
对话结果
Test Workbench 可帮助您深入了解可归因于特定意图或槽的对话失败。 Conversation results 选项卡分为三个主要区域,涵盖了测试集中使用的所有意图和槽:
- 会话通过率 — 一个表格,用于可视化哪些意图和槽是导致可能的对话失败的原因。
- 对话意图失败指标 — 显示测试集中表现最差的前五个意图(如果有)的条形图。
- 对话槽失败指标 — 显示测试集中表现最差的前五个插槽的条形图(如果有)。
意图和插槽结果
Intent and slot results 选项卡提供机器人维度的向下钻取指标,例如意图识别和槽解析。
- 意图识别指标 — 显示意图识别成功率的表格。
- 时隙分辨率指标 — 显示时隙解析成功率的表格,由
详细结果
您可以在“详细结果”选项卡上访问已执行测试运行的详细报告。 将显示一个表格以显示测试集中的实际转录、输出意图和槽值。 该报告可以 CSV 格式下载以供进一步分析。
行级输出提供了有助于改进机器人设计和提高准确性的见解。 例如,可以将错误识别或遗漏的语音输入(例如品牌词)添加到意图的自定义词汇表中或作为意图下的话语。
为了进一步完善对话设计,可以参考 这篇文章,概述了使用 ML 创建机器人的最佳实践,该机器人将通过准确理解客户来取悦客户。
结论
在本文中,我们介绍了 Amazon Lex 的测试工作台,这是一种标准化聊天机器人自动化测试流程的原生功能,允许开发人员和对话设计人员通过机器人设计和开发来简化和快速迭代。
我们期待听到您如何使用 Amazon Lex 的这一新功能,并欢迎提供反馈! 如有任何问题、错误或功能请求,请通过以下方式与我们联系 适用于 Amazon Lex 的 AWS re:Post 或您的 AWS Support 联系人。
要了解更多信息,请参阅 Amazon Lex 常见问题 和 Amazon Lex V2 开发人员指南.
关于作者
桑迪普·斯里尼瓦桑 是 Amazon Lex 团队的产品经理。 作为人类行为的敏锐观察者,他对客户体验充满热情。 他把醒着的时间花在人、技术和未来的交汇处。
格拉齐亚·鲁索·拉斯纳 是 AWS 专业服务自然语言 AI 团队的高级顾问。 她擅长使用 AWS 技术为各行各业的客户设计和开发对话式 AI 解决方案。 工作之余,她喜欢海滩周末、阅读最新的小说书籍和家庭。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- EVM财务。 去中心化金融的统一接口。 访问这里。
- 量子传媒集团。 IR/PR 放大。 访问这里。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/
- :是
- :不是
- :在哪里
- $UP
- 10
- 100
- 500
- 610
- 7
- 9
- a
- Able
- 关于
- ACCESS
- 账号管理
- 准确
- 横过
- 实际
- 添加
- 增加
- 后
- 驳
- AI
- 所有类型
- 允许
- 允许
- Amazon
- 亚马逊Lex
- 亚马逊网络服务
- an
- 分析
- 和
- 宣布
- 任何
- 适当
- 保健
- 地区
- AS
- 助理
- 相关
- At
- 属性
- 音频
- 自动化
- 自动化
- 自动
- 避免
- AWS
- AWS专业服务
- 背景
- 酒吧
- 底线
- 基本包
- 基础
- BE
- 海滩
- before
- 最佳
- 最佳实践
- 之间
- 书籍
- 促进
- 博特
- 都
- 机器人
- 品牌
- 击穿
- 虫子
- 建立
- 建筑物
- 建
- 商业
- 但是
- 按键
- by
- CAN
- 小心
- 案件
- 造成
- Center
- 通道
- 字符
- 图表
- 图表
- 聊天机器人
- 聊天机器人
- 查
- 检查
- 分类
- 相比
- 对照
- 完成
- 完成
- 一台
- 进行
- 一贯
- 安慰
- 顾问
- CONTACT
- 联络中心
- 联系
- 包含
- 谈话
- 听起来像对话
- 会话AI
- 对话
- 更正
- 可以
- 覆盖
- 覆盖
- 创建信息图
- 创建
- 创造
- 创建
- 危急
- 习俗
- 顾客
- 客户体验
- 合作伙伴
- data
- 数据集
- 数据集
- 延迟
- 喜悦
- 交货
- 部署
- 描述
- 设计
- 设计师
- 设计
- 详细
- 详情
- 检测
- 开发商
- 开发
- 发展
- 研发支持
- 不同
- 尺寸
- do
- 向下
- 下载
- 驾驶
- 两
- ,我们将参加
- 每
- 早
- 效率
- 或
- 端至端
- 确保
- 输入
- 错误
- 故障
- 演变
- 超额
- 兴奋
- 执行
- 执行
- 执行
- 现有
- 期望
- 期望
- 预期
- 体验
- 失败
- 失败
- 失败
- 家庭
- 专栏
- 特征
- 小说
- 文件
- 档
- 流
- 以下
- 针对
- 格式
- 向前
- 发现
- 四
- 止
- 充分
- 功能
- 进一步
- 未来
- 生成
- 产生
- 发电
- 授予
- 图形
- 陆运
- 指导
- 处理
- 有
- he
- 听力
- 帮助
- 帮助
- 他的
- HOURS
- 创新中心
- 但是
- HTML
- HTTP
- HTTPS
- 人
- ID
- 鉴定
- 确定
- if
- 输入
- 改善
- 改进
- 改善
- 改善
- in
- 包括
- 包括
- 包含
- 增加
- 表明
- 表示
- 行业
- 信息
- 输入
- 输入
- 可行的洞见
- 例
- 集成
- 意图
- 互动
- 接口
- 路口
- 成
- 问题
- 问题
- JPG
- 敏锐
- 键
- 知识
- 语言
- 最新
- 学习用品
- 长度
- Level
- 生命周期
- Line
- 友情链接
- 链接
- 清单
- 已发布
- 圖書分館的位置
- 看
- 主要
- 保持
- 管理
- 颠覆性技术
- 经理
- 手册
- 手动
- 标记
- 最多
- 衡量
- 措施
- 机制
- 会见
- 消息
- 研究方法
- 指标
- 错过
- ML
- 改性
- 更多
- 姓名
- 名称
- 本地人
- 自然
- 旅游导航
- 需求
- 需要
- 全新
- 新
- 下页
- 没有
- 数
- 观察
- of
- 经常
- on
- 一旦
- 一
- 操作
- 附加选项
- or
- 秩序
- 组织
- 举办
- 产量
- 学校以外
- 超过
- 最划算
- 页
- 面包
- 参数
- 通过
- 通过
- 多情
- 员工
- 性能
- 执行
- 相
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 请
- 政策
- 可能
- 帖子
- 做法
- 比较喜欢
- 当下
- 呈现
- 过程
- 产品
- 产品经理
- 生产
- 生产率
- 所以专业
- 提供
- 提供
- 质量
- 查询
- 有疑问吗?
- 很快
- 范围
- 率
- RE
- 达到
- 阅读
- 准备
- 真实
- 承认
- 报告
- 请求
- 要求
- 岗位要求
- 分辨率
- 回应
- 响应
- 提供品牌战略规划
- 导致
- 成果
- 检讨
- 评论
- 角色
- 运行
- 同
- 缩放
- 情景
- 截图
- 部分
- 看到
- 前辈
- 服务
- 服务
- 特色服务
- 会议
- 集
- 套数
- 几个
- 她
- 应该
- 显示
- 如图
- 简易
- 简化
- 单
- 插槽
- 方案,
- 解决方案
- 专业
- 具体的
- 言语
- 州/领地
- Status
- 步
- 步骤
- 存储
- 存储
- 精简
- 成功
- 这样
- SUPPORT
- 支持
- 系统
- 表
- 任务
- 团队
- 队
- 技术
- 专业技术
- 模板
- test
- 测试
- 测试
- 这
- 未来
- 他们
- 然后
- 那里。
- 他们
- Free Introduction
- 三
- 通过
- 次
- 至
- 工具
- 最佳
- 合计
- 真相
- 类型
- 下
- 理解
- 意外
- 更新
- 最新动态
- 上传
- us
- 使用
- 用例
- 用过的
- 用户
- 运用
- 验证
- 验证
- 验证
- 价值观
- 各个
- 在线会议
- 音色
- 想
- 警告
- we
- 卷筒纸
- Web服务
- 网站
- 欢迎进入
- 是否
- 这
- 将
- 话
- 工作
- 最差
- 但
- 完全
- 您一站式解决方案
- 和风网
- 压缩