Amazon Lex は、ボット テスト プロセスを簡素化および自動化するツールを提供する新しいボット テスト ソリューションである Test Workbench を発表できることを嬉しく思います。 ボット開発中のテストは、開発者がスケーリングする前にシステム内のエラー、欠陥、またはバグを特定することによって、ボットが特定の要件、ニーズ、期待を満たしているかどうかを確認するフェーズです。 テストは、会話フロー (ユーザーのクエリを理解し、正確に応答する)、意図の重複処理、モダリティ間の一貫性など、さまざまな面でボットのパフォーマンスを検証するのに役立ちます。 ただし、テストは手動で行われることが多く、エラーが発生しやすく、標準化されていません。 Test Workbench は、チャットボット開発チームが一貫した方法論でテスト セットを生成、維持、実行できるようにすることで自動テスト管理を標準化し、カスタム スクリプトやアドホックな統合を回避します。 この投稿では、テスト ワークベンチがボットの音声およびテキスト モダリティの自動テストを合理化し、音声転写、意図認識、スロット解決などのパラメーターの精度とパフォーマンスの測定を単一発話入力と複数ターンの会話の両方でどのように行うかを説明します。 これにより、ボットの改善領域を迅速に特定し、一貫したベースラインを維持して長期にわたる精度を測定し、ボットの更新による精度の低下を観察することができます。
Amazon Lex は、会話型の音声およびテキストインターフェイスを構築するためのフルマネージドサービスです。 Amazon Lex は、ウェブサイト、コンタクトセンターサービス、メッセージングチャネル上でチャットボットや仮想アシスタントを構築およびデプロイするのに役立ちます。 Amazon Lex ボットは、自動音声応答 (IVR) の生産性を向上させ、単純なタスクを自動化し、組織全体の運用効率を向上させるのに役立ちます。 Test Workbench for Amazon Lex は、ボットの設計を改善するために重要なボット テストのライフサイクルを標準化および簡素化します。
テストワークベンチの特徴
Amazon Lex のテストワークベンチには、次の機能が含まれています。
- ボットの会話ログからテスト データセットを自動的に生成
- 手動で構築したテストセットのベースラインをアップロードする
- 単一入力または複数ターンの会話のエンドツーエンド テストを実行する
- ボットの音声とテキストの両方のモダリティをテストする
- ボットのディメンションについて、集計されたメトリクスとドリルダウン メトリクスを確認します。
- 音声文字起こし
- 意図の認識
- スロット解決 (複数値スロットまたは複合スロットを含む)
- コンテキストタグ
- セッション属性
- リクエストの属性
- 実行時のヒント
- 遅延時間(秒)
前提条件
この機能をテストするには、次のものが必要です。
さらに、次のサービスと機能についての知識と理解を持っている必要があります。
テストセットを作成する
テスト セットを作成するには、次の手順を実行します。
- ソフトウェア設定ページで、下図のように AmazonLexコンソール、 下 テストワークベンチ ナビゲーション ペインで、 テストセット.
名前、説明、テスト入力の数、モダリティ、ステータスなどの基本情報を含む、既存のテスト セットのリストを確認できます。 次の手順では、ボットに関連付けられた会話ログからテスト セットを生成するか、手動で構築された既存のテスト セットを CSV ファイル形式でアップロードするかを選択できます。
- 選択する テストセットを作成する.
- 会話ログからテスト セットを生成すると、次のことが可能になります。
- CloudWatch のボットのログから実際の複数ターンの会話を含めます
- 音声ログを含め、実際の音声のニュアンス、背景雑音、アクセントを考慮したテストを実施します。
- テストセットの作成を高速化する
- 手動で構築したテスト セットをアップロードすると、次のことが可能になります。
- 運用データがない新しいボットをテストする
- 新規または変更されたインテント、スロット、会話フローについて、既存のボットに対して回帰テストを実行します。
- セッション属性とリクエスト属性を指定する、慎重に作成された詳細なシナリオをテストします。
テスト セットを生成するには、次の手順を実行します。 手動で構築したテスト セットをアップロードするには、ステップ 7 に進みます。
- 選択する ベースライン テスト セットを生成します。
- オプションを選択してください ボット名, ボットのエイリアス, 言語設定.
- 時間範囲、ログの時間範囲を設定します。
- 既存の IAM ロール、役割を選択します。
IAM ロールが会話ログから情報を取得するためのアクセスを許可できることを確認してください。 「IAM ロールの作成」を参照してください。 適切なポリシーを使用して IAM ロールを作成します。
- 手動で作成したテスト セットを使用したい場合は、 このテスト セットにファイルをアップロードする.
- このテスト セットにファイルをアップロードする、次のオプションから選択します。
- 選択 S3バケットからアップロード CSV ファイルをアップロードするには Amazon シンプル ストレージ サービス (Amazon S3)バケット。
- 選択 このテスト セットにファイルをアップロードする コンピュータから CSV ファイルをアップロードします。
あなたが使用することができます サンプルお試しセット この投稿で提供されます。 テンプレートの詳細については、 CSVテンプレート ページ上のリンク。
- モダリティ、テスト セットのモダリティを選択します。 テキスト or オーディオ.
テスト ワークベンチは、オーディオおよびテキスト入力形式のテスト サポートを提供します。
- S3の場所、結果が保存される S3 バケットの場所を入力します。
- 必要に応じて、 AWSキー管理サービス 出力トランスクリプトを暗号化するための (AWS KMS) キー。
- 選択する 創造する.
新しく作成したテスト セットは、 テストセット 次のいずれかのステータスのページ:
- 注釈の準備ができました – Amazon Lex ボットの会話ログから生成されたテストセットの場合、アノテーションステップは、高品質のテスト入力を保証するための手動ゲートメカニズムとして機能します。 各テスト行項目の予期されるインテントと予期されるスロットの値に注釈を付けることで、その行の「グラウンド トゥルース」を示します。 ボットの実行からのテスト結果が収集され、グラウンド トゥルースと比較されて、テスト結果が合格または不合格としてマークされます。 この行レベルの比較により、集計メジャーを作成できます。
- テストの準備完了 – これは、テストセットを Amazon Lex ボットに対して実行する準備ができていることを示します。
- 検証エラー – アップロードされたテスト ファイルは、サポートされている最大長の超過、インテント名の無効な文字、オーディオ ファイルを含む無効な Amazon S3 リンクなどのエラーがチェックされます。 テスト セットが 検証エラー 状態にある場合は、検証の詳細を示すファイルをダウンロードして、テスト入力の問題またはエラーを行ごとに確認します。 問題が解決されたら、修正されたテスト セット CSV をテスト セットに手動でアップロードできます。
テストセットの実行
テスト セットはボットから切り離されます。 将来、ビジネス ユース ケースが進化するにつれて、同じテスト セットを別のボットまたはボット エイリアスに対して実行することができます。 ベースライン テスト データに対するボットのパフォーマンス メトリックをレポートするには、次の手順を実行します。
- インポート サンプルボット ボットの定義と構築 (ボットのインポートを参照してください。 ご案内のため)。
- Amazon Lexコンソールで、選択します テストセット ナビゲーションペインに表示されます。
- 検証済みのテスト セットを選択します。
ここでは、テスト セットおよびインポートされたテスト データに関する基本情報を確認できます。
- 選択する テストの実行.
- 適切なオプションを選択してください ボット名, ボットのエイリアス, 言語設定.
- テストタイプ選択 オーディオ or テキスト.
- エンドポイントの選択、いずれかを選択する ストリーミング or 非ストリーミング.
- 選択する 不一致を検証する テスト データセットを検証します。
テスト セットを実行する前に、テスト セットには存在するがボットには存在しないインテントとスロットの識別など、テスト カバレッジを検証できます。 この早期警告は、予期しないテストの失敗に対するテスターの期待を設定するのに役立ちます。 テスト データセットとボットの間に不一致が検出された場合、 テストの実行 ページは次のように更新されます 詳細を見る
次のスクリーンショットに示すように、テスト データ セットにはあるがボット エイリアスには存在しないインテントとスロットがリストされます。
- 不一致を検証した後、選択します 実行する テストを実行します。
結果を確認する
テスト セットの実行後に生成されたパフォーマンス測定は、改善が必要なボット設計の領域を特定するのに役立ち、顧客をサポートするボットの開発と配信を迅速化するのに役立ちます。 テスト ワークベンチは、エンドツーエンドの会話および単一行入力レベルでの意図の分類とスロット解決に関する洞察を提供します。 完了したテスト実行はタイムスタンプとともに S3 バケットに保存され、将来の比較レビューに使用できます。
- Amazon Lexコンソールで、選択します 試験結果 ナビゲーションペインに表示されます。
- 確認する結果のテスト結果 ID を選択します。
次のページでは、テスト結果の内訳が XNUMX つのメイン タブに分類されて表示されます。 全体の結果、会話の結果、インテントとスロットの結果、 および 詳細な結果。
全体的な結果
[全体的な結果] タブには、次の XNUMX つの主要なセクションが含まれています。
- テストセット入力の内訳 — テスト セット内のエンドツーエンドの会話と単一入力発話の合計数を示すグラフ。
- 単一入力の内訳 — 成功または失敗した単一入力の数を示すグラフ。
- 会話の内訳 — 成功または失敗したマルチターン入力の数を示すグラフ。
オーディオ モダリティで実行されるテスト セットの場合、単一入力と会話タイプの両方で成功または失敗した音声文字起こしの数を示す音声文字起こしチャートが提供されます。 オーディオ モダリティでは、単一入力または複数ターンの会話が音声転写テストには合格しても、全体的なエンドツーエンド テストには不合格となる可能性があります。 これは、たとえば、スロットの解決や意図認識の問題によって発生する可能性があります。
会話結果
テスト ワークベンチは、特定のインテントまたはスロットに起因すると考えられる会話の失敗を掘り下げるのに役立ちます。 [会話結果] タブは XNUMX つの主要な領域で構成され、テスト セットで使用されるすべてのインテントとスロットをカバーします。
- 会話の成功率 — どのインテントとスロットが会話の失敗の原因となっているかを視覚化するために使用されるテーブル。
- 会話意図の失敗メトリクス — テスト セット内で最もパフォーマンスの悪い上位 XNUMX つのインテントを示す棒グラフ (存在する場合)。
- 会話スロットの失敗メトリック — テスト セット内で最もパフォーマンスの悪い上位 XNUMX つのスロットを示す棒グラフ (存在する場合)。
意図とスロットの結果
[インテントとスロットの結果] タブには、インテントの認識やスロットの解決など、ボットのディメンションのドリルダウン メトリックが表示されます。
- 意図認識メトリクス — 意図認識の成功率を示す表。
- スロット解決メトリック — スロット解決の成功率を示す表。
詳細な結果
[詳細な結果] タブで、実行されたテスト実行の詳細レポートにアクセスできます。 テーブルが表示され、テスト セット内の実際の転写、出力インテント、およびスロット値が示されます。 レポートは CSV としてダウンロードしてさらに分析できます。
ラインレベルの出力は、ボットの設計を改善し、精度を高めるのに役立つ洞察を提供します。 たとえば、ブランド化された単語などの誤認識または見逃した音声入力を、インテントのカスタム語彙に追加したり、インテントに基づく発話として追加したりできます。
会話のデザインをさらに改善するには、以下を参照してください。 この記事では、ML を使用して顧客を正確に理解して満足するボットを作成するためのベスト プラクティスを概説します。
まとめ
この投稿では、チャットボットの自動テストプロセスを標準化し、開発者や会話デザイナーがボットの設計と開発を効率化し、迅速に反復できるようにするネイティブ機能である Amazon Lex のテストワークベンチを紹介しました。
Amazon Lex のこの新機能をどのように使用するか、フィードバックをお待ちしております。 ご質問、バグ、機能リクエストについては、こちらからお問い合わせください。 Amazon Lex の AWS re:Post または AWS サポートの連絡先までお問い合わせください。
詳しくは、をご覧ください。 Amazon Lex のよくある質問 と Amazon Lex V2 開発者ガイド.
著者について
サンディープ・スリニバサン AmazonLexチームのプロダクトマネージャーです。 人間の行動を熱心に観察する彼は、顧客体験に情熱を注いでいます。 彼は目を覚ます時間を人、テクノロジー、そして未来の交差点で過ごします。
グラツィア・ルッソ・ラスナー は、AWS プロフェッショナル サービスの自然言語 AI チームのシニア コンサルタントです。 彼女は、さまざまな業界の顧客向けに AWS テクノロジーを使用した会話型 AI ソリューションの設計と開発を専門としています。 仕事以外では、週末のビーチ、最新のフィクションの本を読むこと、そして家族を楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- EVMファイナンス。 分散型金融のための統一インターフェイス。 こちらからアクセスしてください。
- クォンタムメディアグループ。 IR/PR増幅。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/
- :は
- :not
- :どこ
- $UP
- 10
- 100
- 500
- 610
- 7
- 9
- a
- できる
- 私たちについて
- アクセス
- 精度
- 正確にデジタル化
- 越えて
- 実際の
- 追加されました
- 添加
- 後
- に対して
- AI
- すべて
- 許可
- ことができます
- Amazon
- Amazon Lex
- Amazon Webサービス
- an
- 分析
- および
- アナウンス
- どれか
- 適切な
- です
- エリア
- AS
- アシスタント
- 関連する
- At
- 属性
- オーディオ
- 自動化する
- 自動化
- 自動的に
- 避ける
- AWS
- AWSプロフェッショナルサービス
- 背景
- バー
- ベースライン
- 基本
- 基礎
- BE
- (ダグラス・ビーチ)
- BEST
- ベストプラクティス
- の間に
- 本
- ブースト
- ロボット
- 両言語で
- ボット
- ブランドの
- 内訳
- バグ
- ビルド
- 建物
- 内蔵
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- (Comma Separated Values) ボタンをクリックして、各々のジョブ実行の詳細(開始/停止時間、変数値など)のCSVファイルをダウンロードします。
- by
- 缶
- 慎重に
- 場合
- 生じました
- センター
- チャンネル
- 文字
- チャート
- チャート
- チャットボット
- チャットボット
- チェック
- チェック済み
- 選択する
- 分類
- 比べ
- 比較
- コンプリート
- 記入済みの
- コンピュータ
- プロフェッショナルな方法で
- 整合性のある
- 領事
- コンサルタント
- 接触
- コンタクトセンター
- コンタクト
- 含まれています
- 会話
- 会話
- 会話型AI
- 会話
- 訂正さ
- 可能性
- カバレッジ
- カバーする
- 作ります
- 作成した
- 作成
- 創造
- 重大な
- カスタム
- 顧客
- 顧客満足体験
- Customers
- データ
- データセット
- データセット
- 遅らせる
- 喜び
- 配達
- 展開します
- 説明
- 設計
- デザイナー
- 設計
- 詳細な
- 細部
- 検出された
- Developer
- 開発者
- 開発
- 開発
- 異なります
- 大きさ
- do
- ダウン
- ダウンロード
- ドライブ
- 原因
- 間に
- 各
- 早い
- 効率
- どちら
- 端から端まで
- 確保
- 入力します
- エラー
- エラー
- 進化する
- 超えます
- 興奮した
- 実行します
- 実行された
- 実行
- 既存の
- 期待
- 期待
- 予想される
- 体験
- フェイル
- Failed:
- 不良解析
- 家族
- 特徴
- 特徴
- フィクション
- File
- フロー
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- フォワード
- 発見
- 4
- から
- 完全に
- 機能性
- さらに
- 未来
- 生成する
- 生成された
- 生成
- 助成金
- グラフ
- 陸上
- ガイダンス
- ハンドリング
- 持ってる
- he
- 耳
- 助けます
- ことができます
- 彼の
- HOURS
- 認定条件
- しかしながら
- HTML
- HTTP
- HTTPS
- 人間
- ID
- 識別する
- 識別
- if
- インポート
- 改善します
- 改善
- 改善
- 改善
- in
- include
- 含ま
- 含めて
- 増える
- 示す
- を示し
- 産業
- 情報
- 入力
- 洞察
- 統合
- 意図
- 相互作用的
- インターフェース
- 交差点
- に
- 問題
- 問題
- JPG
- キーン
- キー
- 知識
- 言語
- 最新の
- LEARN
- 長さ
- レベル
- wifecycwe
- LINE
- LINK
- リンク
- リスト
- リストされた
- 場所
- 見て
- メイン
- 維持する
- マネージド
- 管理
- マネージャー
- マニュアル
- 手動で
- マーク
- だけど
- 措置
- メカニズム
- ミーツ
- メッセージング
- 方法論
- メトリック
- 逃した
- ML
- 修正されました
- 他には?
- 名
- 名
- ネイティブ
- ナチュラル
- ナビゲーション
- 必要
- ニーズ
- 新作
- 新しく
- 次の
- いいえ
- 数
- 観察する
- of
- 頻繁に
- on
- かつて
- ONE
- オペレーショナル
- オプション
- or
- 注文
- 組織
- 整理
- 出力
- 外側
- が
- 全体
- ページ
- ペイン
- パラメータ
- パス
- 渡された
- 情熱的な
- のワークプ
- パフォーマンス
- 実行
- 相
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- お願いします
- 方針
- 可能
- ポスト
- プラクティス
- 好む
- 現在
- PLM platform.
- プロセス
- プロダクト
- プロダクトマネージャー
- 生産
- 生産性
- プロ
- 提供
- は、大阪で
- 品質
- クエリ
- 質問
- すぐに
- 範囲
- レート
- RE
- リーチ
- リーディング
- 準備
- リアル
- 認識
- レポート
- 要求
- リクエスト
- 要件
- 解像度
- 応答
- 応答
- 責任
- 結果
- 結果
- レビュー
- レビュー
- 職種
- ラン
- 同じ
- スケーリング
- シナリオ
- スクリーンショット
- セクション
- シニア
- 仕える
- サービス
- サービス
- セッション
- セッションに
- セット
- いくつかの
- 彼女
- すべき
- 表示する
- 示す
- 簡単な拡張で
- 簡素化する
- スロット
- 溶液
- ソリューション
- 専門にする
- 特定の
- スピーチ
- 都道府県
- Status:
- 手順
- ステップ
- ストレージ利用料
- 保存され
- 流線
- 成功
- そのような
- サポート
- サポート
- テーブル
- タスク
- チーム
- チーム
- テクノロジー
- テクノロジー
- テンプレート
- test
- テスト
- テスト
- それ
- 未来
- それら
- その後
- そこ。
- 彼ら
- この
- 三
- 介して
- 時間
- 〜へ
- 豊富なツール群
- top
- トータル
- 真実
- 下
- 理解する
- 予期しない
- アップデイト
- 更新版
- アップロード
- us
- つかいます
- 使用事例
- 中古
- ユーザー
- 検証
- 検証済み
- 価値観
- さまざまな
- バーチャル
- ボイス
- 欲しいです
- 警告
- we
- ウェブ
- Webサービス
- ウェブサイト
- 歓迎
- かどうか
- which
- 意志
- 言葉
- 仕事
- 最悪
- まだ
- You
- あなたの
- ゼファーネット
- 〒