テストワークベンチを使用して Amazon Lex チャットボット開発ライフサイクルを迅速化する

プラトン再発行

フォロワー： 0

Amazon Lex は、ボットテストプロセスを簡素化および自動化するツールを提供する新しいボットテストソリューションである Test Workbench を発表できることを嬉しく思います。ボット開発中のテストは、開発者がスケーリングする前にシステム内のエラー、欠陥、またはバグを特定することによって、ボットが特定の要件、ニーズ、期待を満たしているかどうかを確認するフェーズです。テストは、会話フロー (ユーザーのクエリを理解し、正確に応答する)、意図の重複処理、モダリティ間の一貫性など、さまざまな面でボットのパフォーマンスを検証するのに役立ちます。ただし、テストは手動で行われることが多く、エラーが発生しやすく、標準化されていません。 Test Workbench は、チャットボット開発チームが一貫した方法論でテストセットを生成、維持、実行できるようにすることで自動テスト管理を標準化し、カスタムスクリプトやアドホックな統合を回避します。この投稿では、テストワークベンチがボットの音声およびテキストモダリティの自動テストを合理化し、音声転写、意図認識、スロット解決などのパラメーターの精度とパフォーマンスの測定を単一発話入力と複数ターンの会話の両方でどのように行うかを説明します。これにより、ボットの改善領域を迅速に特定し、一貫したベースラインを維持して長期にわたる精度を測定し、ボットの更新による精度の低下を観察することができます。

Amazon Lex は、会話型の音声およびテキストインターフェイスを構築するためのフルマネージドサービスです。 Amazon Lex は、ウェブサイト、コンタクトセンターサービス、メッセージングチャネル上でチャットボットや仮想アシスタントを構築およびデプロイするのに役立ちます。 Amazon Lex ボットは、自動音声応答 (IVR) の生産性を向上させ、単純なタスクを自動化し、組織全体の運用効率を向上させるのに役立ちます。 Test Workbench for Amazon Lex は、ボットの設計を改善するために重要なボットテストのライフサイクルを標準化および簡素化します。

テストワークベンチの特徴

Amazon Lex のテストワークベンチには、次の機能が含まれています。

ボットの会話ログからテストデータセットを自動的に生成
手動で構築したテストセットのベースラインをアップロードする
単一入力または複数ターンの会話のエンドツーエンドテストを実行する
ボットの音声とテキストの両方のモダリティをテストする
ボットのディメンションについて、集計されたメトリクスとドリルダウンメトリクスを確認します。
- 音声文字起こし
- 意図の認識
- スロット解決 (複数値スロットまたは複合スロットを含む)
- コンテキストタグ
- セッション属性
- リクエストの属性
- 実行時のヒント
- 遅延時間（秒）

前提条件

この機能をテストするには、次のものが必要です。

さらに、次のサービスと機能についての知識と理解を持っている必要があります。

テストセットを作成する

テストセットを作成するには、次の手順を実行します。

ソフトウェア設定ページで、下図のように AmazonLexコンソール、下 テストワークベンチ ナビゲーションペインで、 テストセット.

名前、説明、テスト入力の数、モダリティ、ステータスなどの基本情報を含む、既存のテストセットのリストを確認できます。次の手順では、ボットに関連付けられた会話ログからテストセットを生成するか、手動で構築された既存のテストセットを CSV ファイル形式でアップロードするかを選択できます。

Test Workbench を使用して Amazon Lex チャットボット開発ライフサイクルを促進する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

選択する テストセットを作成する.

会話ログからテストセットを生成すると、次のことが可能になります。
- CloudWatch のボットのログから実際の複数ターンの会話を含めます
- 音声ログを含め、実際の音声のニュアンス、背景雑音、アクセントを考慮したテストを実施します。
- テストセットの作成を高速化する
手動で構築したテストセットをアップロードすると、次のことが可能になります。
- 運用データがない新しいボットをテストする
- 新規または変更されたインテント、スロット、会話フローについて、既存のボットに対して回帰テストを実行します。
- セッション属性とリクエスト属性を指定する、慎重に作成された詳細なシナリオをテストします。

テストセットを生成するには、次の手順を実行します。手動で構築したテストセットをアップロードするには、ステップ 7 に進みます。

選択する ベースラインテストセットを生成します。
オプションを選択してください ボット名, ボットのエイリアス, 言語設定.
時間範囲、ログの時間範囲を設定します。
既存の IAM ロール、役割を選択します。

IAM ロールが会話ログから情報を取得するためのアクセスを許可できることを確認してください。「IAM ロールの作成」を参照してください。適切なポリシーを使用して IAM ロールを作成します。

手動で作成したテストセットを使用したい場合は、 このテストセットにファイルをアップロードする.
このテストセットにファイルをアップロードする、次のオプションから選択します。
- 選択 S3バケットからアップロード CSV ファイルをアップロードするには Amazon シンプルストレージサービス（Amazon S3）バケット。
- 選択 このテストセットにファイルをアップロードする コンピュータから CSV ファイルをアップロードします。

あなたが使用することができますサンプルお試しセットこの投稿で提供されます。テンプレートの詳細については、 CSVテンプレート ページ上のリンク。

モダリティ、テストセットのモダリティを選択します。 テキスト or オーディオ.

テストワークベンチは、オーディオおよびテキスト入力形式のテストサポートを提供します。

S3の場所、結果が保存される S3 バケットの場所を入力します。
必要に応じて、 AWSキー管理サービス出力トランスクリプトを暗号化するための (AWS KMS) キー。
選択する 創造する.

新しく作成したテストセットは、 テストセット 次のいずれかのステータスのページ:

注釈の準備ができました – Amazon Lex ボットの会話ログから生成されたテストセットの場合、アノテーションステップは、高品質のテスト入力を保証するための手動ゲートメカニズムとして機能します。各テスト行項目の予期されるインテントと予期されるスロットの値に注釈を付けることで、その行の「グラウンドトゥルース」を示します。ボットの実行からのテスト結果が収集され、グラウンドトゥルースと比較されて、テスト結果が合格または不合格としてマークされます。この行レベルの比較により、集計メジャーを作成できます。
テストの準備完了 – これは、テストセットを Amazon Lex ボットに対して実行する準備ができていることを示します。
検証エラー – アップロードされたテストファイルは、サポートされている最大長の超過、インテント名の無効な文字、オーディオファイルを含む無効な Amazon S3 リンクなどのエラーがチェックされます。テストセットが 検証エラー 状態にある場合は、検証の詳細を示すファイルをダウンロードして、テスト入力の問題またはエラーを行ごとに確認します。問題が解決されたら、修正されたテストセット CSV をテストセットに手動でアップロードできます。

テストセットの実行

テストセットはボットから切り離されます。将来、ビジネスユースケースが進化するにつれて、同じテストセットを別のボットまたはボットエイリアスに対して実行することができます。ベースラインテストデータに対するボットのパフォーマンスメトリックをレポートするには、次の手順を実行します。

インポートサンプルボットボットの定義と構築 (ボットのインポートを参照してください。ご案内のため）。
Amazon Lexコンソールで、選択します テストセット ナビゲーションペインに表示されます。
検証済みのテストセットを選択します。

ここでは、テストセットおよびインポートされたテストデータに関する基本情報を確認できます。

選択する テストの実行.
適切なオプションを選択してください ボット名, ボットのエイリアス, 言語設定.
テストタイプ選択 オーディオ or テキスト.
エンドポイントの選択、いずれかを選択する ストリーミング or 非ストリーミング.
選択する 不一致を検証する テストデータセットを検証します。

テストセットを実行する前に、テストセットには存在するがボットには存在しないインテントとスロットの識別など、テストカバレッジを検証できます。この早期警告は、予期しないテストの失敗に対するテスターの期待を設定するのに役立ちます。テストデータセットとボットの間に不一致が検出された場合、 テストの実行 ページは次のように更新されます 詳細を見る

次のスクリーンショットに示すように、テストデータセットにはあるがボットエイリアスには存在しないインテントとスロットがリストされます。

不一致を検証した後、選択します 実行する テストを実行します。

結果を確認する

テストセットの実行後に生成されたパフォーマンス測定は、改善が必要なボット設計の領域を特定するのに役立ち、顧客をサポートするボットの開発と配信を迅速化するのに役立ちます。テストワークベンチは、エンドツーエンドの会話および単一行入力レベルでの意図の分類とスロット解決に関する洞察を提供します。完了したテスト実行はタイムスタンプとともに S3 バケットに保存され、将来の比較レビューに使用できます。

Amazon Lexコンソールで、選択します 試験結果 ナビゲーションペインに表示されます。
確認する結果のテスト結果 ID を選択します。

次のページでは、テスト結果の内訳が XNUMX つのメインタブに分類されて表示されます。 全体の結果、会話の結果、インテントとスロットの結果、 および 詳細な結果。

全体的な結果

[全体的な結果] タブには、次の XNUMX つの主要なセクションが含まれています。

テストセット入力の内訳 — テストセット内のエンドツーエンドの会話と単一入力発話の合計数を示すグラフ。
単一入力の内訳 — 成功または失敗した単一入力の数を示すグラフ。
会話の内訳 — 成功または失敗したマルチターン入力の数を示すグラフ。

オーディオモダリティで実行されるテストセットの場合、単一入力と会話タイプの両方で成功または失敗した音声文字起こしの数を示す音声文字起こしチャートが提供されます。オーディオモダリティでは、単一入力または複数ターンの会話が音声転写テストには合格しても、全体的なエンドツーエンドテストには不合格となる可能性があります。これは、たとえば、スロットの解決や意図認識の問題によって発生する可能性があります。

会話結果

テストワークベンチは、特定のインテントまたはスロットに起因すると考えられる会話の失敗を掘り下げるのに役立ちます。 [会話結果] タブは XNUMX つの主要な領域で構成され、テストセットで使用されるすべてのインテントとスロットをカバーします。

会話の成功率 — どのインテントとスロットが会話の失敗の原因となっているかを視覚化するために使用されるテーブル。
会話意図の失敗メトリクス — テストセット内で最もパフォーマンスの悪い上位 XNUMX つのインテントを示す棒グラフ (存在する場合)。
会話スロットの失敗メトリック — テストセット内で最もパフォーマンスの悪い上位 XNUMX つのスロットを示す棒グラフ (存在する場合)。

意図とスロットの結果

[インテントとスロットの結果] タブには、インテントの認識やスロットの解決など、ボットのディメンションのドリルダウンメトリックが表示されます。

意図認識メトリクス — 意図認識の成功率を示す表。
スロット解決メトリック — スロット解決の成功率を示す表。それぞれの意図。

詳細な結果

[詳細な結果] タブで、実行されたテスト実行の詳細レポートにアクセスできます。テーブルが表示され、テストセット内の実際の転写、出力インテント、およびスロット値が示されます。レポートは CSV としてダウンロードしてさらに分析できます。

ラインレベルの出力は、ボットの設計を改善し、精度を高めるのに役立つ洞察を提供します。たとえば、ブランド化された単語などの誤認識または見逃した音声入力を、インテントのカスタム語彙に追加したり、インテントに基づく発話として追加したりできます。

会話のデザインをさらに改善するには、以下を参照してください。この記事では、ML を使用して顧客を正確に理解して満足するボットを作成するためのベストプラクティスを概説します。

まとめ

この投稿では、チャットボットの自動テストプロセスを標準化し、開発者や会話デザイナーがボットの設計と開発を効率化し、迅速に反復できるようにするネイティブ機能である Amazon Lex のテストワークベンチを紹介しました。

Amazon Lex のこの新機能をどのように使用するか、フィードバックをお待ちしております。ご質問、バグ、機能リクエストについては、こちらからお問い合わせください。 Amazon Lex の AWS re:Post または AWS サポートの連絡先までお問い合わせください。

詳しくは、をご覧ください。 Amazon Lex のよくある質問と Amazon Lex V2 開発者ガイド.

著者について

サンディープ・スリニバサン AmazonLexチームのプロダクトマネージャーです。人間の行動を熱心に観察する彼は、顧客体験に情熱を注いでいます。彼は目を覚ます時間を人、テクノロジー、そして未来の交差点で過ごします。

グラツィア・ルッソ・ラスナー は、AWS プロフェッショナルサービスの自然言語 AI チームのシニアコンサルタントです。彼女は、さまざまな業界の顧客向けに AWS テクノロジーを使用した会話型 AI ソリューションの設計と開発を専門としています。仕事以外では、週末のビーチ、最新のフィクションの本を読むこと、そして家族を楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
EVMファイナンス。分散型金融のための統一インターフェイス。こちらからアクセスしてください。
クォンタムメディアグループ。 IR/PR増幅。こちらからアクセスしてください。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/

タイムスタンプ： 2023 年 6 月 7 日

生成 AI によるエンタープライズデータの力の活用: Amazon Kendra、LangChain、および大規模言語モデルからの洞察 | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1910724

タイムスタンプ： 2023 年 11 月 7 日

Test Workbench を使用して Amazon Lex チャットボット開発ライフサイクルを促進する | アマゾンウェブサービス

プラトン再発行

テストワークベンチの特徴

前提条件

テストセットを作成する

テストセットの実行

結果を確認する

全体的な結果

会話結果

意図とスロットの結果

詳細な結果

まとめ

著者について

より多くの AWS機械学習

Amazon Polly を使用して話されているテキストを強調表示する | アマゾンウェブサービス

AWS Inferentia と AWS Trainium は、Amazon SageMaker JumpStart | で Llama 3 モデルをデプロイするための最低コストを提供します。アマゾンウェブサービス

消費者の保護とイノベーションの促進 – AI 規制と責任ある AI への信頼の構築

Amazon Rekognition Custom Labels を使用したランドマークの識別

C6i Intel ベースの Amazon EC2 インスタンスで Amazon SageMaker の推論を加速する

生成 AI によるエンタープライズデータの力の活用: Amazon Kendra、LangChain、および大規模言語モデルからの洞察 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー