অ্যামাজন লেক্স is excited to announce Test Workbench, a new bot testing solution that provides tools to simplify and automate the bot testing process. During bot development, testing is the phase where developers check whether a bot meets the specific requirements, needs and expectations by identifying errors, defects, or bugs in the system before scaling. Testing helps validate bot performance on several fronts such as conversational flow (understanding user queries and responding accurately), intent overlap handling, and consistency across modalities. However, testing is often manual, error-prone, and non-standardized. Test Workbench standardizes automated test management by allowing chatbot development teams to generate, maintain, and execute test sets with a consistent methodology and avoid custom scripting and ad-hoc integrations. In this post, you will learn how Test Workbench streamlines automated testing of a bot’s voice and text modalities and provides accuracy and performance measures for parameters such as audio transcription, intent recognition, and slot resolution for both single utterance inputs and multi-turn conversations. This allows you to quickly identify bot improvement areas and maintain a consistent baseline to measure accuracy over time and observe any accuracy regression due to bot updates.
Amazon Lex is a fully managed service for building conversational voice and text interfaces. Amazon Lex helps you build and deploy chatbots and virtual assistants on websites, contact center services, and messaging channels. Amazon Lex bots help increase interactive voice response (IVR) productivity, automate simple tasks, and drive operational efficiencies across the organization. Test Workbench for Amazon Lex standardizes and simplifies the bot testing lifecycle, which is critical to improving bot design.
Features of Test Workbench
Test Workbench for Amazon Lex includes the following features:
- Generate test datasets automatically from a bot’s conversation logs
- Upload manually built test set baselines
- Perform end-to-end testing of single input or multi-turn conversations
- Test both audio and text modalities of a bot
- Review aggregated and drill-down metrics for bot dimensions:
- Speech transcription
- অভিপ্রায় স্বীকৃতি
- Slot resolution (including multi-valued slots or composite slots)
- Context tags
- সেশনের বৈশিষ্ট্য
- Request attributes
- Runtime hints
- Time delay in seconds
পূর্বশর্ত
To test this feature, you should have the following:
In addition, you should have knowledge and understanding of the following services and features:
Create a test set
To create your test set, complete the following steps:
- উপরে অ্যামাজন লেক্স কনসোল, অধীন অধীন Test workbench নেভিগেশন ফলকে, নির্বাচন করুন Test sets.
You can review a list of existing test sets, including basic information such as name, description, number of test inputs, modality, and status. In the following steps, you can choose between generating a test set from the conversation logs associated with the bot or uploading an existing manually built test set in a CSV file format.
- বেছে নিন পরীক্ষার সেট তৈরি করুন.
- Generating test sets from conversation logs allows you to do the following:
- Include real multi-turn conversations from the bot’s logs in CloudWatch
- Include audio logs and conduct tests that account for real speech nuances, background noises, and accents
- Speed up the creation of test sets
- Uploading a manually built test set allows you to do the following:
- Test new bots for which there is no production data
- Perform regression tests on existing bots for any new or modified intents, slots, and conversation flows
- Test carefully crafted and detailed scenarios that specify session attributes and request attributes
To generate a test set, complete the following steps. To upload a manually built test set, skip to step 7.
- বেছে নিন Generate a baseline test set.
- Choose your options for বট নাম, Bot alias, এবং ভাষা.
- জন্য সময় পরিসীমা, set a time range for the logs.
- জন্য বিদ্যমান IAM ভূমিকা, একটি ভূমিকা চয়ন করুন.
Ensure that the IAM role is able to grant you access to retrieve information from the conversation logs. Refer to Creating IAM roles to create an IAM role with the appropriate policy.
- If you prefer to use a manually created test set, select Upload a file to this test set.
- জন্য Upload a file to this test set, choose from the following options:
- নির্বাচন করা Upload from S3 bucket to upload a CSV file from an আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3) বালতি।
- নির্বাচন করা Upload a file to this test set to upload a CSV file from your computer.
আপনি ব্যবহার করতে পারেন sample test set provided in this post. For more information about templates, choose the CSV Template link on the page.
- জন্য প্রকারতা, select the modality of your test set, either পাঠ or Audio.
Test Workbench provides testing support for audio and text input formats.
- জন্য S3 অবস্থান, enter the S3 bucket location where the results will be stored.
- Optionally, choose an AWS কী ব্যবস্থাপনা পরিষেবা (AWS KMS) key to encrypt output transcripts.
- বেছে নিন সৃষ্টি.
Your newly created test set will be listed on the Test sets page with one of the following statuses:
- Ready for annotation – For test sets generated from Amazon Lex bot conversation logs, the annotation step serves as a manual gating mechanism to ensure quality test inputs. By annotating values for expected intents and expected slots for each test line item, you indicate the “ground truth” for that line. The test results from the bot run are collected and compared against the ground truth to mark test results as pass or fail. This line level comparison then allows for creating aggregated measures.
- Ready for testing – This indicates that the test set is ready to be executed against an Amazon Lex bot.
- Validation error – Uploaded test files are checked for errors such as exceeding maximum supported length, invalid characters in intent names, or invalid Amazon S3 links containing audio files. If the test set is in the বৈধতা ত্রুটি state, download the file showing the validation details to see test input issues or errors on a line-by-line basis. Once they are addressed, you can manually upload the corrected test set CSV into the test set.
Executing a test set
A test set is de-coupled from a bot. The same test set can be executed against a different bot or bot alias in the future as your business use case evolves. To report performance metrics of a bot against the baseline test data, complete the following steps:
- আমদানি the sample bot definition and build the bot (refer to Importing a bot for guidance).
- অ্যামাজন লেক্স কনসোলে, নির্বাচন করুন Test sets নেভিগেশন ফলকে।
- Choose your validated test set.
Here you can review basic information about the test set and the imported test data.
- বেছে নিন পরীক্ষা চালান.
- Choose the appropriate options for বট নাম, Bot alias, এবং ভাষা.
- জন্য পরীক্ষার ধরণ, নির্বাচন করুন Audio or পাঠ.
- জন্য Endpoint selection, নির্বাচন করুন স্ট্রীমিং or Non-streaming.
- বেছে নিন Validate discrepancy to validate your test dataset.
Before executing a test set, you can validate test coverage, including identifying intents and slots present in the test set but not in the bot. This early warning serves to set tester expectation for unexpected test failures. If discrepancies between your test dataset and your bot are detected, the পরীক্ষা চালান page will update with the বিস্তারিত দেখুন বোতাম.
Intents and slots found in the test data set but not in the bot alias are listed as shown in the following screenshots.
- After you validate the discrepancies, choose এক্সিকিউট পরীক্ষা চালানোর জন্য।
ফলাফল পর্যালোচনা করুন
The performance measures generated after executing a test set help you identify areas of bot design that need improvements and are useful for expediting bot development and delivery to support your customers. Test Workbench provides insights on intent classification and slot resolution in end-to-end conversation and single-line input level. The completed test runs are stored with timestamps in your S3 bucket, and can be used for future comparative reviews.
- অ্যামাজন লেক্স কনসোলে, নির্বাচন করুন পরীক্ষার ফলাফল নেভিগেশন ফলকে।
- Choose the test result ID for the results you want to review.
On the next page, the test results will include a breakdown of results organized in four main tabs: Overall results, Conversation results, Intent and slot results, এবং Detailed results.
সামগ্রিক ফলাফল
The Overall results tab contains three main sections:
- Test set input breakdown — A chart showing the total number of end-to-end conversations and single input utterances in the test set.
- Single input breakdown — A chart showing the number of passed or failed single inputs.
- Conversation breakdown — A chart showing the number of passed or failed multi-turn inputs.
For test sets run in audio modality, speech transcription charts are provided to show the number of passed or failed speech transcriptions on both single input and conversation types. In audio modality, a single input or multi-turn conversation could pass the speech transcription test, yet fail the overall end-to-end test. This can be caused, for instance, by a slot resolution or an intent recognition issue.
Conversation results
Test Workbench helps you drill down into conversation failures that can be attributed to specific intents or slots. The Conversation results tab is organized into three main areas, covering all intents and slots used in the test set:
- Conversation pass rates — A table used to visualize which intents and slots are responsible for possible conversation failures.
- Conversation intent failure metrics — A bar graph showing the top five worst performing intents in the test set, if any.
- Conversation slot failure metrics — A bar graph showing the top five worst performing slots in the test set, if any.
Intent and slot results
The Intent and slot results tab provides drill-down metrics for bot dimensions such as intent recognition and slot resolution.
- Intent recognition metrics — A table showing the intent recognition success rate.
- Slot resolution metrics — A table showing the slot resolution success rate, by
Detailed results
You can access a detailed report of the executed test run on the Detailed results tab. A table is displayed to show the actual transcription, output intent, and slot values in a test set. The report can be downloaded as a CSV for further analysis.
The line-level output provides insights to help improve the bot design and boost accuracy. For instance, misrecognized or missed speech inputs such as branded words can be added to custom vocabulary of an intent or as utterances under an intent.
In order to further improve conversation design, you can refer to এই পোস্ট, outlining best practices on using ML to create a bot that will delight your customers by accurately understanding them.
উপসংহার
In this post, we presented the Test Workbench for Amazon Lex, a native capability that standardizes a chatbot automated testing process and allows developers and conversation designers to streamline and iterate quickly through bot design and development.
We look forward to hearing how you use this new functionality of Amazon Lex and welcome feedback! For any questions, bugs, or feature requests, please reach us through AWS re:Amazon Lex-এর জন্য পোস্ট or your AWS Support contacts.
আরও জানতে, দেখুন Amazon Lex FAQs এবং Amazon Lex V2 বিকাশকারী গাইড.
লেখক সম্পর্কে
সন্দীপ শ্রীনিবাসন অ্যামাজন লেক্স টিমের একজন প্রোডাক্ট ম্যানেজার। মানুষের আচরণের তীক্ষ্ণ পর্যবেক্ষক হিসাবে, তিনি গ্রাহক অভিজ্ঞতা সম্পর্কে উত্সাহী। তিনি তার জেগে থাকা সময়গুলি মানুষ, প্রযুক্তি এবং ভবিষ্যতের সংযোগস্থলে ব্যয় করেন।
গ্রাজিয়া রুশো ল্যাসনার এডব্লিউএস প্রফেশনাল সার্ভিসেস ন্যাচারাল ল্যাঙ্গুয়েজ এআই টিমের একজন সিনিয়র কনসালটেন্ট। তিনি বিভিন্ন শিল্পে গ্রাহকদের জন্য AWS প্রযুক্তি ব্যবহার করে কথোপকথনমূলক AI সমাধানগুলি ডিজাইন এবং বিকাশে বিশেষজ্ঞ। কাজের বাইরে, তিনি সৈকত সপ্তাহান্তে উপভোগ করেন, সর্বশেষ কথাসাহিত্যের বই পড়া এবং পরিবার।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- ইভিএম ফাইন্যান্স। বিকেন্দ্রীভূত অর্থের জন্য ইউনিফাইড ইন্টারফেস। এখানে প্রবেশ করুন.
- কোয়ান্টাম মিডিয়া গ্রুপ। IR/PR প্রশস্ত। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ডেটা ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/
- : হয়
- :না
- :কোথায়
- $ ইউপি
- 10
- 100
- 500
- 610
- 7
- 9
- a
- সক্ষম
- সম্পর্কে
- প্রবেশ
- হিসাব
- সঠিকতা
- সঠিক
- দিয়ে
- আসল
- যোগ
- যোগ
- পর
- বিরুদ্ধে
- AI
- সব
- অনুমতি
- অনুমতি
- মর্দানী স্ত্রীলোক
- অ্যামাজন লেক্স
- অ্যামাজন ওয়েব সার্ভিসেস
- an
- বিশ্লেষণ
- এবং
- ঘোষণা করা
- কোন
- যথাযথ
- রয়েছি
- এলাকার
- AS
- সহায়ক
- যুক্ত
- At
- বৈশিষ্ট্যাবলী
- অডিও
- স্বয়ংক্রিয় পদ্ধতি প্রয়োগ করা
- অটোমেটেড
- স্বয়ংক্রিয়ভাবে
- এড়াতে
- ডেস্কটপ AWS
- AWS প্রফেশনাল সার্ভিসেস
- পটভূমি
- বার
- বেসলাইন
- মৌলিক
- ভিত্তি
- BE
- সৈকত
- আগে
- সর্বোত্তম
- সেরা অভ্যাস
- মধ্যে
- বই
- সাহায্য
- বট
- উভয়
- বট
- দাগী
- ভাঙ্গন
- বাগ
- নির্মাণ করা
- ভবন
- নির্মিত
- ব্যবসায়
- কিন্তু
- বোতাম
- by
- CAN
- সাবধানে
- কেস
- ঘটিত
- কেন্দ্র
- চ্যানেল
- অক্ষর
- তালিকা
- চার্ট
- chatbot
- chatbots
- চেক
- চেক করা হয়েছে
- বেছে নিন
- শ্রেণীবিন্যাস
- তুলনা
- তুলনা
- সম্পূর্ণ
- সম্পন্ন হয়েছে
- কম্পিউটার
- আচার
- সঙ্গত
- কনসোল
- পরামর্শকারী
- যোগাযোগ
- যোগাযোগ কেন্দ্র
- যোগাযোগ
- ধারণ
- কথোপকথন
- কথ্য
- কথোপকথন এআই
- কথোপকথন
- সংশোধিত
- পারা
- কভারেজ
- আচ্ছাদন
- সৃষ্টি
- নির্মিত
- তৈরি করা হচ্ছে
- সৃষ্টি
- সংকটপূর্ণ
- প্রথা
- ক্রেতা
- গ্রাহক অভিজ্ঞতা
- গ্রাহকদের
- উপাত্ত
- তথ্য সেট
- ডেটাসেট
- বিলম্ব
- আমোদ
- বিলি
- স্থাপন
- বিবরণ
- নকশা
- ডিজাইনার
- ফন্দিবাজ
- বিশদ
- বিস্তারিত
- সনাক্ত
- বিকাশকারী
- ডেভেলপারদের
- উন্নয়নশীল
- উন্নয়ন
- বিভিন্ন
- মাত্রা
- do
- নিচে
- ডাউনলোড
- ড্রাইভ
- কারণে
- সময়
- প্রতি
- গোড়ার দিকে
- দক্ষতা
- পারেন
- সর্বশেষ সীমা
- নিশ্চিত করা
- প্রবেশ করান
- ভুল
- ত্রুটি
- বিকশিত হয়
- মাত্রাধিক
- উত্তেজিত
- এক্সিকিউট
- নিষ্পন্ন
- নির্বাহ
- বিদ্যমান
- প্রত্যাশা
- প্রত্যাশা
- প্রত্যাশিত
- অভিজ্ঞতা
- ব্যর্থ
- ব্যর্থ
- ব্যর্থতা
- পরিবার
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- উপন্যাস
- ফাইল
- নথি পত্র
- প্রবাহ
- অনুসরণ
- জন্য
- বিন্যাস
- অগ্রবর্তী
- পাওয়া
- চার
- থেকে
- সম্পূর্ণরূপে
- কার্যকারিতা
- অধিকতর
- ভবিষ্যৎ
- উত্পাদন করা
- উত্পন্ন
- উৎপাদিত
- প্রদান
- চিত্রলেখ
- স্থল
- পথপ্রদর্শন
- হ্যান্ডলিং
- আছে
- he
- শ্রবণ
- সাহায্য
- সাহায্য
- তার
- ঘন্টার
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- মানবীয়
- ID
- সনাক্ত করা
- চিহ্নিতকরণের
- if
- আমদানি
- উন্নত করা
- উন্নতি
- উন্নতি
- উন্নতি
- in
- অন্তর্ভুক্ত করা
- অন্তর্ভুক্ত
- সুদ্ধ
- বৃদ্ধি
- ইঙ্গিত
- ইঙ্গিত
- শিল্প
- তথ্য
- ইনপুট
- ইনপুট
- অর্ন্তদৃষ্টি
- উদাহরণ
- ঐক্যবদ্ধতার
- অভিপ্রায়
- ইন্টারেক্টিভ
- ইন্টারফেসগুলি
- ছেদ
- মধ্যে
- সমস্যা
- সমস্যা
- JPG
- উত্সাহী
- চাবি
- জ্ঞান
- ভাষা
- সর্বশেষ
- শিখতে
- লম্বা
- উচ্চতা
- জীবনচক্র
- লাইন
- LINK
- লিঙ্ক
- তালিকা
- তালিকাভুক্ত
- অবস্থান
- দেখুন
- প্রধান
- বজায় রাখা
- পরিচালিত
- ব্যবস্থাপনা
- পরিচালক
- ম্যানুয়াল
- ম্যানুয়ালি
- ছাপ
- সর্বাধিক
- মাপ
- পরিমাপ
- পদ্ধতি
- পূরণ
- মেসেজিং
- প্রণালী বিজ্ঞান
- ছন্দোবিজ্ঞান
- মিস
- ML
- পরিবর্তিত
- অধিক
- নাম
- নাম
- স্থানীয়
- প্রাকৃতিক
- ন্যাভিগেশন
- প্রয়োজন
- চাহিদা
- নতুন
- সদ্য
- পরবর্তী
- না।
- সংখ্যা
- মান্য করা
- of
- প্রায়ই
- on
- একদা
- ONE
- কর্মক্ষম
- অপশন সমূহ
- or
- ক্রম
- সংগঠন
- সংগঠিত
- আউটপুট
- বাহিরে
- শেষ
- সামগ্রিক
- পৃষ্ঠা
- শার্সি
- পরামিতি
- পাস
- গৃহীত
- কামুক
- সম্প্রদায়
- কর্মক্ষমতা
- করণ
- ফেজ
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- দয়া করে
- নীতি
- সম্ভব
- পোস্ট
- চর্চা
- পছন্দ করা
- বর্তমান
- উপস্থাপন
- প্রক্রিয়া
- পণ্য
- পণ্য ব্যবস্থাপক
- উত্পাদনের
- প্রমোদ
- পেশাদারী
- প্রদত্ত
- উপলব্ধ
- গুণ
- প্রশ্নের
- প্রশ্ন
- দ্রুত
- পরিসর
- হার
- RE
- নাগাল
- পড়া
- প্রস্তুত
- বাস্তব
- স্বীকার
- রিপোর্ট
- অনুরোধ
- অনুরোধ
- আবশ্যকতা
- সমাধান
- উত্তরদায়ক
- প্রতিক্রিয়া
- দায়ী
- ফল
- ফলাফল
- এখানে ক্লিক করুন
- পর্যালোচনা
- ভূমিকা
- চালান
- একই
- আরোহী
- পরিস্থিতিতে
- স্ক্রিনশট
- বিভাগে
- দেখ
- জ্যেষ্ঠ
- স্থল
- সেবা
- সেবা
- সেশন
- সেট
- সেট
- বিভিন্ন
- সে
- উচিত
- প্রদর্শনী
- প্রদর্শিত
- সহজ
- সহজতর করা
- একক
- স্লট মেশিন
- সমাধান
- সলিউশন
- বিশেষ
- নির্দিষ্ট
- বক্তৃতা
- রাষ্ট্র
- অবস্থা
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- সঞ্চিত
- স্ট্রিমলাইন
- সাফল্য
- এমন
- সমর্থন
- সমর্থিত
- পদ্ধতি
- টেবিল
- কাজ
- টীম
- দল
- প্রযুক্তি
- প্রযুক্তিঃ
- টেমপ্লেট
- পরীক্ষা
- পরীক্ষামূলক
- পরীক্ষা
- যে
- সার্জারির
- ভবিষ্যৎ
- তাহাদিগকে
- তারপর
- সেখানে।
- তারা
- এই
- তিন
- দ্বারা
- সময়
- থেকে
- সরঞ্জাম
- শীর্ষ
- মোট
- সত্য
- ধরনের
- অধীনে
- বোধশক্তি
- অপ্রত্যাশিত
- আপডেট
- আপডেট
- আপলোড
- us
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহার
- যাচাই করুন
- যাচাই
- বৈধতা
- মানগুলি
- বিভিন্ন
- ভার্চুয়াল
- কণ্ঠস্বর
- প্রয়োজন
- সতর্কবার্তা
- we
- ওয়েব
- ওয়েব সার্ভিস
- ওয়েবসাইট
- স্বাগত
- কিনা
- যে
- ইচ্ছা
- সঙ্গে
- শব্দ
- হয়া যাই ?
- খারাপ
- এখনো
- আপনি
- আপনার
- zephyrnet
- ফ্যাস্ শব্দ