Amazon Lex est ravi d'annoncer Test Workbench, une nouvelle solution de test de bot qui fournit des outils pour simplifier et automatiser le processus de test de bot. Lors du développement d'un bot, les tests sont la phase au cours de laquelle les développeurs vérifient si un bot répond aux exigences, besoins et attentes spécifiques en identifiant les erreurs, les défauts ou les bogues dans le système avant la mise à l'échelle. Les tests permettent de valider les performances des bots sur plusieurs fronts, tels que le flux conversationnel (comprendre les requêtes des utilisateurs et répondre avec précision), la gestion des chevauchements d'intentions et la cohérence entre les modalités. Cependant, les tests sont souvent manuels, sujets aux erreurs et non standardisés. Test Workbench standardise la gestion automatisée des tests en permettant aux équipes de développement de chatbots de générer, de maintenir et d'exécuter des ensembles de tests avec une méthodologie cohérente et d'éviter les scripts personnalisés et les intégrations ad hoc. Dans cet article, vous apprendrez comment Test Workbench rationalise les tests automatisés des modalités vocales et textuelles d'un bot et fournit des mesures de précision et de performance pour des paramètres tels que la transcription audio, la reconnaissance de l'intention et la résolution des emplacements pour les entrées à énoncé unique et les conversations à plusieurs tours. Cela vous permet d'identifier rapidement les domaines d'amélioration des bots et de maintenir une ligne de base cohérente pour mesurer la précision au fil du temps et observer toute régression de la précision due aux mises à jour des bots.
Amazon Lex est un service entièrement géré pour la création d'interfaces vocales et textuelles conversationnelles. Amazon Lex vous aide à créer et à déployer des chatbots et des assistants virtuels sur des sites Web, des services de centre de contact et des canaux de messagerie. Les bots Amazon Lex aident à augmenter la productivité de la réponse vocale interactive (IVR), à automatiser des tâches simples et à améliorer l'efficacité opérationnelle dans toute l'organisation. Test Workbench pour Amazon Lex normalise et simplifie le cycle de vie des tests de bot, ce qui est essentiel pour améliorer la conception des bots.
Fonctionnalités de Test Workbench
Test Workbench pour Amazon Lex inclut les fonctionnalités suivantes :
- Générez automatiquement des ensembles de données de test à partir des journaux de conversation d'un bot
- Télécharger des lignes de base de jeu de test créées manuellement
- Effectuez des tests de bout en bout des conversations à entrée unique ou à plusieurs tours
- Testez les modalités audio et textuelles d'un bot
- Examinez les métriques agrégées et détaillées pour les dimensions de bot :
- Transcription vocale
- Reconnaissance d'intention
- Résolution d'emplacement (y compris les emplacements à plusieurs valeurs ou les emplacements composites)
- Balises de contexte
- Attributs de session
- Attributs de requête
- Conseils d'exécution
- Temporisation en secondes
Pré-requis
Pour tester cette fonctionnalité, vous devez disposer des éléments suivants :
En outre, vous devez connaître et comprendre les services et fonctionnalités suivants :
Créer un jeu de test
Pour créer votre campagne de test, procédez comme suit :
- Sur le Console Amazon Lex, en dessous de Banc de test dans le volet de navigation, choisissez Ensembles de tests.
Vous pouvez consulter une liste d'ensembles de test existants, y compris des informations de base telles que le nom, la description, le nombre d'entrées de test, la modalité et l'état. Dans les étapes suivantes, vous pouvez choisir entre générer un jeu de test à partir des journaux de conversation associés au bot ou télécharger un jeu de test existant créé manuellement dans un format de fichier CSV.
- Selectionnez Créer un ensemble de test.
- La génération de jeux de test à partir des journaux de conversation vous permet d'effectuer les opérations suivantes :
- Inclure de véritables conversations multi-tours à partir des journaux du bot dans CloudWatch
- Incluez des journaux audio et effectuez des tests qui tiennent compte des nuances réelles de la parole, des bruits de fond et des accents
- Accélérez la création de jeux de test
- L'importation d'un ensemble de tests créé manuellement vous permet d'effectuer les opérations suivantes :
- Tester de nouveaux bots pour lesquels il n'y a pas de données de production
- Effectuez des tests de régression sur les bots existants pour tous les intents, slots et flux de conversation nouveaux ou modifiés
- Testez des scénarios soigneusement élaborés et détaillés qui spécifient les attributs de session et les attributs de requête
Pour générer une campagne de test, procédez comme suit. Pour télécharger un jeu de test créé manuellement, passez à l'étape 7.
- Selectionnez Générer un jeu de test de référence.
- Choisissez vos options pour Nom du robot, Alias du robotet une Connection Linguistique.
- Pour Intervalle de temps, définissez une plage horaire pour les journaux.
- Pour Rôle IAM existant, choisissez un rôle.
Assurez-vous que le rôle IAM est en mesure de vous accorder l'accès pour récupérer des informations à partir des journaux de conversation. Reportez-vous à Création de rôles IAM pour créer un rôle IAM avec la stratégie appropriée.
- Si vous préférez utiliser une campagne de test créée manuellement, sélectionnez Charger un fichier dans cet ensemble de test.
- Pour Charger un fichier dans cet ensemble de test, choisissez parmi les options suivantes :
- Sélectionnez Télécharger à partir du compartiment S3 pour télécharger un fichier CSV à partir d'un Service de stockage simple Amazon (Amazon S3) seau.
- Sélectionnez Charger un fichier dans cet ensemble de test pour télécharger un fichier CSV depuis votre ordinateur.
Vous pouvez utiliser le ensemble de test d'échantillon fourni dans ce post. Pour plus d'informations sur les modèles, choisissez le Modèle CSV lien sur la page.
- Pour Modalité, sélectionnez la modalité de votre jeu de test, soit Texte or Audio.
Test Workbench fournit une prise en charge des tests pour les formats d'entrée audio et texte.
- Pour Emplacement S3, entrez l'emplacement du compartiment S3 où les résultats seront stockés.
- En option, choisissez un Service de gestion des clés AWS (AWS KMS) pour chiffrer les transcriptions de sortie.
- Selectionnez Création.
Votre jeu de test nouvellement créé sera répertorié sur le Ensembles de tests page avec l'un des statuts suivants :
- Prêt pour l'annotation - Pour les ensembles de tests générés à partir des journaux de conversation du bot Amazon Lex, l'étape d'annotation sert de mécanisme de déclenchement manuel pour garantir la qualité des entrées de test. En annotant les valeurs des intentions attendues et des emplacements attendus pour chaque élément de ligne de test, vous indiquez la « vérité de terrain » pour cette ligne. Les résultats des tests de l'exécution du bot sont collectés et comparés à la vérité terrain pour marquer les résultats des tests comme réussis ou échoués. Cette comparaison au niveau de la ligne permet ensuite de créer des mesures agrégées.
- Prêt pour le test – Cela indique que l'ensemble de test est prêt à être exécuté sur un bot Amazon Lex.
- Erreur de validation - Les fichiers de test téléchargés sont vérifiés pour les erreurs telles que le dépassement de la longueur maximale prise en charge, les caractères non valides dans les noms d'intention ou les liens Amazon S3 non valides contenant des fichiers audio. Si l'ensemble de test est dans le Erreur de validation état, téléchargez le fichier montrant les détails de la validation pour voir les problèmes d'entrée de test ou les erreurs ligne par ligne. Une fois qu'ils sont adressés, vous pouvez télécharger manuellement le CSV de l'ensemble de test corrigé dans l'ensemble de test.
Exécution d'un ensemble de tests
Un jeu de test est découplé d'un bot. Le même ensemble de tests peut être exécuté sur un bot ou un alias de bot différent à l'avenir, à mesure que votre cas d'utilisation métier évolue. Pour rapporter les métriques de performances d'un bot par rapport aux données de test de référence, procédez comme suit :
- L’ le robot échantillon définition et construire le bot (reportez-vous à Importation d'un bot à titre indicatif).
- Sur la console Amazon Lex, choisissez Ensembles de tests dans le volet de navigation.
- Choisissez votre jeu de test validé.
Ici, vous pouvez consulter les informations de base sur l'ensemble de test et les données de test importées.
- Selectionnez Exécuter le test.
- Choisissez les options appropriées pour Nom du robot, Alias du robotet une Connection Linguistique.
- Pour Type de test, sélectionnez Audio or Texte.
- Pour Sélection du point final, sélectionnez soit le streaming or Sans streaming.
- Selectionnez Valider l'écart pour valider votre ensemble de données de test.
Avant d'exécuter un ensemble de tests, vous pouvez valider la couverture des tests, y compris l'identification des intentions et des emplacements présents dans l'ensemble de tests mais pas dans le bot. Cet avertissement précoce sert à définir les attentes du testeur en cas d'échecs de test inattendus. Si des écarts entre votre ensemble de données de test et votre bot sont détectés, le Exécuter le test la page sera mise à jour avec le Plus de détails .
Les intentions et les emplacements trouvés dans l'ensemble de données de test mais pas dans l'alias du bot sont répertoriés comme indiqué dans les captures d'écran suivantes.
- Après avoir validé les écarts, choisissez Exécution pour exécuter le test.
Examiner les résultats
Les mesures de performances générées après l'exécution d'un ensemble de tests vous aident à identifier les domaines de la conception du bot qui nécessitent des améliorations et sont utiles pour accélérer le développement et la livraison du bot afin de soutenir vos clients. Test Workbench fournit des informations sur la classification des intentions et la résolution des emplacements dans la conversation de bout en bout et le niveau d'entrée sur une seule ligne. Les exécutions de test terminées sont stockées avec des horodatages dans votre compartiment S3 et peuvent être utilisées pour de futurs examens comparatifs.
- Sur la console Amazon Lex, choisissez Résultats de test dans le volet de navigation.
- Choisissez l'ID de résultat de test pour les résultats que vous souhaitez examiner.
Sur la page suivante, les résultats du test comprendront une ventilation des résultats organisée en quatre onglets principaux : Résultats globaux, résultats de conversation, résultats d'intention et d'emplacement, ainsi que le Résultats détaillés.
Résultats globaux
L'onglet Résultats globaux contient trois sections principales :
- Répartition des entrées de l'ensemble de test — Un graphique indiquant le nombre total de conversations de bout en bout et d'énoncés à entrée unique dans l'ensemble de test.
- Répartition d'entrée unique — Un graphique montrant le nombre d'entrées simples réussies ou échouées.
- Répartition des conversations — Un graphique montrant le nombre d'entrées multi-tours réussies ou échouées.
Pour les ensembles de test exécutés en modalité audio, des graphiques de transcription vocale sont fournis pour indiquer le nombre de transcriptions vocales réussies ou échouées sur les types d'entrée unique et de conversation. Dans la modalité audio, une conversation à entrée unique ou à plusieurs tours peut réussir le test de transcription vocale, mais échouer au test global de bout en bout. Cela peut être causé, par exemple, par une résolution d'emplacement ou un problème de reconnaissance d'intention.
Résultats des conversations
Test Workbench vous aide à explorer les échecs de conversation qui peuvent être attribués à des intentions ou à des créneaux spécifiques. L'onglet Résultats de la conversation est organisé en trois zones principales, couvrant tous les intents et emplacements utilisés dans l'ensemble de test :
- Taux de réussite des conversations — Un tableau utilisé pour visualiser quels intents et slots sont responsables d'éventuels échecs de conversation.
- Métriques d'échec d'intention de conversation — Un graphique à barres montrant les cinq intentions les moins performantes dans l'ensemble de test, le cas échéant.
- Métriques d'échec des créneaux de conversation — Un graphique à barres montrant les cinq emplacements les moins performants de l'ensemble de test, le cas échéant.
Résultats de l'intention et de l'emplacement
L'onglet Résultats d'intention et d'emplacement fournit des métriques détaillées pour les dimensions de bot telles que la reconnaissance d'intention et la résolution d'emplacement.
- Métriques de reconnaissance d'intention — Un tableau indiquant le taux de réussite de la reconnaissance d'intention.
- Métriques de résolution d'emplacement — Un tableau montrant le taux de réussite de la résolution des slots, par
Résultats détaillés
Vous pouvez accéder à un rapport détaillé de l'exécution du test exécuté dans l'onglet Résultats détaillés. Un tableau s'affiche pour montrer la transcription réelle, l'intention de sortie et les valeurs d'emplacement dans une campagne de test. Le rapport peut être téléchargé au format CSV pour une analyse plus approfondie.
La sortie au niveau de la ligne fournit des informations pour aider à améliorer la conception du bot et à augmenter la précision. Par exemple, des entrées vocales mal reconnues ou manquées telles que des mots de marque peuvent être ajoutées au vocabulaire personnalisé d'une intention ou en tant qu'énoncés sous une intention.
Afin d'améliorer encore la conception de la conversation, vous pouvez vous référer à cet article, décrivant les meilleures pratiques d'utilisation du ML pour créer un bot qui ravira vos clients en les comprenant avec précision.
Conclusion
Dans cet article, nous avons présenté Test Workbench pour Amazon Lex, une capacité native qui normalise un processus de test automatisé de chatbot et permet aux développeurs et aux concepteurs de conversations de rationaliser et d'itérer rapidement dans la conception et le développement de bot.
Nous attendons avec impatience de savoir comment vous utilisez cette nouvelle fonctionnalité d'Amazon Lex et nous vous invitons à nous faire part de vos commentaires ! Pour toute question, bogue ou demande de fonctionnalité, veuillez nous contacter via AWS re:Post pour Amazon Lex ou vos contacts AWS Support.
Pour en savoir plus, voir FAQ sur Amazon Lex et par Guide du développeur Amazon Lex V2.
À propos des auteurs
Sandeep Srinivasan est chef de produit au sein de l'équipe Amazon Lex. Fin observateur du comportement humain, il est passionné par l'expérience client. Il passe ses heures éveillées à l'intersection des personnes, de la technologie et de l'avenir.
Grazia Russo Lasner est consultant senior au sein de l'équipe AWS Professional Services Natural Language AI. Elle se spécialise dans la conception et le développement de solutions d'IA conversationnelles utilisant les technologies AWS pour des clients de divers secteurs. En dehors du travail, elle aime les week-ends à la plage, la lecture des derniers livres de fiction et la famille.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Financement EVM. Interface unifiée pour la finance décentralisée. Accéder ici.
- Groupe de médias quantiques. IR/PR amplifié. Accéder ici.
- PlatoAiStream. Intelligence des données Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/
- :est
- :ne pas
- :où
- $UP
- 10
- 100
- 500
- 610
- 7
- 9
- a
- Capable
- A Propos
- accès
- Compte
- précision
- avec précision
- à travers
- présenter
- ajoutée
- ajout
- Après
- à opposer à
- AI
- Tous
- Permettre
- permet
- Amazon
- Amazon Lex
- Amazon Web Services
- an
- selon une analyse de l’Université de Princeton
- ainsi que le
- Annoncer
- tous
- approprié
- SONT
- domaines
- AS
- assistants
- associé
- At
- attributs
- acoustique
- automatiser
- Automatisation
- automatiquement
- éviter
- AWS
- Services professionnels AWS
- fond
- barre
- Baseline
- Essentiel
- base
- BE
- Plage
- before
- LES MEILLEURS
- les meilleures pratiques
- jusqu'à XNUMX fois
- Livres
- renforcer
- Bot
- tous les deux
- les robots
- marqué
- Breakdown
- bogues
- construire
- Développement
- construit
- la performance des entreprises
- mais
- bouton (dans la fenêtre de contrôle qui apparaît maintenant)
- by
- CAN
- prudemment
- maisons
- causé
- Canaux centraux
- Voies
- caractères
- Graphique
- Charts
- Chatbot
- Chatbots
- vérifier
- vérifié
- Selectionnez
- classification
- par rapport
- Comparaison
- complet
- Complété
- ordinateur
- Conduire
- cohérent
- Console
- consultant
- contact
- centre de contact
- Contacts
- contient
- Conversation
- de la conversation
- IA conversationnel
- conversations
- corrigé
- pourriez
- couverture
- couvrant
- engendrent
- créée
- La création
- création
- critique
- Customiser
- des clients
- expérience client
- Clients
- données
- ensemble de données
- ensembles de données
- retarder
- ravir
- page de livraison.
- déployer
- la description
- Conception
- designers
- conception
- détaillé
- détails
- détecté
- Développeur
- mobiles
- développement
- Développement
- différent
- dimensions
- do
- down
- download
- motivation
- deux
- pendant
- chacun
- "Early Bird"
- efficacité
- non plus
- end-to-end
- assurer
- Entrer
- erreur
- Erreurs
- évolue
- dépassement
- excité
- exécuter
- réalisé
- exécution
- existant
- attente
- attentes
- attendu
- d'experience
- FAIL
- Échoué
- Échec
- famille
- Fonctionnalité
- Fonctionnalités:
- Fiction
- Déposez votre dernière attestation
- Fichiers
- flux
- Abonnement
- Pour
- le format
- Avant
- trouvé
- quatre
- De
- d’étiquettes électroniques entièrement
- plus
- avenir
- générer
- généré
- générateur
- subvention
- graphique
- Sol
- l'orientation
- Maniabilité
- Vous avez
- he
- entendre
- vous aider
- aide
- sa
- HEURES
- Comment
- Cependant
- HTML
- http
- HTTPS
- humain
- ID
- identifier
- identifier
- if
- l'importation
- améliorer
- amélioration
- améliorations
- l'amélioration de
- in
- comprendre
- inclut
- Y compris
- Améliore
- indiquer
- indique
- secteurs
- d'information
- contribution
- entrées
- idées.
- instance
- intégrations
- intention
- Interactif
- interfaces
- intersection
- développement
- aide
- vous aider à faire face aux problèmes qui vous perturbent
- jpg
- Vif
- ACTIVITES
- spécialisées
- langue
- Nouveautés
- APPRENTISSAGE
- Longueur
- Niveau
- vos produits
- Gamme
- LINK
- Gauche
- Liste
- Listé
- emplacement
- Style
- Entrée
- maintenir
- gérés
- gestion
- manager
- Manuel
- manuellement
- marque
- maximales
- mesurer
- les mesures
- mécanisme
- Se rencontre
- messagerie
- Méthodologie
- Métrique
- manqué
- ML
- modifié
- PLUS
- prénom
- noms
- indigène
- Nature
- Navigation
- Besoin
- Besoins
- Nouveauté
- nouvellement
- next
- aucune
- nombre
- observer
- of
- souvent
- on
- une fois
- ONE
- opérationnel
- Options
- or
- de commander
- organisation
- Organisé
- sortie
- au contrôle
- plus de
- global
- page
- pain
- paramètres
- pass
- passé
- passionné
- Personnes
- performant
- effectuer
- phase
- Platon
- Intelligence des données Platon
- PlatonDonnées
- veuillez cliquer
- politique
- possible
- Post
- pratiques
- préfère
- représentent
- présenté
- processus
- Produit
- chef de produit
- Vidéo
- productivité
- professionels
- à condition de
- fournit
- qualité
- requêtes
- fréquemment posées
- vite.
- gamme
- Tarif
- RE
- nous joindre
- en cours
- solutions
- réal
- reconnaissance
- rapport
- nécessaire
- demandes
- Exigences
- Résolution
- répondre
- réponse
- responsables
- résultat
- Résultats
- Avis
- Avis
- Rôle
- Courir
- même
- mise à l'échelle
- scénarios
- screenshots
- les sections
- sur le lien
- supérieur
- sert
- service
- Services
- Session
- set
- Sets
- plusieurs
- elle
- devrait
- montrer
- montré
- étapes
- simplifier
- unique
- fentes
- sur mesure
- Solutions
- spécialise
- groupe de neurones
- discours
- Région
- Statut
- étapes
- Étapes
- storage
- stockée
- rationaliser
- succès
- tel
- Support
- Appareils
- combustion propre
- table
- tâches
- équipe
- équipes
- Les technologies
- Technologie
- modèles
- tester
- Essais
- tests
- qui
- La
- El futuro
- Les
- puis
- Là.
- l'ont
- this
- trois
- Avec
- fiable
- à
- les outils
- top
- Total
- Vérité
- types
- sous
- compréhension
- Inattendu
- Mises à jour
- Actualités
- Téléchargement
- us
- utilisé
- cas d'utilisation
- d'utiliser
- Utilisateur
- en utilisant
- VALIDER
- validé
- validation
- Valeurs
- divers
- Salle de conférence virtuelle
- Voix
- souhaitez
- avertissement
- we
- web
- services Web
- sites Internet
- bienvenu
- que
- qui
- sera
- comprenant
- des mots
- activités principales
- pire
- encore
- Vous n'avez
- Votre
- zéphyrnet
- Zip