Amazon Lex er glade for at annoncere Test Workbench, en ny bottestløsning, der giver værktøjer til at forenkle og automatisere bottestprocessen. Under botudvikling er test den fase, hvor udviklere tjekker, om en bot opfylder de specifikke krav, behov og forventninger, ved at identificere fejl, defekter eller fejl i systemet før skalering. Testning hjælper med at validere bot-ydeevne på flere fronter, såsom samtaleflow (forståelse af brugerforespørgsler og svare præcist), håndtering af hensigtsoverlapning og konsistens på tværs af modaliteter. Test er dog ofte manuel, fejltilbøjelig og ikke-standardiseret. Test Workbench standardiserer automatiseret teststyring ved at tillade chatbot-udviklingsteams at generere, vedligeholde og udføre testsæt med en ensartet metode og undgå tilpasset scripting og ad-hoc-integrationer. I dette indlæg vil du lære, hvordan Test Workbench strømliner automatiseret test af en bots stemme- og tekstmodaliteter og giver nøjagtighed og ydeevnemål for parametre som lydtransskription, hensigtsgenkendelse og slotopløsning for både input af enkelt ytring og samtaler med flere sving. Dette giver dig mulighed for hurtigt at identificere botforbedringsområder og opretholde en ensartet baseline for at måle nøjagtighed over tid og observere enhver nøjagtighedsregression på grund af botopdateringer.
Amazon Lex er en fuldt administreret tjeneste til opbygning af samtale-stemme- og tekstgrænseflader. Amazon Lex hjælper dig med at bygge og implementere chatbots og virtuelle assistenter på websteder, kontaktcentertjenester og meddelelseskanaler. Amazon Lex-bots hjælper med at øge produktiviteten til interaktiv stemmesvar (IVR), automatisere simple opgaver og drive operationel effektivitet på tværs af organisationen. Test Workbench for Amazon Lex standardiserer og forenkler bottestens livscyklus, hvilket er afgørende for at forbedre botdesignet.
Funktioner af Test Workbench
Test Workbench til Amazon Lex inkluderer følgende funktioner:
- Generer testdatasæt automatisk fra en bots samtalelogfiler
- Upload manuelt bygget testsæt-baselines
- Udfør end-to-end test af enkelt input eller multi-turn samtaler
- Test både lyd- og tekstmodaliteter i en bot
- Gennemgå aggregerede og detaljerede metrics for bot-dimensioner:
- Taletransskription
- Hensigtsgenkendelse
- Slotopløsning (inklusive slots med flere værdier eller sammensatte slots)
- Kontekst tags
- Session attributter
- Anmod om attributter
- Runtime tip
- Tidsforsinkelse i sekunder
Forudsætninger
For at teste denne funktion skal du have følgende:
Derudover bør du have viden om og forståelse for følgende tjenester og funktioner:
Opret et testsæt
For at oprette dit testsæt skal du udføre følgende trin:
- På Amazon Lex konsol, under Test arbejdsbord i navigationsruden skal du vælge Test sæt.
Du kan gennemgå en liste over eksisterende testsæt, herunder grundlæggende oplysninger såsom navn, beskrivelse, antal testinput, modalitet og status. I de følgende trin kan du vælge mellem at generere et testsæt fra de samtalelogfiler, der er knyttet til botten, eller at uploade et eksisterende manuelt bygget testsæt i et CSV-filformat.
- Vælg Opret testsæt.
- Generering af testsæt fra samtalelogfiler giver dig mulighed for at gøre følgende:
- Inkluder ægte multi-turn-samtaler fra botens logfiler i CloudWatch
- Inkluder lydlogfiler og udfør test, der tager højde for reelle talenuancer, baggrundsstøj og accenter
- Fremskynd oprettelsen af testsæt
- Upload af et manuelt bygget testsæt giver dig mulighed for at gøre følgende:
- Test nye bots, som der ikke er produktionsdata for
- Udfør regressionstest på eksisterende bots for nye eller ændrede hensigter, slots og samtaleforløb
- Test omhyggeligt udformede og detaljerede scenarier, der specificerer sessionsattributter og anmodningsattributter
For at generere et testsæt skal du udføre følgende trin. Gå til trin 7 for at uploade et manuelt bygget testsæt.
- Vælg Generer et baseline-testsæt.
- Vælg dine muligheder for Bot navn, Bot aliasog Sprog.
- Til Tidsinterval, indstil et tidsinterval for logfilerne.
- Til Eksisterende IAM-rolle, vælg en rolle.
Sørg for, at IAM-rollen er i stand til at give dig adgang til at hente oplysninger fra samtaleloggene. Se Oprettelse af IAM-roller at skabe en IAM-rolle med den relevante politik.
- Hvis du foretrækker at bruge et manuelt oprettet testsæt, skal du vælge Upload en fil til dette testsæt.
- Til Upload en fil til dette testsæt, vælg mellem følgende muligheder:
- Type Upload fra S3 bucket at uploade en CSV-fil fra en Amazon Simple Storage Service (Amazon S3) spand.
- Type Upload en fil til dette testsæt for at uploade en CSV-fil fra din computer.
Du kan bruge prøvesæt angivet i dette indlæg. For mere information om skabeloner, vælg CSV skabelon link på siden.
- Til Modalitet, skal du enten vælge modaliteten for dit testsæt tekst or Audio.
Test Workbench giver testunderstøttelse af lyd- og tekstinputformater.
- Til S3 placering, skal du indtaste S3-bøttens placering, hvor resultaterne vil blive gemt.
- Vælg eventuelt en AWS Key Management Service (AWS KMS) nøgle til at kryptere outputtransskriptioner.
- Vælg Opret.
Dit nyoprettede testsæt vil blive vist på Test sæt side med en af følgende statusser:
- Klar til annotering – For testsæt, der er genereret fra Amazon Lex bot-samtalelogfiler, tjener annoteringstrinnet som en manuel portmekanisme for at sikre kvalitetstestinput. Ved at annotere værdier for forventede hensigter og forventede slots for hver testlinjepost angiver du "grundsandheden" for den linje. Testresultaterne fra botkørslen indsamles og sammenlignes med sandheden for at markere testresultater som bestået eller ikke. Denne sammenligning på linjeniveau giver derefter mulighed for at oprette aggregerede mål.
- Klar til test – Dette indikerer, at testsættet er klar til at blive udført mod en Amazon Lex-bot.
- Valideringsfejl – Uploadede testfiler kontrolleres for fejl, såsom overskridelse af den maksimale understøttede længde, ugyldige tegn i hensigtsnavne eller ugyldige Amazon S3-links, der indeholder lydfiler. Hvis testsættet er i Valideringsfejl tilstand, download filen, der viser valideringsdetaljerne for at se testinputproblemer eller fejl på linje for linje. Når de er rettet, kan du manuelt uploade det korrigerede testsæt CSV til testsættet.
Udførelse af et testsæt
Et testsæt er afkoblet fra en bot. Det samme testsæt kan udføres mod en anden bot eller bot-alias i fremtiden, efterhånden som din business use case udvikler sig. Udfør følgende trin for at rapportere præstationsmålinger for en bot i forhold til baseline-testdata:
- Importere prøve-bot definition og byg botten (se Import af en bot til vejledning).
- På Amazon Lex-konsollen skal du vælge Test sæt i navigationsruden.
- Vælg dit validerede testsæt.
Her kan du gennemgå grundlæggende oplysninger om testsættet og de importerede testdata.
- Vælg Udfør test.
- Vælg de passende muligheder for Bot navn, Bot aliasog Sprog.
- Til Testtype, Vælg Audio or tekst.
- Til Valg af slutpunkt, vælg enten Streaming or Ikke-streaming.
- Vælg Bekræft uoverensstemmelse for at validere dit testdatasæt.
Før du udfører et testsæt, kan du validere testdækning, herunder at identificere hensigter og slots, der er til stede i testsættet, men ikke i botten. Denne tidlige advarsel tjener til at indstille testerens forventninger til uventede testfejl. Hvis der opdages uoverensstemmelser mellem dit testdatasæt og din bot, Udfør test siden opdateres med Se detaljer .
Hensigter og slots fundet i testdatasættet, men ikke i bot-aliaset, er angivet som vist i de følgende skærmbilleder.
- Når du har valideret uoverensstemmelserne, skal du vælge Udfør at køre testen.
Gennemgå resultater
De præstationsmål, der genereres efter udførelse af et testsæt, hjælper dig med at identificere områder af botdesign, der har brug for forbedringer, og som er nyttige til at fremskynde botudvikling og -levering for at støtte dine kunder. Test Workbench giver indsigt i hensigtsklassificering og slotopløsning i ende-til-ende-samtale og enkeltlinje-inputniveau. De gennemførte testkørsler gemmes med tidsstempler i din S3-spand og kan bruges til fremtidige sammenlignende anmeldelser.
- På Amazon Lex-konsollen skal du vælge Test resultater i navigationsruden.
- Vælg testresultat-id'et for de resultater, du vil gennemgå.
På næste side vil testresultaterne omfatte en opdeling af resultater organiseret i fire hovedfaner: Samlede resultater, samtaleresultater, hensigts- og slotresultater, , Detaljerede resultater.
Samlede resultater
Fanen Samlede resultater indeholder tre hovedafsnit:
- Test sæt input opdeling — Et diagram, der viser det samlede antal ende-til-ende-samtaler og enkelte inputytringer i testsættet.
- Enkelt input opdeling — Et diagram, der viser antallet af beståede eller mislykkede enkeltindgange.
- Samtaleopdeling — Et diagram, der viser antallet af beståede eller mislykkede multi-turn input.
For testsæt, der køres i lydmodalitet, leveres taletransskriptionsdiagrammer for at vise antallet af beståede eller mislykkede taletransskriptioner på både enkeltinput og samtaletyper. I lydmodalitet kunne en enkelt input eller multi-turn-samtale bestå taletransskriptionstesten, men alligevel mislykkes den overordnede ende-til-ende-test. Dette kan for eksempel være forårsaget af en slot-opløsning eller et hensigtsgenkendelsesproblem.
Samtale resultater
Test Workbench hjælper dig med at dykke ned i samtalefejl, der kan tilskrives specifikke hensigter eller slots. Fanen Samtaleresultater er organiseret i tre hovedområder, der dækker alle hensigter og pladser, der bruges i testsættet:
- Samtalebeståelsesprocenter — En tabel, der bruges til at visualisere, hvilke hensigter og slots der er ansvarlige for mulige samtalefejl.
- Samtalehensigtsfejl-metrics — Et søjlediagram, der viser de fem bedste hensigter i testsættet, hvis nogen har dårligst ydeevne.
- Metrics for samtalepladsfejl — Et søjlediagram, der viser de fem bedst ydende slots i testsættet, hvis nogen.
Hensigts- og slotresultater
Fanen Hensigt og pladsresultater giver detaljerede metrics for bot-dimensioner såsom hensigtsgenkendelse og slotopløsning.
- Metrics for hensigtsgenkendelse — En tabel, der viser succesraten for hensigtsgenkendelse.
- Slotopløsningsmålinger — En tabel, der viser succesraten for slotopløsning, efter
Detaljerede resultater
Du kan få adgang til en detaljeret rapport over den udførte testkørsel på fanen Detaljerede resultater. Der vises en tabel for at vise de faktiske transskriptions-, outputhensigts- og slotværdier i et testsæt. Rapporten kan downloades som en CSV for yderligere analyse.
Outputtet på linjeniveau giver indsigt, der hjælper med at forbedre robotdesignet og øge nøjagtigheden. For eksempel kan forkert genkendte eller ubesvarede taleinput, såsom mærkede ord, føjes til brugerdefineret ordforråd af en hensigt eller som ytringer under en hensigt.
For yderligere at forbedre samtaledesignet kan du henvise til dette indlæg, der skitserer bedste praksis for at bruge ML til at skabe en bot, der vil glæde dine kunder ved nøjagtigt at forstå dem.
Konklusion
I dette indlæg præsenterede vi Test Workbench for Amazon Lex, en indbygget funktion, der standardiserer en chatbot automatiseret testproces og giver udviklere og samtaledesignere mulighed for at strømline og gentage hurtigt gennem botdesign og -udvikling.
Vi ser frem til at høre, hvordan du bruger denne nye funktionalitet i Amazon Lex og modtager gerne feedback! For spørgsmål, fejl eller funktionsanmodninger, kontakt os venligst igennem AWS re:Post til Amazon Lex eller dine AWS-supportkontakter.
For at lære mere, se Ofte stillede spørgsmål om Amazon Lex og Amazon Lex V2 Developer Guide.
Om forfatterne
Sandeep Srinivasan er produktchef på Amazon Lex-teamet. Som en skarp observatør af menneskelig adfærd brænder han for kundeoplevelse. Han tilbringer sine vågne timer i krydsfeltet mellem mennesker, teknologi og fremtiden.
Grazia Russo Lassner er seniorkonsulent hos AWS Professional Services Natural Language AI-team. Hun har specialiseret sig i at designe og udvikle samtale-AI-løsninger ved hjælp af AWS-teknologier til kunder i forskellige brancher. Uden for arbejdet nyder hun strandweekender, læse de seneste skønlitterære bøger og familie.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- EVM Finans. Unified Interface for Decentralized Finance. Adgang her.
- Quantum Media Group. IR/PR forstærket. Adgang her.
- PlatoAiStream. Web3 Data Intelligence. Viden forstærket. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/
- :er
- :ikke
- :hvor
- $OP
- 10
- 100
- 500
- 610
- 7
- 9
- a
- I stand
- Om
- adgang
- Konto
- nøjagtighed
- præcist
- tværs
- faktiske
- tilføjet
- Desuden
- Efter
- mod
- AI
- Alle
- tillade
- tillader
- Amazon
- Amazon Lex
- Amazon Web Services
- an
- analyse
- ,
- Annoncere
- enhver
- passende
- ER
- områder
- AS
- assistenter
- forbundet
- At
- attributter
- lyd
- automatisere
- Automatiseret
- automatisk
- undgå
- AWS
- AWS Professional Services
- baggrund
- Bar
- Baseline
- grundlæggende
- grundlag
- BE
- Beach
- før
- BEDSTE
- bedste praksis
- mellem
- Bøger
- boost
- Bot
- både
- bots
- mærkevarer
- Fordeling
- bugs
- bygge
- Bygning
- bygget
- virksomhed
- men
- .
- by
- CAN
- omhyggeligt
- tilfælde
- forårsagede
- center
- kanaler
- tegn
- Chart
- Diagrammer
- chatbot
- chatbots
- kontrollere
- afkrydset
- Vælg
- klassificering
- sammenlignet
- sammenligning
- fuldføre
- Afsluttet
- computer
- Adfærd
- konsekvent
- Konsol
- konsulent
- kontakt
- kontaktcenter
- kontakter
- indeholder
- Samtale
- konversation
- samtale AI
- samtaler
- korrigeret
- kunne
- dækning
- dækker
- skabe
- oprettet
- Oprettelse af
- skabelse
- kritisk
- skik
- kunde
- Kundeoplevelse
- Kunder
- data
- datasæt
- datasæt
- forsinkelse
- fryde
- levering
- indsætte
- beskrivelse
- Design
- designere
- designe
- detaljeret
- detaljer
- opdaget
- Udvikler
- udviklere
- udvikling
- Udvikling
- forskellige
- størrelse
- do
- ned
- downloade
- køre
- grund
- i løbet af
- hver
- Tidligt
- effektivitet
- enten
- ende til ende
- sikre
- Indtast
- fejl
- fejl
- udvikler
- overstiger
- ophidset
- udføre
- henrettet
- udførelse
- eksisterende
- forventning
- forventninger
- forventet
- erfaring
- FAIL
- mislykkedes
- Manglende
- familie
- Feature
- Funktionalitet
- Fiktion
- File (Felt)
- Filer
- flow
- efter
- Til
- format
- Videresend
- fundet
- fire
- fra
- fuldt ud
- funktionalitet
- yderligere
- fremtiden
- generere
- genereret
- generere
- indrømme
- graf
- Ground
- vejledning
- Håndtering
- Have
- he
- høre
- hjælpe
- hjælper
- hans
- HOURS
- Hvordan
- Men
- HTML
- http
- HTTPS
- menneskelig
- ID
- identificere
- identificere
- if
- importere
- Forbedre
- forbedringer
- forbedring
- in
- omfatter
- omfatter
- Herunder
- Forøg
- angiver
- angiver
- industrier
- oplysninger
- indgang
- indgange
- indsigt
- instans
- integrationer
- hensigt
- interaktiv
- grænseflader
- vejkryds
- ind
- spørgsmål
- spørgsmål
- jpg
- Keen
- Nøgle
- viden
- Sprog
- seneste
- LÆR
- Længde
- Niveau
- livscyklus
- Line (linje)
- LINK
- links
- Liste
- Børsnoterede
- placering
- Se
- Main
- vedligeholde
- lykkedes
- ledelse
- leder
- manuel
- manuelt
- markere
- maksimal
- måle
- foranstaltninger
- mekanisme
- opfylder
- messaging
- Metode
- Metrics
- savnet
- ML
- modificeret
- mere
- navn
- navne
- indfødte
- Natural
- Navigation
- Behov
- behov
- Ny
- nyligt
- næste
- ingen
- nummer
- observere
- of
- tit
- on
- engang
- ONE
- operationelle
- Indstillinger
- or
- ordrer
- organisation
- Organiseret
- output
- uden for
- i løbet af
- samlet
- side
- brød
- parametre
- passerer
- Bestået
- lidenskabelige
- Mennesker
- ydeevne
- udfører
- fase
- plato
- Platon Data Intelligence
- PlatoData
- Vær venlig
- politik
- mulig
- Indlæg
- praksis
- foretrække
- præsentere
- forelagt
- behandle
- Produkt
- produktchef
- produktion
- produktivitet
- professionel
- forudsat
- giver
- kvalitet
- forespørgsler
- Spørgsmål
- hurtigt
- rækkevidde
- Sats
- RE
- nå
- Læsning
- klar
- ægte
- anerkendelse
- indberette
- anmode
- anmodninger
- Krav
- Løsning
- reagere
- svar
- ansvarlige
- resultere
- Resultater
- gennemgå
- Anmeldelser
- roller
- Kør
- samme
- skalering
- scenarier
- screenshots
- sektioner
- se
- senior
- tjener
- tjeneste
- Tjenester
- Session
- sæt
- sæt
- flere
- hun
- bør
- Vis
- vist
- Simpelt
- forenkle
- enkelt
- spillemaskiner
- løsninger
- Løsninger
- specialiseret
- specifikke
- tale
- Tilstand
- Status
- Trin
- Steps
- opbevaring
- opbevaret
- strømline
- succes
- sådan
- support
- Understøttet
- systemet
- bord
- opgaver
- hold
- hold
- Teknologier
- Teknologier
- skabeloner
- prøve
- Test
- tests
- at
- Fremtiden
- Them
- derefter
- Der.
- de
- denne
- tre
- Gennem
- tid
- til
- værktøjer
- top
- I alt
- Sandheden
- typer
- under
- forståelse
- Uventet
- Opdatering
- opdateringer
- Uploading
- us
- brug
- brug tilfælde
- anvendte
- Bruger
- ved brug af
- VALIDATE
- valideret
- validering
- Værdier
- forskellige
- Virtual
- Voice
- ønsker
- advarsel
- we
- web
- webservices
- websites
- velkommen
- hvorvidt
- som
- vilje
- med
- ord
- Arbejde
- Værst
- endnu
- Du
- Din
- zephyrnet
- Zip