Amazon Lex er glade for å kunngjøre Test Workbench, en ny bottestingløsning som gir verktøy for å forenkle og automatisere bottestingsprosessen. Under utvikling av bot er testing fasen der utviklere sjekker om en bot oppfyller de spesifikke kravene, behovene og forventningene ved å identifisere feil, defekter eller feil i systemet før de skaleres. Testing hjelper med å validere botytelse på flere fronter, for eksempel samtaleflyt (forstå brukerforespørsler og svare nøyaktig), håndtering av intensjonsoverlapping og konsistens på tvers av modaliteter. Imidlertid er testing ofte manuell, feilutsatt og ikke-standardisert. Test Workbench standardiserer automatisert testadministrasjon ved å la chatbotutviklingsteam generere, vedlikeholde og utføre testsett med en konsistent metodikk og unngå tilpasset skripting og ad-hoc-integrasjoner. I dette innlegget vil du lære hvordan Test Workbench effektiviserer automatisert testing av en robots stemme- og tekstmodaliteter og gir nøyaktighet og ytelsesmål for parametere som lydtranskripsjon, intensjonsgjenkjenning og sporoppløsning for både enkeltytringsinnganger og flersvingssamtaler. Dette lar deg raskt identifisere forbedringsområder for bot og opprettholde en konsistent grunnlinje for å måle nøyaktighet over tid og observere eventuell nøyaktighetsregresjon på grunn av botoppdateringer.
Amazon Lex er en fullstendig administrert tjeneste for å bygge samtale-stemme- og tekstgrensesnitt. Amazon Lex hjelper deg med å bygge og distribuere chatbots og virtuelle assistenter på nettsteder, kontaktsentertjenester og meldingskanaler. Amazon Lex-roboter bidrar til å øke produktiviteten for interaktiv stemmerespons (IVR), automatisere enkle oppgaver og drive driftseffektivitet på tvers av organisasjonen. Test Workbench for Amazon Lex standardiserer og forenkler livssyklusen for bottesting, noe som er avgjørende for å forbedre botdesign.
Funksjoner til Test Workbench
Test Workbench for Amazon Lex inkluderer følgende funksjoner:
- Generer testdatasett automatisk fra en bots samtalelogger
- Last opp manuelt bygde testsett-grunnlinjer
- Utfør ende-til-ende-testing av enkeltinndata eller samtaler med flere svinger
- Test både lyd- og tekstmodaliteter til en bot
- Gjennomgå aggregerte og detaljerte beregninger for robotdimensjoner:
- Taletranskripsjon
- Hensiktsgjenkjenning
- Sporoppløsning (inkludert spor med flere verdier eller sammensatte spor)
- Konteksttagger
- Sesjonsattributter
- Be om attributter
- Kjøretidstips
- Tidsforsinkelse i sekunder
Forutsetninger
For å teste denne funksjonen bør du ha følgende:
I tillegg bør du ha kunnskap om og forståelse av følgende tjenester og funksjoner:
Lag et testsett
For å lage testsettet, fullfør følgende trinn:
- På Amazon Lex-konsoll, under Test arbeidsbenk Velg navigasjonsruten Testsett.
Du kan se gjennom en liste over eksisterende testsett, inkludert grunnleggende informasjon som navn, beskrivelse, antall testinndata, modalitet og status. I de følgende trinnene kan du velge mellom å generere et testsett fra samtaleloggene knyttet til boten eller å laste opp et eksisterende manuelt bygget testsett i et CSV-filformat.
- Velg Lag testsett.
- Ved å generere testsett fra samtalelogger kan du gjøre følgende:
- Inkluder ekte flersvingssamtaler fra botens logger i CloudWatch
- Inkluder lydlogger og utfør tester som tar hensyn til ekte talenyanser, bakgrunnsstøy og aksenter
- Få fart på opprettelsen av testsett
- Ved å laste opp et manuelt bygget testsett kan du gjøre følgende:
- Test nye roboter som det ikke finnes produksjonsdata for
- Utfør regresjonstester på eksisterende roboter for nye eller modifiserte hensikter, spor og samtaleflyter
- Test nøye utformede og detaljerte scenarier som spesifiserer øktattributter og forespørselsattributter
For å generere et testsett, fullfør følgende trinn. For å laste opp et manuelt bygget testsett, hopp til trinn 7.
- Velg Generer et baseline-testsett.
- Velg alternativer for Botnavn, Bot aliasog Språk.
- Til Tidsramme, angi et tidsrom for loggene.
- Til Eksisterende IAM-rolle, velg en rolle.
Sørg for at IAM-rollen er i stand til å gi deg tilgang til å hente informasjon fra samtaleloggene. Se Opprette IAM-roller å opprette en IAM-rolle med passende policy.
- Hvis du foretrekker å bruke et manuelt opprettet testsett, velg Last opp en fil til dette testsettet.
- Til Last opp en fil til dette testsettet, velg blant følgende alternativer:
- Plukke ut Last opp fra S3-bøtte for å laste opp en CSV-fil fra en Amazon enkel lagringstjeneste (Amazon S3) bøtte.
- Plukke ut Last opp en fil til dette testsettet for å laste opp en CSV-fil fra datamaskinen.
Du kan også bruke det prøvesett gitt i dette innlegget. For mer informasjon om maler, velg CSV-mal lenke på siden.
- Til Modalitet, velg heller modaliteten til testsettet ditt tekst or lyd.
Test Workbench gir teststøtte for lyd- og tekstinndataformater.
- Til S3 beliggenhet, skriv inn S3-bøtteplasseringen der resultatene skal lagres.
- Velg eventuelt en AWS nøkkelstyringstjeneste (AWS KMS) nøkkel for å kryptere utgangstranskripsjoner.
- Velg Opprett.
Ditt nyopprettede testsett vil bli oppført på Testsett side med en av følgende statuser:
- Klar for merknad – For testsett generert fra Amazon Lex bot-samtalelogger, fungerer kommentartrinnet som en manuell portmekanisme for å sikre kvalitetstestinndata. Ved å kommentere verdier for forventede hensikter og forventede spor for hver testordrelinje, angir du "grunnsannheten" for den linjen. Testresultatene fra botkjøringen samles inn og sammenlignes med sannheten for å markere testresultater som bestått eller ikke. Denne sammenligningen på linjenivå gjør det mulig å lage aggregerte mål.
- Klar for testing - Dette indikerer at testsettet er klart til å kjøres mot en Amazon Lex-bot.
- Valideringsfeil – Opplastede testfiler sjekkes for feil som overskridelse av maksimal støttet lengde, ugyldige tegn i hensiktsnavn eller ugyldige Amazon S3-koblinger som inneholder lydfiler. Hvis testsettet er i Valideringsfeil tilstand, last ned filen som viser valideringsdetaljene for å se testinndataproblemer eller feil på linje for linje. Når de er adressert, kan du manuelt laste opp det korrigerte testsettet CSV til testsettet.
Utføre et testsett
Et testsett er koblet fra en bot. Det samme testsettet kan utføres mot en annen bot eller bot-alias i fremtiden etter hvert som bedriftens brukssituasjon utvikler seg. For å rapportere ytelsesberegninger for en robot mot baseline-testdataene, fullfør følgende trinn:
- Import prøveroboten definisjon og bygg boten (se Importere en bot for veiledning).
- Velg på Amazon Lex-konsollen Testsett i navigasjonsruten.
- Velg ditt validerte testsett.
Her kan du se grunnleggende informasjon om testsettet og de importerte testdataene.
- Velg Utfør test.
- Velg de riktige alternativene for Botnavn, Bot aliasog Språk.
- Til Testtype, plukke ut lyd or tekst.
- Til Valg av endepunkt, velg enten Streaming or Ikke-streaming.
- Velg Bekreft avvik for å validere testdatasettet ditt.
Før du utfører et testsett, kan du validere testdekning, inkludert å identifisere intensjoner og spor som finnes i testsettet, men ikke i boten. Denne tidlige advarselen tjener til å sette testerens forventninger til uventede testfeil. Hvis det oppdages avvik mellom testdatasettet og boten din, Utfør test siden vil oppdateres med Vis detaljer knapp.
Hensikter og spor som finnes i testdatasettet, men ikke i bot-aliaset, er oppført som vist i følgende skjermbilder.
- Etter at du har validert avvikene, velger du Henrette å kjøre testen.
Gjennomgå resultatene
Ytelsesmålene som genereres etter å ha utført et testsett, hjelper deg med å identifisere områder innen robotdesign som trenger forbedringer og er nyttige for å fremskynde utvikling og levering av roboter for å støtte kundene dine. Test Workbench gir innsikt i intensjonsklassifisering og sporoppløsning i ende-til-ende-samtale og enkeltlinjeinndatanivå. De fullførte testkjøringene lagres med tidsstempler i din S3-bøtte, og kan brukes til fremtidige sammenlignende anmeldelser.
- Velg på Amazon Lex-konsollen Testresultater i navigasjonsruten.
- Velg testresultat-ID for resultatene du vil gjennomgå.
På neste side vil testresultatene inkludere en oversikt over resultatene organisert i fire hovedfaner: Samlede resultater, samtaleresultater, intensjoner og sporresultater, og Detaljerte resultater.
Samlede resultater
Fanen Samlede resultater inneholder tre hovedseksjoner:
- Fordeling av inndata for testsett — Et diagram som viser det totale antallet ende-til-ende-samtaler og enkeltinngangsytringer i testsettet.
- Enkeltinndataoppdeling — Et diagram som viser antall beståtte eller mislykkede enkeltinnganger.
- Samtalesammenbrudd — Et diagram som viser antall beståtte eller mislykkede flersvinginnganger.
For testsett som kjøres i lydmodalitet, leveres taletranskripsjonsdiagrammer for å vise antall beståtte eller mislykkede taletranskripsjoner på både enkeltinndata og samtaletyper. I lydmodalitet kan en enkelt inngang eller samtale med flere svinger bestå taletranskripsjonstesten, men mislykkes i den generelle ende-til-ende-testen. Dette kan for eksempel være forårsaket av en sporoppløsning eller et problem med hensiktsgjenkjenning.
Samtaleresultater
Test Workbench hjelper deg med å se nærmere på samtalefeil som kan tilskrives spesifikke hensikter eller spor. Samtaleresultater-fanen er organisert i tre hovedområder, som dekker alle hensikter og spor som brukes i testsettet:
- Samtalebestått rater — En tabell som brukes til å visualisere hvilke hensikter og spor som er ansvarlige for mulige samtalefeil.
- Konversasjonshensiktsfeilberegninger — Et søylediagram som viser de fem beste hensiktene med dårligst ytelse i testsettet, hvis noen.
- Beregninger for feil i samtalespor — Et søylediagram som viser de fem beste sporene med dårligst ytelse i testsettet, hvis noen.
Intensjon og sporresultater
Fanen Intensjon og sporresultater gir detaljerte beregninger for bot-dimensjoner som intensjonsgjenkjenning og sporoppløsning.
- Måleverdier for intensjonsgjenkjenning — En tabell som viser suksessraten for hensiktsgjenkjenning.
- Sporoppløsningsberegninger — En tabell som viser suksessraten for sporoppløsning, etter
Detaljerte resultater
Du kan få tilgang til en detaljert rapport over den utførte testkjøringen på fanen Detaljerte resultater. En tabell vises for å vise den faktiske transkripsjonen, utdatahensikten og sporverdiene i et testsett. Rapporten kan lastes ned som en CSV for videre analyse.
Utgangen på linjenivå gir innsikt for å forbedre robotdesignen og øke nøyaktigheten. For eksempel kan feilgjenkjente eller tapte taleinndata, for eksempel merkeord, legges til tilpasset vokabular for en hensikt eller som ytringer under en hensikt.
For å forbedre samtaledesign ytterligere kan du henvise til dette innlegget, som skisserer beste fremgangsmåter for bruk av ML for å lage en bot som vil glede kundene dine ved å forstå dem nøyaktig.
konklusjonen
I dette innlegget presenterte vi Test Workbench for Amazon Lex, en innebygd funksjon som standardiserer en chatbot automatisert testprosess og lar utviklere og samtaledesignere strømlinjeforme og iterere raskt gjennom robotdesign og utvikling.
Vi ser frem til å høre hvordan du bruker denne nye funksjonaliteten til Amazon Lex og tar gjerne imot tilbakemeldinger! For spørsmål, feil eller funksjonsforespørsler, vennligst kontakt oss gjennom AWS re: Post for Amazon Lex eller AWS-støttekontaktene dine.
For å lære mer, se Vanlige spørsmål om Amazon Lex og Amazon Lex V2 utviklerveiledning.
Om forfatterne
Sandeep Srinivasan er produktsjef i Amazon Lex-teamet. Som en ivrig observatør av menneskelig atferd er han lidenskapelig opptatt av kundeopplevelse. Han tilbringer sine våkne timer i skjæringspunktet mellom mennesker, teknologi og fremtiden.
Grazia Russo Lassner er seniorkonsulent hos AWS Professional Services Natural Language AI-teamet. Hun spesialiserer seg på å designe og utvikle samtale-AI-løsninger ved bruk av AWS-teknologier for kunder i ulike bransjer. Utenom jobben liker hun strandhelger, lese de siste skjønnlitterære bøkene og familie.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- EVM Finans. Unified Interface for desentralisert økonomi. Tilgang her.
- Quantum Media Group. IR/PR forsterket. Tilgang her.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/expedite-the-amazon-lex-chatbot-development-lifecycle-with-test-workbench/
- :er
- :ikke
- :hvor
- $OPP
- 10
- 100
- 500
- 610
- 7
- 9
- a
- I stand
- Om oss
- adgang
- Logg inn
- nøyaktighet
- nøyaktig
- tvers
- faktiske
- la til
- tillegg
- Etter
- mot
- AI
- Alle
- tillate
- tillater
- Amazon
- Amazon Lex
- Amazon Web Services
- an
- analyse
- og
- Kunngjøre
- noen
- hensiktsmessig
- ER
- områder
- AS
- assistenter
- assosiert
- At
- attributter
- lyd
- automatisere
- Automatisert
- automatisk
- unngå
- AWS
- AWS profesjonelle tjenester
- bakgrunn
- Bar
- Baseline
- grunnleggende
- basis
- BE
- Strand
- før du
- BEST
- beste praksis
- mellom
- bøker
- øke
- Bot
- både
- roboter
- branded
- Breakdown
- bugs
- bygge
- Bygning
- bygget
- virksomhet
- men
- knapp
- by
- CAN
- nøye
- saken
- forårsaket
- sentrum
- kanaler
- tegn
- Figur
- Topplisten
- chatbot
- chatbots
- sjekk
- sjekket
- Velg
- klassifisering
- sammenlignet
- sammenligning
- fullføre
- Terminado
- datamaskin
- Gjennomføre
- konsistent
- Konsoll
- konsulent
- kontakt
- kontakt senter
- kontakter
- inneholder
- Samtale
- conversational
- samtale AI
- samtaler
- Korrigert
- kunne
- dekning
- dekker
- skape
- opprettet
- Opprette
- skaperverket
- kritisk
- skikk
- kunde
- kundeopplevelse
- Kunder
- dato
- datasett
- datasett
- forsinkelse
- glede
- levering
- utplassere
- beskrivelse
- utforming
- designere
- utforme
- detaljert
- detaljer
- oppdaget
- Utvikler
- utviklere
- utvikle
- Utvikling
- forskjellig
- dimensjoner
- do
- ned
- nedlasting
- stasjonen
- to
- under
- hver enkelt
- Tidlig
- effektivitet
- enten
- ende til ende
- sikre
- Enter
- feil
- feil
- utvikler seg
- stiger
- opphisset
- henrette
- henrettet
- utførende
- eksisterende
- forventning
- forventninger
- forventet
- erfaring
- FAIL
- Mislyktes
- Failure
- familie
- Trekk
- Egenskaper
- Fiction
- filet
- Filer
- flyten
- etter
- Til
- format
- Forward
- funnet
- fire
- fra
- fullt
- funksjonalitet
- videre
- framtid
- generere
- generert
- genererer
- innvilge
- graf
- Ground
- veiledning
- Håndtering
- Ha
- he
- hørsel
- hjelpe
- hjelper
- hans
- TIMER
- Hvordan
- Men
- HTML
- http
- HTTPS
- menneskelig
- ID
- identifisere
- identifisering
- if
- importere
- forbedre
- forbedring
- forbedringer
- bedre
- in
- inkludere
- inkluderer
- Inkludert
- Øke
- indikerer
- indikerer
- bransjer
- informasjon
- inngang
- innganger
- innsikt
- f.eks
- integrasjoner
- hensikt
- interaktiv
- grensesnitt
- kryss
- inn
- utstedelse
- saker
- jpg
- Keen
- nøkkel
- kunnskap
- Språk
- siste
- LÆRE
- Lengde
- Nivå
- Livssyklus
- linje
- LINK
- lenker
- Liste
- oppført
- plassering
- Se
- Hoved
- vedlikeholde
- fikk til
- ledelse
- leder
- håndbok
- manuelt
- merke
- maksimal
- måle
- målinger
- mekanisme
- møter
- meldinger
- metodikk
- Metrics
- savnet
- ML
- modifisert
- mer
- navn
- navn
- innfødt
- Naturlig
- Navigasjon
- Trenger
- behov
- Ny
- nylig
- neste
- Nei.
- Antall
- observere
- of
- ofte
- on
- gang
- ONE
- operasjonell
- alternativer
- or
- rekkefølge
- organisasjon
- Organisert
- produksjon
- utenfor
- enn
- samlet
- side
- brød
- parametere
- passere
- bestått
- lidenskapelig
- Ansatte
- ytelse
- utfører
- fase
- plato
- Platon Data Intelligence
- PlatonData
- vær så snill
- politikk
- mulig
- Post
- praksis
- trekker
- presentere
- presentert
- prosess
- Produkt
- Produktsjef
- Produksjon
- produktivitet
- profesjonell
- forutsatt
- gir
- kvalitet
- spørsmål
- spørsmål
- raskt
- område
- Sats
- RE
- å nå
- Lesning
- klar
- ekte
- anerkjennelse
- rapporterer
- anmode
- forespørsler
- Krav
- oppløsning
- svare
- svar
- ansvarlig
- resultere
- Resultater
- anmeldelse
- Anmeldelser
- Rolle
- Kjør
- samme
- skalering
- scenarier
- skjermbilder
- seksjoner
- se
- senior
- serverer
- tjeneste
- Tjenester
- Session
- sett
- sett
- flere
- hun
- bør
- Vis
- vist
- Enkelt
- forenkle
- enkelt
- spilleautomater
- løsning
- Solutions
- spesialisert
- spesifikk
- tale
- Tilstand
- status
- Trinn
- Steps
- lagring
- lagret
- effektivisere
- suksess
- slik
- støtte
- Støttes
- system
- bord
- oppgaver
- lag
- lag
- Technologies
- Teknologi
- maler
- test
- Testing
- tester
- Det
- De
- Fremtiden
- Dem
- deretter
- Der.
- de
- denne
- tre
- Gjennom
- tid
- til
- verktøy
- topp
- Totalt
- Sannhet
- typer
- etter
- forståelse
- Uventet
- Oppdater
- oppdateringer
- Opplasting
- us
- bruke
- bruk sak
- brukt
- Bruker
- ved hjelp av
- VALIDERE
- validert
- validering
- Verdier
- ulike
- virtuelle
- Voice
- ønsker
- advarsel
- we
- web
- webtjenester
- nettsteder
- velkommen
- om
- hvilken
- vil
- med
- ord
- Arbeid
- verste
- ennå
- Du
- Din
- zephyrnet
- Zip