Arranger dine transskriptioner i afsnit med Amazon Transscribe

Genudgivet af Platon

Abonnenter: 0

I varevisningen leveres varer i form af en rettidig ordnet liste, hvor hvert punkt indeholder yderligere metadataoplysninger:

{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}

Metadataene er som følger:

Type – Typeværdien angiver, om det specifikke element er et tegnsætning eller en udtale. Eksempler på understøttede tegnsætninger er komma, punktum og spørgsmålstegn.
Alternativer – En række objekter, der indeholder den faktiske transskription, sammen med konfidensniveau, sorteret efter konfidensniveau. Når alternative resultatfunktion ikke er aktiveret, har denne liste altid kun ét element.
- Confidence – En indikation af, hvor sikker Amazon Transcribe er omkring korrektheden af transskription. Den bruger værdier fra 0-1, hvor 1 indikerer 100 % sikkerhed.
- Indhold – Det transskriberede ord.
Start tid – En tidsmarkør for lyd- eller videofilen, der angiver starten af elementet i ss.SSS-format.
Sluttidspunkt – En tidsmarkør for lyd- eller videofilen, der angiver slutningen af elementet i ss.SSS-format.
Kanaletiket – Kanalidentifikationen, som kun findes i elementet, når kanalidentifikationsfunktionen var aktiveret i jobkonfigurationen.
Højttalermærkat – Højttaler-id'et, som kun findes i elementet, når højttalerpartitioneringsfunktionen var aktiveret i jobkonfigurationen.

Identifikation af afsnit

Identifikation af afsnit er afhængig af metadataoplysninger i emnevisningen. Især bruger vi oplysninger om start- og sluttidspunkt sammen med transskriptionstype og indhold til at identificere sætninger og derefter beslutte, hvilke sætninger der er de bedste kandidater til indgangspunkter i afsnit.

En sætning anses for at være en liste over transskriptionselementer, der eksisterer mellem tegnsætningselementer, der angiver punktum. Undtagelser fra dette er starten og slutningen af transskriptionen, som som standard er sætningsgrænser. Følgende figur viser et eksempel på disse elementer.

Sætningsidentifikation er ligetil med Amazon Transcribe, fordi tegnsætning er en klar funktion sammen med tegnsætningstyperne komma, punktum, spørgsmålstegn. I dette koncept bruger vi et punktum som sætningsgrænse.

Ikke hver sætning skal være et afsnitspunkt. For at identificere afsnit introducerer vi en ny indsigt på sætningsniveauet kaldet en startforsinkelse, som illustreret i den følgende figur. Vi bruger en startforsinkelse til at definere den tidsforsinkelse taleren introducerer til udtalen af den aktuelle sætning i forhold til den forrige.

Beregning af startforsinkelsen kræver starttidspunktet for den aktuelle sætning og sluttidspunktet for den foregående pr. taler. Fordi Amazon Transcribe giver start- og sluttider pr. vare, kræver beregningen brugen af det første og det sidste element i henholdsvis den nuværende og forrige sætning.

Når vi kender startforsinkelserne for hver sætning, kan vi anvende statistisk analyse og finde ud af betydningen af hver forsinkelse i forhold til den samlede population af forsinkelser. I vores sammenhæng er væsentlige forsinkelser dem, der er over befolkningens typiske varighed. Følgende graf viser et eksempel.

For dette koncept beslutter vi at acceptere sætninger med startforsinkelser større end middelværdien som signifikante og indføre et afsnitspunkt i begyndelsen af hver sådan sætning. Bortset fra middelværdien er der andre muligheder, som at acceptere alle startforsinkelser, der er større end medianen eller tredje kvantil eller øvre hegnsværdi for befolkningen.

Vi tilføjer endnu et trin til afsnitsidentifikationsprocessen, idet vi tager antallet af ord i hvert afsnit i betragtning. Når afsnit indeholder et betydeligt antal ord, kører vi en opdelingsoperation og tilføjer derved et afsnit mere til det endelige resultat.

I sammenhæng med ordtællinger definerer vi det ordantal, der overstiger den øvre hegnsværdi som signifikant. Vi træffer denne beslutning bevidst, så vi begrænser opdelte operationer til de paragraffer, der virkelig opfører sig som outliers i vores resultater. Følgende graf viser et eksempel.

Opdelingsoperationen vælger det nye afsnitsindgangspunkt ved at overveje den maksimale sætningsstartforsinkelsesindsigt. På denne måde introduceres det nye afsnit ved den sætning, der viser den maksimale startforsinkelse i det aktuelle afsnit. Opdelinger kan gentages, indtil intet ordantal overstiger den valgte grænse, i vores tilfælde den øvre hegnsværdi. Følgende figur viser et eksempel.

Konklusion

I dette indlæg præsenterede vi et koncept til automatisk at introducere afsnit til dine transskriptioner, uden manuel indgriben, baseret på de metadata, Amazon Transcribe leverer sammen med den faktiske transskription.

Dette koncept er ikke sprog- eller accentspecifikt, fordi det er afhængigt af ikke-sproglige metadata for at foreslå afsnitsindgangspunkter. Fremtidige variationer kan omfatte grammatiske eller semantiske oplysninger om en sag pr. sprog, hvilket yderligere forbedrer afsnitsidentifikationslogikken.

Hvis du har feedback om dette indlæg, så indsend dine kommentarer i kommentarfeltet. Vi ser frem til at høre fra dig. Tjek ud Amazon-transskriberingsfunktioner for yderligere funktioner, der hjælper dig med at få mest muligt ud af dine transskriptioner.

Om forfatterne

Kostas Tzouvanas er en Enterprise Solution Architect hos Amazon Web Services. Han hjælper kunder med at udvikle cloud-baserede løsninger for at opnå deres forretningspotentiale. Hans hovedfokus er handelsplatforme og højtydende computersystemer. Han brænder også for genomik og bioinformatik.

Pavlos Kaimakis er en Enterprise Solutions Architect, der tager sig af Enterprise-kunder i GR/CY/MT og støtter dem med sin erfaring med at designe og implementere løsninger, der skaber værdi for dem. Pavlos har brugt den største mængde tid i sin karriere i produkt- og kundesupportsektoren – både fra et ingeniør- og et ledelsesperspektiv. Pavlos elsker at rejse, og han er altid klar til at udforske nye steder i verden.