I objektvyn tillhandahålls objekt i form av en lista i rätt tid, där varje objekt innehåller ytterligare metadatainformation:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Metadata är följande:
- Typ – Typvärdet anger om det specifika objektet är en skiljetecken eller ett uttal. Exempel på skiljetecken som stöds är kommatecken, punkt och frågetecken.
- alternativ – En uppsättning objekt som innehåller den faktiska transkriptionen, tillsammans med konfidensnivå, sorterad efter konfidensnivå. När funktionen för alternativa resultat inte är aktiverad har den här listan alltid bara ett objekt.
- Förtroende – En indikation på hur säker Amazon Transcribe är om korrektheten av transkription. Den använder värden från 0–1, där 1 indikerar 100 % konfidens.
- Innehåll – Det transkriberade ordet.
- Starttid – En tidspekare för ljud- eller videofilen som anger början av objektet i ss.SSS-format.
- Stopptid – En tidspekare för ljud- eller videofilen som indikerar slutet på objektet i ss.SSS-format.
- Kanaletikett – Kanalidentifieraren, som endast finns i objektet när kanalidentifieringsfunktionen var aktiverad i jobbkonfigurationen.
- Högtalaretikett – Högtalaridentifieraren, som endast finns i objektet när högtalarpartitioneringsfunktionen var aktiverad i jobbkonfigurationen.
Identifierande stycken
Identifiering av stycken bygger på metadatainformation i objektvyn. I synnerhet använder vi information om start- och sluttid tillsammans med transkriptionstyp och innehåll för att identifiera meningar och sedan avgöra vilka meningar som är de bästa kandidaterna för styckestartpunkter.
En mening anses vara en lista över transkriptionsobjekt som finns mellan skiljetecken som anger punkt. Undantag från detta är början och slutet av utskriften, som som standard är meningsgränser. Följande bild visar ett exempel på dessa artiklar.
Meningsidentifiering är enkel med Amazon Transcribe eftersom skiljetecken är en funktion direkt, tillsammans med skiljetecken, komma, punkt och frågetecken. I detta koncept använder vi ett punkt som meningsgräns.
Inte varje mening bör vara en punktpunkt. För att identifiera stycken introducerar vi en ny insikt på meningsnivå som kallas startfördröjning, som illustreras i följande figur. Vi använder en startfördröjning för att definiera tidsfördröjningen som talaren introducerar till uttalet av den aktuella meningen i jämförelse med den föregående.
Beräkning av startfördröjningen kräver starttiden för den aktuella meningen och sluttiden för den föregående per talare. Eftersom Amazon Transcribe tillhandahåller start- och sluttider per objekt, kräver beräkningen användning av de första och sista objekten i nuvarande respektive föregående meningar.
Genom att känna till startförseningarna för varje mening kan vi tillämpa statistisk analys och ta reda på betydelsen av varje försening i jämförelse med den totala populationen av förseningar. I vårt sammanhang är betydande förseningar de som överstiger befolkningens typiska varaktighet. Följande graf visar ett exempel.
För detta koncept bestämmer vi oss för att acceptera meningar med startfördröjningar större än medelvärdet som signifikanta och införa en styckepunkt i början av varje sådan mening. Förutom medelvärdet finns det andra alternativ, som att acceptera alla startförseningar som är större än medianvärdet, tredje kvantilen eller övre stängselvärdet för befolkningen.
Vi lägger till ytterligare ett steg till styckeidentifieringsprocessen, med hänsyn till antalet ord som ingår i varje stycke. När stycken innehåller ett betydande antal ord kör vi en delad operation och lägger därigenom ytterligare ett stycke till det slutliga resultatet.
I sammanhanget med ordräkningar definierar vi det antal ord som överstiger det övre stängselvärdet som signifikant. Vi fattar detta beslut medvetet, så att vi begränsar delade operationer till de stycken som verkligen beter sig som extrema resultat i våra resultat. Följande graf visar ett exempel.
Dela operationen väljer ingångspunkten för det nya stycket genom att ta hänsyn till insikten om maximal meningsstartfördröjning. På så sätt introduceras det nya stycket vid meningen som visar den maximala startfördröjningen i det aktuella stycket. Uppdelningar kan upprepas tills inget ordantal överskrider den valda gränsen, i vårt fall det övre stängselvärdet. Följande bild visar ett exempel.
Slutsats
I det här inlägget presenterade vi ett koncept för att automatiskt introducera stycken till dina transkriptioner, utan manuellt ingripande, baserat på metadata Amazon Transcribe tillhandahåller tillsammans med den faktiska transkriptionen.
Detta koncept är inte språk- eller accentspecifikt, eftersom det förlitar sig på icke-språklig metadata för att föreslå styckestartpunkter. Framtida variationer kan inkludera grammatisk eller semantisk information om ett fall per språk, vilket ytterligare förbättrar styckeidentifieringslogiken.
Om du har feedback om det här inlägget, skicka in dina kommentarer i kommentarsektionen. Vi ser fram emot att höra av dig. Kolla upp Amazons transkriberingsfunktioner för ytterligare funktioner som hjälper dig att få ut så mycket som möjligt av dina utskrifter.
Om författarna
Kostas Tzouvanas är en Enterprise Solution Architect på Amazon Web Services. Han hjälper kunder att utforma molnbaserade lösningar för att uppnå sin affärspotential. Hans huvudsakliga fokus är handelsplattformar och högpresterande datorsystem. Han brinner också för genomik och bioinformatik.
Pavlos Kaimakis är en Enterprise Solutions Architect som tar hand om företagskunder i GR/CY/MT och stödjer dem med sin erfarenhet av att designa och implementera lösningar som skapar värde för dem. Pavlos har tillbringat den största tiden i sin karriär inom produkt- och kundsupportsektorn – både ur ett ingenjörs- och ett ledningsperspektiv. Pavlos älskar att resa och han är alltid redo för att utforska nya platser i världen.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
- Minting the Future med Adryenn Ashley. Tillgång här.
- Köp och sälj aktier i PRE-IPO-företag med PREIPO®. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- : har
- :är
- :inte
- $UPP
- 1
- 100
- 22
- 7
- 9
- a
- Om oss
- Acceptera
- acceptera
- Uppnå
- faktiska
- lägga till
- tillsats
- Annat
- Efter
- Alla
- längs
- också
- alternativ
- alternativ
- alltid
- amason
- Amazon Transcribe
- Amazon Web Services
- mängd
- an
- analys
- och
- isär
- Ansök
- ÄR
- array
- AS
- At
- audio
- automatiskt
- baserat
- BE
- därför att
- Börjar
- BÄST
- mellan
- störst
- båda
- gränser
- gräns
- Box
- företag
- by
- kallas
- KAN
- kandidater
- Karriär
- Vid
- Kanal
- ta
- kommentarer
- jämförelse
- databehandling
- begrepp
- förtroende
- säker
- konfiguration
- övervägande
- anses
- med tanke på
- innehålla
- innehöll
- innehåll
- sammanhang
- Aktuella
- kund
- Helpdesk
- Kunder
- beslutar
- Beslutet
- Standard
- fördröja
- fördröjningar
- Designa
- dokumentera
- driv
- varaktighet
- varje
- aktiverad
- änden
- Teknik
- förbättra
- Företag
- inträde
- Varje
- exempel
- exempel
- överstiga
- överstiger
- utställningar
- finns
- erfarenhet
- Utforska
- Leverans
- Funktioner
- återkoppling
- Figur
- Fil
- slutlig
- Förnamn
- Fokus
- efter
- följer
- För
- formen
- format
- Framåt
- från
- full
- ytterligare
- framtida
- genomik
- skaffa sig
- diagram
- större
- Har
- he
- hörsel
- hjälpa
- hjälper
- hi
- Hög
- hans
- Hur ser din drömresa ut
- HTTPS
- Identifiering
- identifierare
- identifiera
- if
- genomföra
- in
- innefattar
- indikerar
- pekar på
- indikation
- informationen
- insikt
- ingripande
- in
- införa
- introducerade
- Introducerar
- IT
- artikel
- Jobb
- jpg
- språk
- Efternamn
- Nivå
- tycka om
- Lista
- Logiken
- se
- du letar
- älskar
- Huvudsida
- göra
- ledning
- manuell
- markera
- max
- maximal
- betyda
- metadata
- mer
- mest
- Nya
- Nej
- antal
- objekt
- of
- on
- ONE
- endast
- drift
- Verksamhet
- Tillbehör
- or
- Övriga
- vår
- ut
- över
- särskilt
- brinner
- prestanda
- perspektiv
- platser
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- Punkt
- poäng
- befolkning
- Inlägg
- potentiell
- presentera
- presenteras
- föregående
- process
- Produkt
- förutsatt
- ger
- fråga
- upprepade
- Kräver
- respektive
- begränsa
- resultera
- Resultat
- Körning
- §
- sektor
- vald
- mening
- Tjänster
- skall
- Visar
- signifikans
- signifikant
- So
- lösning
- Lösningar
- Högtalare
- specifik
- spent
- delas
- Delar upp
- starta
- statistisk
- Steg
- Sluta
- okomplicerad
- skicka
- sådana
- föreslå
- stödja
- Som stöds
- Stödjande
- System
- tar
- än
- den där
- Smakämnen
- världen
- deras
- Dem
- sedan
- Där.
- vari
- Dessa
- Tredje
- detta
- de
- tid
- gånger
- till
- Totalt
- Handel
- Handelsplattformar
- Avskrift
- verkligen
- Typ
- typer
- typisk
- tills
- Användning
- användning
- användningar
- utnyttja
- värde
- Värden
- Video
- utsikt
- var
- Sätt..
- we
- webb
- webbservice
- välkommen
- när
- som
- kommer
- med
- utan
- ord
- ord
- världen
- Om er
- Din
- zephyrnet