Üksuste vaates esitatakse üksused õigeaegselt järjestatud loendina, kusjuures iga üksus sisaldab täiendavat metaandmete teavet:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Metaandmed on järgmised:
- KASUTUSALA – Tüübi väärtus näitab, kas konkreetne üksus on kirjavahemärk või hääldus. Toetatud kirjavahemärkide näited on koma, punkt ja küsimärk.
- Alternatiivid – Objektide massiiv, mis sisaldab tegelikku transkriptsiooni koos usaldustasemega, mis on järjestatud usaldustaseme järgi. Kui alternatiivsete tulemuste funktsioon pole lubatud, on selles loendis alati ainult üks üksus.
- Usaldus – Näide selle kohta, kui kindel Amazon Transcribe on transkriptsiooni õigsuses. See kasutab väärtusi vahemikus 0–1, 1 näitab 100% usaldusväärsust.
- sisu – Transkribeeritud sõna.
- Algusaeg – Heli- või videofaili ajakursor, mis näitab üksuse algust ss.SSS-vormingus.
- Lõpuaeg – Heli- või videofaili ajakursor, mis näitab üksuse lõppu ss.SSS-vormingus.
- Kanali silt – Kanali identifikaator, mis on üksuses olemas ainult siis, kui kanali tuvastamise funktsioon oli töö konfiguratsioonis lubatud.
- Kõlari silt – Kõlari identifikaator, mis on üksuses olemas ainult siis, kui kõlarite sektsioonide funktsioon oli töö konfiguratsioonis lubatud.
Lõikude tuvastamine
Lõigete tuvastamine põhineb metaandmete teabel üksuste vaates. Eelkõige kasutame algus- ja lõpuaja teavet koos transkriptsiooni tüübi ja sisuga, et tuvastada lauseid ja seejärel otsustada, millised laused on lõigu sisestamise punktide jaoks parimad.
Lause loetakse transkriptsiooniüksuste loendiks, mis on punkti tähistavate kirjavahemärkide vahel. Erandiks on ärakirja algus ja lõpp, mis on vaikimisi lausepiirid. Järgmisel joonisel on nende üksuste näide.
Lause tuvastamine on Amazon Transcribe'i abil lihtne, kuna kirjavahemärgid on koos kirjavahemärkide tüüpidega koma, punkt ja küsimärk juba kasutusel olev funktsioon. Selles kontseptsioonis kasutame lausepiirina punkti.
Iga lause ei tohiks olla lõigupunkt. Lõigete tuvastamiseks tutvustame lause tasemel uut arusaama, mida nimetatakse algusviivituseks, nagu on näidatud järgmisel joonisel. Kasutame käivitusviivitust, et määrata viivitus, mille kõneleja praeguse lause hääldamisel eelmisega võrreldes kasutusele võtab.
Algusviivituse arvutamiseks on vaja ühe kõneleja kohta praeguse lause algusaeg ja eelmise lause lõppaeg. Kuna Amazon Transcribe pakub iga üksuse algus- ja lõppaega, on arvutamiseks vaja kasutada vastavalt praeguse ja eelmise lause esimest ja viimast üksust.
Teades iga lause käivitamise viivitusi, saame rakendada statistilist analüüsi ja välja selgitada iga viivituse olulisuse võrreldes viivituste koguarvuga. Meie kontekstis on olulised viivitused need, mis ületavad elanikkonna tüüpilist kestust. Järgmine graafik näitab näidet.
Selle kontseptsiooni puhul otsustame aktsepteerida laused, mille algusviivitused on keskmisest väärtusest suuremad, kui olulised, ja lisame iga sellise lause algusesse lõigupunkti. Lisaks keskmisele väärtusele on ka teisi võimalusi, nagu aktsepteerida kõik käivitusviivitused, mis on suuremad kui populatsiooni mediaan või kolmas kvantiil või ülemine piirde väärtus.
Lisame lõigu tuvastamise protsessi veel ühe sammu, võttes arvesse iga lõigu sõnade arvu. Kui lõigud sisaldavad märkimisväärsel hulgal sõnu, käivitame tükeldamise, lisades seeläbi lõpptulemusele veel ühe lõigu.
Sõnade arvu kontekstis määratleme olulisena need sõnade arvud, mis ületavad piirde ülemist väärtust. Teeme selle otsuse tahtlikult, nii et piirame poolitustoiminguid lõigetega, mis käituvad meie tulemustes tõeliselt kõrvalekalletena. Järgmine graafik näitab näidet.
Tükeldatud toiming valib uue lõigu sisestuspunkti, võttes arvesse maksimaalset lause alguse viivitust. Sel viisil viiakse uus lõik sisse lause juurde, mis näitab maksimaalset käivitusviivitust praeguse lõigu sees. Poolitamist saab korrata seni, kuni ükski sõnade arv ei ületa valitud piiri, meie puhul ülemise piirde väärtust. Järgmisel joonisel on näide.
Järeldus
Selles postituses tutvustasime kontseptsiooni, mis võimaldab automaatselt sisestada lõigud teie ärakirjadesse ilma käsitsi sekkumiseta, tuginedes Amazon Transcribe'i pakutavatele metaandmetele koos tegeliku ärakirjaga.
See kontseptsioon ei ole keele- ega aktsendispetsiifiline, sest see tugineb lõigu sisenemispunktide soovitamiseks mittekeelelistele metaandmetele. Tulevased variatsioonid võivad sisaldada grammatilist või semantilist teavet keelejuhtude kohta, täiustades veelgi lõigu tuvastamise loogikat.
Kui teil on selle postituse kohta tagasisidet, esitage oma kommentaarid kommentaaride jaotises. Ootame teid huviga. Kontrollige Amazoni transkribeerimise funktsioonid lisafunktsioonide jaoks, mis aitavad teil ärakirjadest võimalikult palju kasu saada.
Autoritest
Kostas Tzouvanas on ettevõtte lahenduste arhitekt Amazon Web Servicesis. Ta aitab klientidel luua pilvepõhiseid lahendusi oma äripotentsiaali saavutamiseks. Tema põhirõhk on kauplemisplatvormidel ja suure jõudlusega arvutisüsteemidel. Ta on kirglik ka genoomika ja bioinformaatika vastu.
Pavlos Kaimakis on Enterprise Solutions Arhitekt, kes hoolitseb ettevõtte klientide eest GR/CY/MT-s ja toetab neid oma kogemustega, et kavandada ja juurutada lahendusi, mis loovad neile väärtust. Pavlos on oma karjääri jooksul kõige rohkem aega veetnud toote- ja klienditoe sektoris – nii inseneri kui ka juhtimise vaatenurgast. Pavlosele meeldib reisida ja ta on alati valmis avastama uusi kohti maailmas.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
- Tuleviku rahapaja Adryenn Ashley. Juurdepääs siia.
- Ostke ja müüge IPO-eelsete ettevõtete aktsiaid koos PREIPO®-ga. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- :on
- :on
- :mitte
- $ UP
- 1
- 100
- 22
- 7
- 9
- a
- MEIST
- aktsepteerima
- aktsepteerimine
- Saavutada
- tegelik
- lisama
- lisades
- Täiendavad lisad
- pärast
- Materjal: BPA ja flataatide vaba plastik
- mööda
- Ka
- alternatiiv
- alternatiive
- alati
- Amazon
- Amazoni transkribeerimine
- Amazon Web Services
- summa
- an
- analüüs
- ja
- lahus
- kehtima
- OLEME
- Array
- AS
- At
- heli-
- automaatselt
- põhineb
- BE
- sest
- Algus
- BEST
- vahel
- suurim
- mõlemad
- piirid
- piir
- Kast
- äri
- by
- kutsutud
- CAN
- kandidaadid
- Karjäär
- juhul
- Kanal
- kontrollima
- kommentaarid
- võrdlus
- arvutustehnika
- mõiste
- usaldus
- kindel
- konfiguratsioon
- tasu
- kaaluda
- arvestades
- sisaldama
- sisaldub
- sisu
- kontekst
- Praegune
- klient
- Klienditugi
- Kliendid
- otsustama
- otsus
- vaikimisi
- viivitus
- viivitusi
- Disain
- dokument
- ajam
- kestus
- iga
- lubatud
- lõpp
- Inseneriteadus
- suurendamine
- ettevõte
- kanne
- Iga
- näide
- näited
- ületama
- ületab
- eksponaadid
- olemas
- kogemus
- Avastades
- tunnusjoon
- FUNKTSIOONID
- tagasiside
- Joonis
- fail
- lõplik
- esimene
- Keskenduma
- Järel
- järgneb
- eest
- vorm
- formaat
- edasi
- Alates
- täis
- edasi
- tulevik
- genoomika
- saama
- graafik
- suurem
- Olema
- he
- ärakuulamine
- aitama
- aitab
- hi
- Suur
- tema
- Kuidas
- HTTPS
- Identifitseerimine
- tunnus
- identifitseerima
- if
- rakendada
- in
- sisaldama
- näitama
- näitab
- näidustus
- info
- ülevaade
- sekkumine
- sisse
- kehtestama
- sisse
- Tutvustab
- IT
- kirjed
- töö
- jpg
- keel
- viimane
- Tase
- nagu
- nimekiri
- loogika
- Vaata
- otsin
- armastab
- põhiline
- tegema
- juhtimine
- käsiraamat
- märk
- max
- maksimaalne
- keskmine
- Metaandmed
- rohkem
- kõige
- Uus
- ei
- number
- esemeid
- of
- on
- ONE
- ainult
- töö
- Operations
- Valikud
- or
- Muu
- meie
- välja
- üle
- eriline
- kirglik
- jõudlus
- perspektiiv
- Kohad
- Platvormid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- Punkt
- võrra
- rahvastik
- post
- potentsiaal
- esitada
- esitatud
- eelmine
- protsess
- Toode
- tingimusel
- annab
- küsimus
- korduv
- Vajab
- vastavalt
- piirata
- kaasa
- Tulemused
- jooks
- Osa
- sektor
- väljavalitud
- Lause
- Teenused
- peaks
- Näitused
- tähendus
- märkimisväärne
- So
- lahendus
- Lahendused
- Kõneleja
- konkreetse
- kasutatud
- jagada
- Poolitab
- algus
- statistiline
- Samm
- Peatus
- lihtne
- esitama
- selline
- soovitama
- toetama
- Toetatud
- Toetamine
- süsteemid
- võtmine
- kui
- et
- .
- maailm
- oma
- Neile
- SIIS
- Seal.
- sellega
- Need
- Kolmas
- see
- need
- aeg
- korda
- et
- Summa
- Kauplemine
- Kauplemisplatvorm
- Ümberkirjutus
- tõeliselt
- tüüp
- liigid
- tüüpiline
- kuni
- Kasutus
- kasutama
- kasutusalad
- ära kasutama
- väärtus
- Väärtused
- Video
- vaade
- oli
- Tee..
- we
- web
- veebiteenused
- teretulnud
- millal
- mis
- will
- koos
- ilma
- sõna
- sõnad
- maailm
- sa
- Sinu
- sephyrnet