V pogledu elementov so elementi na voljo v obliki pravočasno urejenega seznama, pri čemer vsak element vsebuje dodatne informacije o metapodatkih:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Metapodatki so naslednji:
- tip – Vrednost tipa označuje, ali je določena postavka ločilo ali izgovorjava. Primeri podprtih ločil so vejica, pika in vprašaj.
- Alternative – Niz predmetov, ki vsebujejo dejansko transkripcijo, skupaj s stopnjo zaupanja, razvrščenih po stopnji zaupanja. Ko funkcija alternativnih rezultatov ni omogočena, ima ta seznam vedno samo en element.
- Zaupanje – Prikaz tega, kako prepričan je Amazon Transcribe o pravilnosti prepisa. Uporablja vrednosti od 0–1, pri čemer 1 pomeni 100-odstotno zaupanje.
- vsebina – Prepisana beseda.
- Začetni čas – Časovni kazalec zvočne ali video datoteke, ki označuje začetek predmeta v formatu ss.SSS.
- Končni čas – Časovni kazalec zvočne ali video datoteke, ki označuje konec predmeta v formatu ss.SSS.
- Oznaka kanala – Identifikator kanala, ki je prisoten v postavki samo, ko je bila funkcija identifikacije kanala omogočena v konfiguraciji opravila.
- Oznaka zvočnika – Identifikator zvočnika, ki je prisoten v elementu le, ko je bila v konfiguraciji opravila omogočena funkcija particioniranja zvočnika.
Prepoznavanje odstavkov
Identifikacija odstavkov se opira na informacije o metapodatkih v pogledu elementov. Zlasti uporabljamo informacije o začetnem in končnem času skupaj z vrsto in vsebino transkripcije, da prepoznamo stavke in se nato odločimo, kateri stavki so najboljši kandidati za vstopne točke odstavka.
Stavek se šteje za seznam elementov prepisa, ki obstaja med ločili, ki označujejo piko. Izjema sta začetek in konec prepisa, ki sta privzeto meja stavka. Naslednja slika prikazuje primer teh predmetov.
Identifikacija stavka je preprosta z Amazon Transcribe, ker je ločilo funkcija, ki ni pripravljena na uporabo, skupaj z vrstami ločil vejica, pika in vprašaj. V tem konceptu uporabljamo piko kot mejo stavka.
Vsak stavek ne sme biti točka odstavka. Za prepoznavanje odstavkov uvajamo nov vpogled na ravni stavka, imenovan začetni zamik, kot je prikazano na naslednji sliki. Z začetnim zamikom določimo časovni zamik, ki ga govorec uvede pri izgovorjavi trenutnega stavka v primerjavi s prejšnjim.
Izračun zakasnitve začetka zahteva začetni čas trenutnega stavka in končni čas prejšnjega na govorca. Ker Amazon Transcribe zagotavlja začetni in končni čas na postavko, izračun zahteva uporabo prve in zadnje postavke trenutnega oziroma prejšnjega stavka.
Če poznamo začetni zamik vsakega stavka, lahko uporabimo statistično analizo in ugotovimo pomembnost vsakega zamika v primerjavi s celotno populacijo zamikov. V našem kontekstu so velike zamude tiste, ki presegajo običajno trajanje populacije. Naslednji graf prikazuje primer.
Za ta koncept se odločimo, da bomo stavke z začetnimi zamudami, večjimi od srednje vrednosti, sprejeli kot pomembne in na začetku vsakega takega stavka uvedli točko odstavka. Poleg srednje vrednosti obstajajo tudi druge možnosti, kot je sprejemanje vseh začetnih zamud, večjih od mediane, ali tretjega kvantila ali zgornje mejne vrednosti populacije.
Dodamo še en dodaten korak v postopek identifikacije odstavka, pri čemer upoštevamo število besed, ki jih vsebuje posamezen odstavek. Ko odstavki vsebujejo precejšnje število besed, zaženemo operacijo razdelitve in s tem končnemu rezultatu dodamo še en odstavek.
V kontekstu števila besed opredeljujemo kot pomembno število besed, ki presegajo zgornjo mejno vrednost. To odločitev sprejmemo namenoma, tako da omejimo delitvene operacije na odstavke, ki se v naših rezultatih resnično obnašajo kot izstopajoči. Naslednji graf prikazuje primer.
Operacija razdelitve izbere vstopno točko novega odstavka ob upoštevanju vpogleda v največjo zakasnitev začetka stavka. Na ta način se novi odstavek uvede pri stavku, ki prikazuje največjo zakasnitev začetka znotraj trenutnega odstavka. Razdelitve se lahko ponavljajo, dokler nobena beseda ne preseže izbrane meje, v našem primeru zgornje mejne vrednosti. Naslednja slika prikazuje primer.
zaključek
V tej objavi smo predstavili koncept za samodejno uvajanje odstavkov v vaše prepise, brez ročnega posredovanja, na podlagi metapodatkov, ki jih Amazon Transcribe zagotavlja skupaj z dejanskim prepisom.
Ta koncept ni specifičen za jezik ali naglas, ker se opira na nejezikovne metapodatke, da predlaga vstopne točke odstavka. Prihodnje različice lahko vključujejo slovnične ali semantične informacije o posameznih jezikovnih velikih in malih črkah, kar dodatno izboljša logiko identifikacije odstavka.
Če imate povratne informacije o tej objavi, jih pošljite v razdelek za komentarje. Veselimo se vašega odgovora. Preveri Funkcije prepisa Amazon za dodatne funkcije, ki vam bodo pomagale kar najbolje izkoristiti svoje prepise.
O avtorjih
Kostas Tzouvanas je arhitekt za poslovne rešitve pri Amazon Web Services. Strankam pomaga oblikovati rešitve v oblaku, da dosežejo svoj poslovni potencial. Njegov glavni poudarek so platforme za trgovanje in visoko zmogljivi računalniški sistemi. Navdušen je tudi nad genomiko in bioinformatiko.
Pavlos Kaimakis je arhitekt za podjetniške rešitve, ki skrbi za podjetniške stranke na GR/CY/MT in jih s svojimi izkušnjami podpira pri načrtovanju in izvajanju rešitev, ki jim prinašajo vrednost. Pavlos je v svoji karieri preživel največ časa v sektorju izdelkov in podpore strankam – tako z vidika inženiringa kot z vidika upravljanja. Pavlos rad potuje in je vedno pripravljen raziskovati nove kraje po svetu.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
- Kupujte in prodajajte delnice podjetij pred IPO s PREIPO®. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- :ima
- : je
- :ne
- $GOR
- 1
- 100
- 22
- 7
- 9
- a
- O meni
- Sprejmi
- sprejemanje
- Doseči
- dejanska
- dodajte
- dodajanje
- Dodatne
- po
- vsi
- skupaj
- Prav tako
- alternativa
- alternative
- vedno
- Amazon
- Amazonski prepis
- Amazon Web Services
- znesek
- an
- Analiza
- in
- narazen
- Uporabi
- SE
- Array
- AS
- At
- audio
- samodejno
- temeljijo
- BE
- ker
- Začetek
- BEST
- med
- največji
- tako
- Meje
- Meja
- Pasovi
- poslovni
- by
- se imenuje
- CAN
- kandidati
- Kariera
- primeru
- Channel
- preveriti
- komentarji
- Primerjava
- računalništvo
- Koncept
- zaupanje
- Prepričani
- konfiguracija
- premislek
- šteje
- upoštevamo
- vsebujejo
- vseboval
- vsebina
- ozadje
- Trenutna
- stranka
- Pomoč strankam
- Stranke, ki so
- odloča
- Odločitev
- privzeto
- zamuda
- zamude
- Oblikovanje
- dokument
- pogon
- trajanje
- vsak
- omogočena
- konec
- Inženiring
- izboljšanje
- Podjetje
- Vpis
- Tudi vsak
- Primer
- Primeri
- presega
- presega
- eksponati
- obstaja
- izkušnje
- Raziskovati
- Feature
- Lastnosti
- povratne informacije
- Slika
- file
- končna
- prva
- Osredotočite
- po
- sledi
- za
- obrazec
- format
- Naprej
- iz
- polno
- nadalje
- Prihodnost
- genomika
- dobili
- graf
- več
- Imajo
- he
- sluha
- pomoč
- Pomaga
- hi
- visoka
- njegov
- Kako
- HTTPS
- Identifikacija
- identifikator
- identificirati
- if
- izvajati
- in
- vključujejo
- Navedite
- označuje
- indikacija
- Podatki
- vpogled
- intervencije
- v
- uvesti
- Uvedeno
- Predstavlja
- IT
- Izdelkov
- Job
- jpg
- jezik
- Zadnja
- Stopnja
- kot
- Seznam
- Logika
- Poglej
- si
- ljubi
- Glavne
- Znamka
- upravljanje
- Navodilo
- znamka
- max
- največja
- pomeni
- metapodatki
- več
- Najbolj
- Novo
- št
- Številka
- predmeti
- of
- on
- ONE
- samo
- Delovanje
- operacije
- možnosti
- or
- Ostalo
- naši
- ven
- več
- zlasti
- strastno
- performance
- perspektiva
- Mesta
- Platforme
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Točka
- točke
- prebivalstvo
- Prispevek
- potencial
- predstaviti
- predstavljeni
- prejšnja
- Postopek
- Izdelek
- če
- zagotavlja
- vprašanje
- ponovi
- zahteva
- oziroma
- omejiti
- povzroči
- Rezultati
- Run
- Oddelek
- sektor
- izbran
- stavek
- Storitve
- shouldnt
- Razstave
- Pomen
- pomemben
- So
- Rešitev
- rešitve
- Zvočniki
- specifična
- porabljen
- po delih
- Razcepi
- Začetek
- Statistično
- Korak
- stop
- naravnost
- predloži
- taka
- predlagajte
- podpora
- Podprti
- Podpora
- sistemi
- ob
- kot
- da
- O
- svet
- njihove
- Njih
- POTEM
- Tukaj.
- s tem
- te
- tretja
- ta
- tisti,
- čas
- krat
- do
- Skupaj za plačilo
- Trgovanje
- Trgovalne platforme
- Prepis
- resnično
- tip
- Vrste
- tipičen
- dokler
- Uporaba
- uporaba
- uporablja
- uporabiti
- vrednost
- Vrednote
- Video
- Poglej
- je
- način..
- we
- web
- spletne storitve
- dobrodošli
- kdaj
- ki
- bo
- z
- brez
- beseda
- besede
- svet
- Vi
- Vaša rutina za
- zefirnet