În vizualizarea articolelor, articolele sunt furnizate sub forma unei liste ordonate în timp util, fiecare articol conținând informații suplimentare despre metadate:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Metadatele sunt după cum urmează:
- Tip – Valoarea tip indică dacă elementul specific este o punctuație sau o pronunție. Exemple de semne de punctuație acceptate sunt virgula, punctul și semnul de întrebare.
- Alternative – O serie de obiecte care conțin transcrierea reală, împreună cu nivelul de încredere, ordonate după nivelul de încredere. Când funcția de rezultate alternative nu este activată, această listă are întotdeauna un singur articol.
- Încredere – O indicație a cât de sigur este Amazon Transcribe cu privire la corectitudinea transcripției. Utilizează valori de la 0 la 1, cu 1 indicând încredere 100%.
- Conţinut – Cuvântul transcris.
- Începeți timp – Un indicator de timp al fișierului audio sau video care indică începutul articolului în format ss.SSS.
- End time – Un indicator de timp al fișierului audio sau video care indică sfârșitul articolului în format ss.SSS.
- Eticheta canalului – Identificatorul de canal, care este prezent în articol numai atunci când caracteristica de identificare a canalului a fost activată în configurația jobului.
- Eticheta difuzorului – Identificatorul difuzorului, care este prezent în element numai atunci când caracteristica de partiţionare a difuzorului a fost activată în configuraţia jobului.
Identificarea paragrafelor
Identificarea paragrafelor se bazează pe informațiile despre metadate din vizualizarea articolelor. În special, utilizăm informații despre ora de început și de sfârșit împreună cu tipul și conținutul transcripției pentru a identifica propozițiile și apoi decidem care propoziții sunt cele mai bune candidate pentru punctele de intrare în paragraf.
O propoziție este considerată a fi o listă de elemente de transcriere care există între elementele de punctuație care indică punctul. Excepții de la aceasta sunt începutul și sfârșitul transcrierii, care sunt în mod implicit granițele propoziției. Figura următoare prezintă un exemplu al acestor elemente.
Identificarea propoziției este simplă cu Amazon Transcribe, deoarece punctuația este o caracteristică ieșită din cutie, împreună cu tipurile de punctuație virgulă, punct, semn de întrebare. În acest concept, folosim punctul ca limită a propoziției.
Nu fiecare propoziție ar trebui să fie un punct de paragraf. Pentru a identifica paragrafele, introducem o nouă perspectivă la nivel de propoziție numită întârziere de pornire, așa cum este ilustrat în figura următoare. Folosim o întârziere de pornire pentru a defini întârzierea pe care vorbitorul o introduce în pronunția propoziției curente în comparație cu cea anterioară.
Calculul întârzierii de pornire necesită ora de începere a propoziției curente și ora de încheiere a celei anterioare pentru fiecare vorbitor. Deoarece Amazon Transcribe oferă orele de început și de sfârșit pentru fiecare articol, calculul necesită utilizarea primului și ultimului elemente din propozițiile curente și, respectiv, anterioare.
Cunoscând întârzierile de începere a fiecărei propoziții, putem aplica o analiză statistică și putem descoperi semnificația fiecărei întârzieri în comparație cu populația totală de întârzieri. În contextul nostru, întârzierile semnificative sunt cele care depășesc durata tipică a populației. Următorul grafic prezintă un exemplu.
Pentru acest concept, decidem să acceptăm ca semnificative propozițiile cu întârzieri de început mai mari decât valoarea medie și să introducem un punct de paragraf la începutul fiecărei astfel de propoziții. În afară de valoarea medie, există și alte opțiuni, cum ar fi acceptarea tuturor întârzierilor de pornire mai mari decât mediana, sau a treia quantila sau valoarea superioară a gardului a populației.
Adăugăm încă un pas suplimentar procesului de identificare a paragrafului, ținând cont de numărul de cuvinte conținute de fiecare paragraf. Când paragrafele conțin un număr semnificativ de cuvinte, rulăm o operație de împărțire, adăugând astfel încă un paragraf la rezultatul final.
În contextul numărării de cuvinte, definim ca fiind semnificative numărul de cuvinte care depășește valoarea superioară a gardului. Luăm această decizie în mod deliberat, astfel încât să limităm operațiunile de împărțire la paragrafele care se comportă cu adevărat ca valori aberante în rezultatele noastre. Următorul grafic prezintă un exemplu.
Operația de împărțire selectează noul punct de intrare în paragraf luând în considerare întârzierea maximă a începerii propoziției. În acest fel, noul paragraf este introdus la propoziția care prezintă întârzierea maximă de pornire în paragraful curent. Împărțirile pot fi repetate până când niciun număr de cuvinte nu depășește limita selectată, în cazul nostru valoarea superioară a gardului. Figura următoare prezintă un exemplu.
Concluzie
În această postare, am prezentat un concept pentru a introduce automat paragrafe în transcrierile dvs., fără intervenție manuală, pe baza metadatelor pe care Amazon Transcribe le oferă împreună cu transcrierea propriu-zisă.
Acest concept nu este specific pentru limba sau accent, deoarece se bazează pe metadate non-lingvistice pentru a sugera puncte de intrare în paragraf. Variațiile viitoare pot include informații gramaticale sau semantice despre un caz pe limbă, îmbunătățind și mai mult logica de identificare a paragrafelor.
Dacă aveți feedback despre această postare, trimiteți comentariile dvs. în secțiunea de comentarii. Asteptam sa auzim de tine. Verifică Funcții Amazon Transcribe pentru funcții suplimentare care vă vor ajuta să obțineți cea mai mare valoare din transcrierile dvs.
Despre Autori
Kostas Tzouvanas este arhitect de soluții pentru întreprinderi la Amazon Web Services. El îi ajută pe clienți să proiecteze soluții bazate pe cloud pentru a-și atinge potențialul de afaceri. Principalul său obiectiv este platformele de tranzacționare și sistemele de calcul de înaltă performanță. De asemenea, este pasionat de genomică și bioinformatică.
Pavlos Kaimakis este un arhitect de soluții de întreprindere care se ocupă de clienții Enterprise din GR/CY/MT, sprijinindu-i cu experiența sa în proiectarea și implementarea soluțiilor care le aduc valoare. Pavlos a petrecut cel mai mare timp din cariera sa în sectorul de produse și asistență pentru clienți – atât din punct de vedere ingineresc, cât și din punct de vedere al managementului. Pavlos îi place să călătorească și este mereu pregătit să exploreze locuri noi din lume.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
- Mintând viitorul cu Adryenn Ashley. Accesați Aici.
- Cumpărați și vindeți acțiuni în companii PRE-IPO cu PREIPO®. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- :are
- :este
- :nu
- $UP
- 1
- 100
- 22
- 7
- 9
- a
- Despre Noi
- Accept
- acceptare
- Obține
- curent
- adăuga
- adăugare
- Suplimentar
- După
- TOATE
- de-a lungul
- de asemenea
- alternativă
- alternative
- mereu
- Amazon
- Transcriere Amazon
- Amazon Web Services
- sumă
- an
- analiză
- și
- separat
- Aplică
- SUNT
- Mulțime
- AS
- At
- audio
- în mod automat
- bazat
- BE
- deoarece
- Început
- CEL MAI BUN
- între
- Cea mai mare
- atât
- limitele
- graniţă
- Cutie
- afaceri
- by
- denumit
- CAN
- candidaţilor
- Carieră
- caz
- Canal
- verifica
- comentarii
- comparație
- tehnica de calcul
- concept
- încredere
- încrezător
- Configuraţie
- considerare
- luate în considerare
- luand in considerare
- conţine
- conținute
- conţinut
- context
- Curent
- client
- Relații Clienți
- clienţii care
- decide
- decizie
- Mod implicit
- întârziere
- întârzieri
- Amenajări
- document
- conduce
- durată
- fiecare
- activat
- capăt
- Inginerie
- consolidarea
- Afacere
- intrare
- Fiecare
- exemplu
- exemple
- depăși
- depășește
- Exponatele
- există
- experienţă
- Explorarea
- Caracteristică
- DESCRIERE
- feedback-ul
- Figura
- Fișier
- final
- First
- Concentra
- următor
- urmează
- Pentru
- formă
- format
- Înainte
- din
- Complet
- mai mult
- viitor
- genomica
- obține
- grafic
- mai mare
- Avea
- he
- auz
- ajutor
- ajută
- hi
- Înalt
- lui
- Cum
- HTTPS
- Identificare
- identificator
- identifica
- if
- punerea în aplicare a
- in
- include
- indica
- indică
- indicaţie
- informații
- înţelegere
- intervenţie
- în
- introduce
- introdus
- Prezintă
- IT
- articole
- Loc de munca
- jpg
- limbă
- Nume
- Nivel
- ca
- Listă
- logică
- Uite
- cautati
- iubeste
- Principal
- face
- administrare
- manual
- marca
- max
- maxim
- însemna
- Metadata
- mai mult
- cele mai multe
- Nou
- Nu.
- număr
- obiecte
- of
- on
- ONE
- afară
- operaţie
- Operațiuni
- Opţiuni
- or
- Altele
- al nostru
- afară
- peste
- special
- pasionat
- performanță
- perspectivă
- Locuri
- Platforme
- Plato
- Informații despre date Platon
- PlatoData
- Punct
- puncte
- populație
- Post
- potenţial
- prezenta
- prezentat
- precedent
- proces
- Produs
- prevăzut
- furnizează
- întrebare
- repetat
- Necesită
- respectiv
- restrânge
- rezultat
- REZULTATE
- Alerga
- Secțiune
- sector
- selectate
- propoziție
- Servicii
- să
- Emisiuni
- semnificație
- semnificativ
- So
- soluţie
- soluţii
- Vorbitor
- specific
- uzat
- împărţi
- șpalturi
- Începe
- statistic
- Pas
- Stop
- simplu
- prezenta
- astfel de
- sugera
- a sustine
- Suportat
- De sprijin
- sisteme
- luare
- decât
- acea
- lumea
- lor
- Lor
- apoi
- Acolo.
- astfel
- Acestea
- Al treilea
- acest
- aceste
- timp
- ori
- la
- Total
- Trading
- Platforme de tranzacționare
- Copie
- cu adevărat
- tip
- Tipuri
- tipic
- până la
- Folosire
- utilizare
- utilizări
- folosi
- valoare
- Valori
- Video
- Vizualizare
- a fost
- Cale..
- we
- web
- servicii web
- bun venit
- cand
- care
- voi
- cu
- fără
- Cuvânt
- cuvinte
- lume
- Tu
- Ta
- zephyrnet