Nimikenäkymässä tuotteet tarjotaan oikea-aikaisesti järjestetyn luettelon muodossa, ja jokainen tuote sisältää lisätietoja metadatasta:
{ "results": { "items": [ { "channel_label": "ch_0", "start_time": "1.509", "speaker_label": "spk_0", "end_time": "2.21", "alternatives": [ { "confidence": "0.999", "content": "Hi" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "," } ], "type": "punctuation" }, { "channel_label": "ch_0", "start_time": "2.22", "speaker_label": "spk_0", "end_time": "2.9", "alternatives": [ { "confidence": "0.999", "content": "welcome" } ], "type": "pronunciation" }, { "channel_label": "ch_0", "speaker_label": "spk_0", "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ] }
}
Metatiedot ovat seuraavat:
- Tyyppi – Tyyppiarvo ilmaisee, onko tietty kohde välimerkki vai ääntäminen. Esimerkkejä tuetuista välimerkeistä ovat pilkku, piste ja kysymysmerkki.
- Vaihtoehdot – Joukko objekteja, jotka sisältävät varsinaisen transkription sekä luottamustason luotettavuustason mukaan järjestetyssä. Kun vaihtoehtoiset tulokset -ominaisuus ei ole käytössä, tässä luettelossa on aina vain yksi kohde.
- Luottamus – Osoitus siitä, kuinka varma Amazon Transcribe on transkription oikeellisuudesta. Se käyttää arvoja 0–1, ja 1 tarkoittaa 100 %:n luotettavuutta.
- Sisältö – Transkriboitu sana.
- Aloitusaika – Ääni- tai videotiedoston aikaosoitin, joka osoittaa kohteen alun ss.SSS-muodossa.
- Päättymisaika – Ääni- tai videotiedoston aikaosoitin, joka osoittaa kohteen päättymisen ss.SSS-muodossa.
- Kanavan tunniste – Kanavan tunniste, joka näkyy kohdassa vain, kun kanavantunnistusominaisuus on otettu käyttöön työn kokoonpanossa.
- Kaiuttimen etiketti – Kaiuttimen tunniste, joka näkyy kohteessa vain, kun kaiuttimien osiointitoiminto on otettu käyttöön työn määrityksessä.
Kappaleiden tunnistaminen
Kappaleiden tunnistaminen perustuu kohdenäkymän metatietotietoihin. Käytämme erityisesti aloitus- ja lopetusaikatietoja sekä transkriptiotyyppiä ja sisältöä tunnistaaksemme lauseet ja sitten päättääksemme, mitkä lauseet ovat parhaita ehdokkaita kappaleiden aloituspisteisiin.
Lauseen katsotaan olevan lista transkriptiokohteita, jotka ovat pistettä osoittavien välimerkkien välissä. Poikkeuksena ovat transkription alku ja loppu, jotka ovat oletuksena lauserajoja. Seuraavassa kuvassa on esimerkki näistä kohteista.
Virkkeen tunnistaminen on yksinkertaista Amazon Transcriben avulla, koska välimerkit ovat valmiita ominaisuus, samoin kuin välimerkkityypit pilkku, piste ja kysymysmerkki. Tässä konseptissa käytämme pistettä lauseen rajana.
Jokaisen lauseen ei pitäisi olla kappalekohta. Kappaleiden tunnistamiseksi otamme käyttöön uuden oivalluksen lausetasolla, jota kutsutaan aloitusviiveeksi, kuten seuraavassa kuvassa näkyy. Käytämme aloitusviivettä määrittääksemme viiveen, jonka puhuja lisää nykyisen lauseen ääntämiseen verrattuna edelliseen.
Aloitusviiveen laskeminen edellyttää nykyisen lauseen alkamisajan ja edellisen lopetusajan per puhuja. Koska Amazon Transcribe tarjoaa aloitus- ja lopetusajat per kohde, laskenta edellyttää nykyisen ja edellisen lauseen ensimmäisen ja viimeisen kohdan käyttöä.
Kun tiedämme jokaisen lauseen aloitusviiveet, voimme soveltaa tilastollista analyysiä ja selvittää jokaisen viiveen merkityksen viiveiden kokonaismäärään verrattuna. Meidän kontekstissamme merkittäviä viivästyksiä ovat ne, jotka ylittävät väestölle tyypillisen keston. Seuraavassa kaaviossa on esimerkki.
Tässä konseptissa päätämme hyväksyä lauseet, joiden aloitusviive on suurempi kuin keskiarvo, merkitseviksi ja lisäämme kappalepisteen jokaisen tällaisen lauseen alkuun. Keskiarvon lisäksi on muitakin vaihtoehtoja, kuten hyväksyä kaikki aloitusviiveet, jotka ovat suuremmat kuin populaation mediaani tai kolmas kvantiili tai ylemmän aidan arvo.
Lisäämme kappaleiden tunnistusprosessiin vielä yhden lisävaiheen ottaen huomioon kunkin kappaleen sisältämien sanojen määrän. Kun kappaleet sisältävät huomattavan määrän sanoja, suoritamme jakamisen, jolloin lopputulokseen lisätään yksi kappale.
Sanamäärien yhteydessä määrittelemme merkittäviksi ne sanamäärät, jotka ylittävät ylemmän aidan arvon. Teemme tämän päätöksen tietoisesti, jotta rajoitamme split-toiminnot niihin kappaleisiin, jotka todella käyttäytyvät poikkeavina tuloksissamme. Seuraavassa kaaviossa on esimerkki.
Jakotoiminto valitsee uuden kappaleen aloituskohdan ottamalla huomioon lauseen aloitusviiveen enimmäismäärän. Tällä tavalla uusi kappale lisätään lauseeseen, jossa on suurin aloitusviive nykyisen kappaleen sisällä. Splitit voidaan toistaa, kunnes yksikään sanamäärä ei ylitä valittua rajaa, tässä tapauksessa ylemmän aidan arvoa. Seuraavassa kuvassa on esimerkki.
Yhteenveto
Tässä viestissä esittelimme konseptin lisätä kappaleet automaattisesti transkriptioihin ilman manuaalista puuttumista, Amazon Transcriben ja todellisen transkription tarjoamien metatietojen perusteella.
Tämä käsite ei ole kieli- tai aksenttikohtainen, koska se perustuu ei-lingvistisiin metatietoihin ehdottaakseen kappaleiden aloituskohtia. Tulevat muunnelmat voivat sisältää kieliopillista tai semanttista tietoa kielikohtaisesta tapauksesta, mikä parantaa kappaleiden tunnistuslogiikkaa entisestään.
Jos sinulla on palautetta tästä postauksesta, lähetä kommenttisi kommenttiosiossa. Me odotamme yhteydenottoasi. Tarkista Amazon Transcribe -ominaisuudet lisäominaisuuksia, jotka auttavat sinua saamaan parhaan hyödyn transkriptioistasi.
Tietoja Tekijät
Kostas Tzouvanas on yritysratkaisuarkkitehti Amazon Web Servicesissä. Hän auttaa asiakkaita suunnittelemaan pilvipohjaisia ratkaisuja saavuttamaan liiketoimintapotentiaalinsa. Hänen pääpainonsa ovat kaupankäyntijärjestelmät ja korkean suorituskyvyn laskentajärjestelmät. Hän on myös intohimoinen genomiikasta ja bioinformatiikasta.
Pavlos Kaimakis on Enterprise Solutions -arkkitehti, joka huolehtii yritysasiakkaista GR/CY/MT:ssä ja tukee heitä kokemuksellaan suunnitella ja toteuttaa ratkaisuja, jotka tuovat heille arvoa. Pavlos on työskennellyt uransa suurimman osan ajasta tuote- ja asiakastukisektorilla – sekä suunnittelun että johdon näkökulmasta. Pavlos rakastaa matkustamista ja on aina valmis tutkimaan uusia paikkoja maailmassa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
- Tulevaisuuden lyöminen Adryenn Ashley. Pääsy tästä.
- Osta ja myy osakkeita PRE-IPO-yhtiöissä PREIPO®:lla. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/arrange-your-transcripts-into-paragraphs-with-amazon-transcribe/
- :on
- :On
- :ei
- $ YLÖS
- 1
- 100
- 22
- 7
- 9
- a
- Meistä
- Hyväksyä
- hyväksymisestä
- Saavuttaa
- todellinen
- lisätä
- lisää
- lisä-
- Jälkeen
- Kaikki
- pitkin
- Myös
- vaihtoehto
- vaihtoehdot
- aina
- Amazon
- Amazonin transkriptio
- Amazon Web Services
- määrä
- an
- analyysi
- ja
- erilleen
- käyttää
- OVAT
- Ryhmä
- AS
- At
- audio-
- automaattisesti
- perustua
- BE
- koska
- Alku
- PARAS
- välillä
- Suurimmat
- sekä
- rajat
- raja
- Laatikko
- liiketoiminta
- by
- nimeltään
- CAN
- ehdokkaat
- Ura
- tapaus
- Kanava
- tarkastaa
- kommentit
- vertailu
- tietojenkäsittely
- käsite
- luottamus
- luottavainen
- Konfigurointi
- harkinta
- harkittu
- ottaen huomioon
- sisältää
- sisälsi
- pitoisuus
- tausta
- Nykyinen
- asiakas
- Asiakaspalvelu
- Asiakkaat
- päättää
- päätös
- oletusarvo
- viivyttää
- viiveet
- Malli
- asiakirja
- ajaa
- kesto
- kukin
- käytössä
- loppu
- Tekniikka
- parantaa
- yritys
- merkintä
- Joka
- esimerkki
- Esimerkit
- ylittää
- ylittää
- Näytteillä
- olemassa
- experience
- Tutkiminen
- Ominaisuus
- Ominaisuudet
- palaute
- Kuva
- filee
- lopullinen
- Etunimi
- Keskittää
- jälkeen
- seuraa
- varten
- muoto
- muoto
- Eteenpäin
- alkaen
- koko
- edelleen
- tulevaisuutta
- genomiikka
- saada
- kaavio
- suurempi
- Olla
- he
- kuulo
- auttaa
- auttaa
- hi
- Korkea
- hänen
- Miten
- HTTPS
- Tunnistaminen
- tunniste
- tunnistaa
- if
- toteuttaa
- in
- sisältää
- osoittaa
- ilmaisee
- osoitus
- tiedot
- tietoa
- interventio
- tulee
- esitellä
- käyttöön
- Esittelee
- IT
- kohdetta
- Job
- jpg
- Kieli
- Sukunimi
- Taso
- pitää
- Lista
- logiikka
- katso
- näköinen
- rakastaa
- tärkein
- tehdä
- johto
- manuaalinen
- Merkitse
- max
- maksimi
- tarkoittaa
- Metadata
- lisää
- eniten
- Uusi
- Nro
- numero
- esineet
- of
- on
- ONE
- vain
- toiminta
- Operations
- Vaihtoehdot
- or
- Muut
- meidän
- ulos
- yli
- erityinen
- intohimoinen
- suorituskyky
- näkökulma
- paikat
- Platforms
- Platon
- Platonin tietotieto
- PlatonData
- Kohta
- pistettä
- väestö
- Kirje
- mahdollinen
- esittää
- esitetty
- edellinen
- prosessi
- Tuotteet
- mikäli
- tarjoaa
- kysymys
- toistuva
- Vaatii
- vastaavasti
- rajoittaa
- johtua
- tulokset
- ajaa
- Osa
- sektori
- valittu
- tuomita
- Palvelut
- shouldnt
- Näytä
- merkitys
- merkittävä
- So
- ratkaisu
- Ratkaisumme
- Kaiutin
- erityinen
- käytetty
- jakaa
- splits
- Alkaa
- tilastollinen
- Vaihe
- stop
- suora
- antaa
- niin
- ehdottaa
- tuki
- Tuetut
- Tukea
- järjestelmät
- ottaen
- kuin
- että
- -
- maailma
- heidän
- Niitä
- sitten
- Siellä.
- siten
- Nämä
- kolmas
- tätä
- ne
- aika
- kertaa
- että
- Yhteensä
- kaupankäynti
- Kaupankäyntialustat
- Jäljennös
- todella
- tyyppi
- tyypit
- tyypillinen
- asti
- Käyttö
- käyttää
- käyttötarkoituksiin
- käyttää
- arvo
- arvot
- Video
- Näytä
- oli
- Tapa..
- we
- verkko
- verkkopalvelut
- tervetuloa
- kun
- joka
- tulee
- with
- ilman
- sana
- sanoja
- maailman-
- Voit
- Sinun
- zephyrnet