Amazon Polly, tekoälyn tuottama teksti puheeksi -palvelu, antaa sinun automatisoida ja skaalata interaktiivisia puheratkaisujasi, mikä parantaa tuottavuutta ja vähentää kustannuksia.
Kun asiakkaamme käyttävät edelleen Amazon Pollya monipuolisten ominaisuuksiensa ja helppokäyttöisyytensä vuoksi, olemme havainneet kykyä tuottaa samanaikaisesti synkronoitua ääntä ja tekstityksiä tietylle tekstisyötölle. AWS:llä työskentelemme jatkuvasti taaksepäin asiakkaidemme pyynnöstä, joten tässä viestissä hahmottelemme menetelmän luoda ääni ja tekstitykset samanaikaisesti tietylle tekstille.
Vaikka tekstityksiä käytetään usein vaihtokelpoisina, myös tässä viestissä, niiden välillä on hienoisia eroja:
- tekstitys – Tekstityksessä näytöllä näkyvä tekstin kieli eroaa äänen kielestä, eikä se näytä mitään ei-dialogia, kuten merkittäviä ääniä. Ensisijainen tavoite on tavoittaa yleisö, joka ei puhu videon äänikieltä.
- Tekstitykset (suljettu/avoin) – Tekstitykset näyttävät äänessä puhutut dialogit samalla kielellä. Sen ensisijainen tarkoitus on parantaa käytettävyyttä tapauksissa, joissa loppukuluttaja ei kuule ääntä useiden ongelmien vuoksi. Tekstitykset ovat osa eri tiedostoa kuin ääni-/videolähde, ja ne voidaan kytkeä pois päältä ja päälle käyttäjän harkinnan mukaan, kun taas avoimet tekstitykset ovat osa videotiedostoa, eikä käyttäjä voi poistaa niitä käytöstä.
Edut Amazon Pollyn käyttämisestä äänen tuottamiseen tekstityksellä
Kuvittele seuraava käyttötapaus: teet diapohjaisen esityksen online-oppimisportaaliin. Jokainen dia sisältää näytön sisältöä ja kerrontaa. Näytön sisältö on perusluonne, ja kerronta menee yksityiskohtiin. Sen sijaan, että nauhoittaisit ihmisääntä, joka voi olla hankalaa ja epäjohdonmukaista, voit käyttää Amazon Pollya kertoman luomiseen. Amazon Polly tuottaa korkealaatuisia, yhtenäisiä ääniä. Jälkituotantoa ei tarvita. Jos sinun on jatkossa päivitettävä osa esityksestä, sinun tarvitsee päivittää vain kyseiset diat. Ääni vastaa alkuperäisiä dioja. Lisäksi kun Amazon Polly luo äänesi, tekstityksiä lisätään samaan aikaan äänen kanssa. Säästät aikaa, koska manuaalista tallennusta ei tarvita, ja säästät lisäaikaa, kun päivityksiä tarvitaan. Esityksesi tarjoaa myös enemmän arvoa, koska tekstitykset auttavat oppilaita käyttämään sisältöä. Se on win-win-win-ratkaisu.
Tekstityksille on olemassa lukuisia käyttötapauksia, kuten mainoksia sosiaalisissa tiloissa, kuntosalilla, kahviloissa ja muissa paikoissa, joissa televisiossa on tyypillisesti jotain ääntä mykistettynä ja musiikkia taustalla; Online-koulutus ja -luokat; virtuaaliset kokoukset; julkiset sähköiset ilmoitukset; videoiden katselu työmatkalla ilman kuulokkeita ja häiritsemättä muita matkustajia; ja useita muita.
Sovellusalueesta riippumatta tekstitys voi auttaa seuraavissa asioissa:
- Käytettävyys: – Kuulovammaiset voivat käyttää sisältöäsi paremmin.
- Säilyttäminen – Verkko-oppiminen on verkko-opiskelijoiden helpompi ymmärtää ja säilyttää, kun siihen liittyy enemmän ihmisen aisteja.
- tavoitettavuus – Sisältösi voi tavoittaa ihmiset, joilla on kilpailevat prioriteetit, kuten pelaaminen ja uutisten katselu samanaikaisesti, tai ihmiset, joiden äidinkieli on eri kuin äänen kieli.
- Haettavuus – Sisältö on haettavissa hakukoneilla. Vaikka useimmat hakukoneet eivät pysty hakemaan videoita optimaalisesti, hakukoneet voivat käyttää kuvatekstitiedostoja ja tehdä sisällöstäsi helpommin löydettävissä.
- Sosiaalinen kohteliaisuus – Joskus voi olla epäkohteliasta toistaa ääntä ympäristösi vuoksi tai ääntä voi olla vaikea kuulla ympäristösi melun vuoksi.
- Ymmärtäminen – Sisältö on helpompi ymmärtää puhujan aksentista, puhujan äidinkielestä tai puhenopeudesta riippumatta. Voit myös tehdä muistiinpanoja katsomatta samaa kohtausta toistuvasti.
Ratkaisun yleiskatsaus
Tässä viestissä esitetty kirjasto käyttää Amazon Pollya äänen ja tekstityksen luomiseen syöttötekstiä varten. Voit helposti integroida tämän kirjaston tekstistä puheeksi -sovelluksiin. Se tukee useita ääniformaatteja ja tekstityksiä sekä VTT- että SRT-tiedostomuodoissa, jotka ovat yleisimmin käytettyjä koko alalla.
Tässä viestissä keskitymme siihen PollyVTT()
syntaksi ja valinnat, ja tarjoa muutama esimerkki Pythonin käytöstä SubtitleGeneratorForPolly
luodaksesi samanaikaisesti synkronisia ääni- ja tekstitystiedostoja tietylle tekstisyötölle. Lähtöäänitiedostomuoto voi olla PCM(wav), OGG tai MP3, ja tekstitystiedostomuoto voi olla VTT tai SRT. Lisäksi, SubtitleGeneratorForPolly
tukee kaikkia Amazon Pollya synthesize_speech
parametreja ja lisää Amazon Polly -ominaisuusjoukkoa.
- polly-vtt
kirjasto ja sen riippuvuudet ovat saatavilla osoitteessa GitHub.
Asenna ja käytä toimintoa
Ennen kuin tarkastelemme joitain esimerkkejä käytöstä PollyVTT()
, toiminto, joka toimii SubtitleGeneratorForPolly
, katsotaanpa sen asennusta ja syntaksia.
Asenna kirjasto käyttämällä seuraavaa koodia:
Suoritaksesi komentoriviltä, suoritat vain polly-vtt
:
Seuraava koodi näyttää vaihtoehdot:
Katsotaanpa nyt muutama esimerkki.
Esimerkki 1
Tämä esimerkki luo PCM-äänitiedoston yhdessä SRT-tekstitiedoston kanssa kahdelle yksinkertaiselle lauseelle:
Esimerkki 2
Tämä esimerkki osoittaa, kuinka tekstikappaletta käytetään syötteenä. Tämä luo äänitiedostoja WAV-, MP3- ja OGG-muodoissa sekä tekstitykset SRT- ja VTT-muodoissa. Seuraava esimerkki luo kuusi tiedostoa annetulle syöttötekstille:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Katso seuraava koodi:
Esimerkki 3
Useimmissa tapauksissa haluat kuitenkin välittää tekstin syöttötiedostona. Seuraava on Python-esimerkki tästä, jolla on sama tulos kuin edellisessä esimerkissä:
Seuraava on suositusviesti AWS:n sisäiseltä koulutustiimiltä Amazon Pollyn käytöstä tekstityksellä:
Seuraava video tarjoaa lyhyen esittelyn siitä, kuinka AWS:n sisäinen koulutustiimi käyttää PollyVTT()
:
Yhteenveto
Tässä viestissä jaoimme menetelmän äänen ja tekstityksen luomiseksi samanaikaisesti tietylle tekstille. The PollyVTT()
toiminto ja SubtitleGeneratorForPolly
vastata yhteiseen tekstitysvaatimuksiin tehokkaalla ja vaikuttavalla tavalla. Amazon Polly -tiimi jatkaa yksinkertaistettujen ratkaisujen keksimistä ja tarjoamista monimutkaisiin asiakkaiden tarpeisiin.
Lisää opetusohjelmia ja tietoa Amazon Pollysta on osoitteessa AWS-koneoppimisblogi.
Tietoja Tekijät
Abhishek Soni on AWS: n Partner Solutions Architect. Hän tarjoaa asiakkailleen teknisiä ohjeita AWS-työkuormien parhaista tuloksista.
Dan McKee käyttää ääntä, videota ja kahvia sisällön tislaamiseen kohdistetuille, modulaarisille ja jäsennellyille kursseille. Tehtävässään Amazon Web Services -verkkopalveluiden NetSec-verkkotunnuksen opetussuunnitelman kehittäjäprojektipäällikkönä hän hyödyntää kokemustaan Data Center Networkingistä auttaakseen aiheiden asiantuntijoita toteuttamaan ideoita.
Orlando Karam on teknisen opetussuunnitelman kehittäjä Amazon Web Servicesissä, mikä tarkoittaa, että hän saa leikkiä uusilla hienoilla teknologioilla ja sitten puhua siitä. Joskus hän myös käyttää näitä hienoja tekniikoita helpottaakseen työtään.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazon Polly
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet