Luo synkronoituja tekstityksiä ja ääntä käyttämällä Amazon Polly -tekstitysgeneraattoria

Julkaissut Platon

seuraajia: 0

Amazon Polly, tekoälyn tuottama teksti puheeksi -palvelu, antaa sinun automatisoida ja skaalata interaktiivisia puheratkaisujasi, mikä parantaa tuottavuutta ja vähentää kustannuksia.

Kun asiakkaamme käyttävät edelleen Amazon Pollya monipuolisten ominaisuuksiensa ja helppokäyttöisyytensä vuoksi, olemme havainneet kykyä tuottaa samanaikaisesti synkronoitua ääntä ja tekstityksiä tietylle tekstisyötölle. AWS:llä työskentelemme jatkuvasti taaksepäin asiakkaidemme pyynnöstä, joten tässä viestissä hahmottelemme menetelmän luoda ääni ja tekstitykset samanaikaisesti tietylle tekstille.

Vaikka tekstityksiä käytetään usein vaihtokelpoisina, myös tässä viestissä, niiden välillä on hienoisia eroja:

tekstitys – Tekstityksessä näytöllä näkyvä tekstin kieli eroaa äänen kielestä, eikä se näytä mitään ei-dialogia, kuten merkittäviä ääniä. Ensisijainen tavoite on tavoittaa yleisö, joka ei puhu videon äänikieltä.
Tekstitykset (suljettu/avoin) – Tekstitykset näyttävät äänessä puhutut dialogit samalla kielellä. Sen ensisijainen tarkoitus on parantaa käytettävyyttä tapauksissa, joissa loppukuluttaja ei kuule ääntä useiden ongelmien vuoksi. Tekstitykset ovat osa eri tiedostoa kuin ääni-/videolähde, ja ne voidaan kytkeä pois päältä ja päälle käyttäjän harkinnan mukaan, kun taas avoimet tekstitykset ovat osa videotiedostoa, eikä käyttäjä voi poistaa niitä käytöstä.

Edut Amazon Pollyn käyttämisestä äänen tuottamiseen tekstityksellä

Kuvittele seuraava käyttötapaus: teet diapohjaisen esityksen online-oppimisportaaliin. Jokainen dia sisältää näytön sisältöä ja kerrontaa. Näytön sisältö on perusluonne, ja kerronta menee yksityiskohtiin. Sen sijaan, että nauhoittaisit ihmisääntä, joka voi olla hankalaa ja epäjohdonmukaista, voit käyttää Amazon Pollya kertoman luomiseen. Amazon Polly tuottaa korkealaatuisia, yhtenäisiä ääniä. Jälkituotantoa ei tarvita. Jos sinun on jatkossa päivitettävä osa esityksestä, sinun tarvitsee päivittää vain kyseiset diat. Ääni vastaa alkuperäisiä dioja. Lisäksi kun Amazon Polly luo äänesi, tekstityksiä lisätään samaan aikaan äänen kanssa. Säästät aikaa, koska manuaalista tallennusta ei tarvita, ja säästät lisäaikaa, kun päivityksiä tarvitaan. Esityksesi tarjoaa myös enemmän arvoa, koska tekstitykset auttavat oppilaita käyttämään sisältöä. Se on win-win-win-ratkaisu.

Tekstityksille on olemassa lukuisia käyttötapauksia, kuten mainoksia sosiaalisissa tiloissa, kuntosalilla, kahviloissa ja muissa paikoissa, joissa televisiossa on tyypillisesti jotain ääntä mykistettynä ja musiikkia taustalla; Online-koulutus ja -luokat; virtuaaliset kokoukset; julkiset sähköiset ilmoitukset; videoiden katselu työmatkalla ilman kuulokkeita ja häiritsemättä muita matkustajia; ja useita muita.

Sovellusalueesta riippumatta tekstitys voi auttaa seuraavissa asioissa:

Käytettävyys: – Kuulovammaiset voivat käyttää sisältöäsi paremmin.
Säilyttäminen – Verkko-oppiminen on verkko-opiskelijoiden helpompi ymmärtää ja säilyttää, kun siihen liittyy enemmän ihmisen aisteja.
tavoitettavuus – Sisältösi voi tavoittaa ihmiset, joilla on kilpailevat prioriteetit, kuten pelaaminen ja uutisten katselu samanaikaisesti, tai ihmiset, joiden äidinkieli on eri kuin äänen kieli.
Haettavuus – Sisältö on haettavissa hakukoneilla. Vaikka useimmat hakukoneet eivät pysty hakemaan videoita optimaalisesti, hakukoneet voivat käyttää kuvatekstitiedostoja ja tehdä sisällöstäsi helpommin löydettävissä.
Sosiaalinen kohteliaisuus – Joskus voi olla epäkohteliasta toistaa ääntä ympäristösi vuoksi tai ääntä voi olla vaikea kuulla ympäristösi melun vuoksi.
Ymmärtäminen – Sisältö on helpompi ymmärtää puhujan aksentista, puhujan äidinkielestä tai puhenopeudesta riippumatta. Voit myös tehdä muistiinpanoja katsomatta samaa kohtausta toistuvasti.

Ratkaisun yleiskatsaus

Tässä viestissä esitetty kirjasto käyttää Amazon Pollya äänen ja tekstityksen luomiseen syöttötekstiä varten. Voit helposti integroida tämän kirjaston tekstistä puheeksi -sovelluksiin. Se tukee useita ääniformaatteja ja tekstityksiä sekä VTT- että SRT-tiedostomuodoissa, jotka ovat yleisimmin käytettyjä koko alalla.

Tässä viestissä keskitymme siihen PollyVTT() syntaksi ja valinnat, ja tarjoa muutama esimerkki Pythonin käytöstä SubtitleGeneratorForPolly luodaksesi samanaikaisesti synkronisia ääni- ja tekstitystiedostoja tietylle tekstisyötölle. Lähtöäänitiedostomuoto voi olla PCM(wav), OGG tai MP3, ja tekstitystiedostomuoto voi olla VTT tai SRT. Lisäksi, SubtitleGeneratorForPolly tukee kaikkia Amazon Pollya synthesize_speech parametreja ja lisää Amazon Polly -ominaisuusjoukkoa.

- polly-vtt kirjasto ja sen riippuvuudet ovat saatavilla osoitteessa GitHub.

Asenna ja käytä toimintoa

Ennen kuin tarkastelemme joitain esimerkkejä käytöstä PollyVTT(), toiminto, joka toimii SubtitleGeneratorForPolly, katsotaanpa sen asennusta ja syntaksia.

Asenna kirjasto käyttämällä seuraavaa koodia:

pip install

Suoritaksesi komentoriviltä, suoritat vain polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Seuraava koodi näyttää vaihtoehdot:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Katsotaanpa nyt muutama esimerkki.

Esimerkki 1

Tämä esimerkki luo PCM-äänitiedoston yhdessä SRT-tekstitiedoston kanssa kahdelle yksinkertaiselle lauseelle:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Esimerkki 2

Tämä esimerkki osoittaa, kuinka tekstikappaletta käytetään syötteenä. Tämä luo äänitiedostoja WAV-, MP3- ja OGG-muodoissa sekä tekstitykset SRT- ja VTT-muodoissa. Seuraava esimerkki luo kuusi tiedostoa annetulle syöttötekstille:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

Katso seuraava koodi:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

Esimerkki 3

Useimmissa tapauksissa haluat kuitenkin välittää tekstin syöttötiedostona. Seuraava on Python-esimerkki tästä, jolla on sama tulos kuin edellisessä esimerkissä:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Seuraava on suositusviesti AWS:n sisäiseltä koulutustiimiltä Amazon Pollyn käytöstä tekstityksellä:

Seuraava video tarjoaa lyhyen esittelyn siitä, kuinka AWS:n sisäinen koulutustiimi käyttää PollyVTT():

Yhteenveto

Tässä viestissä jaoimme menetelmän äänen ja tekstityksen luomiseksi samanaikaisesti tietylle tekstille. The PollyVTT() toiminto ja SubtitleGeneratorForPolly vastata yhteiseen tekstitysvaatimuksiin tehokkaalla ja vaikuttavalla tavalla. Amazon Polly -tiimi jatkaa yksinkertaistettujen ratkaisujen keksimistä ja tarjoamista monimutkaisiin asiakkaiden tarpeisiin.

Lisää opetusohjelmia ja tietoa Amazon Pollysta on osoitteessa AWS-koneoppimisblogi.

Tietoja Tekijät

Abhishek Soni on AWS: n Partner Solutions Architect. Hän tarjoaa asiakkailleen teknisiä ohjeita AWS-työkuormien parhaista tuloksista.

Dan McKee käyttää ääntä, videota ja kahvia sisällön tislaamiseen kohdistetuille, modulaarisille ja jäsennellyille kursseille. Tehtävässään Amazon Web Services -verkkopalveluiden NetSec-verkkotunnuksen opetussuunnitelman kehittäjäprojektipäällikkönä hän hyödyntää kokemustaan Data Center Networkingistä auttaakseen aiheiden asiantuntijoita toteuttamaan ideoita.

Orlando Karam on teknisen opetussuunnitelman kehittäjä Amazon Web Servicesissä, mikä tarkoittaa, että hän saa leikkiä uusilla hienoilla teknologioilla ja sitten puhua siitä. Joskus hän myös käyttää näitä hienoja tekniikoita helpottaakseen työtään.