Looge Amazon Polly subtiitrite generaatori abil sünkroonitud subtiitreid ja heli

Amazon PollyAI loodud teksti kõneks muutmise teenus võimaldab teil interaktiivseid kõnelahendusi automatiseerida ja skaleerida, aidates parandada tootlikkust ja vähendada kulusid.

Kuna meie kliendid kasutavad Amazon Pollyt jätkuvalt selle rikkalike funktsioonide ja kasutusmugavuse tõttu, oleme täheldanud nõudlust võimaluse järele luua üheaegselt sünkroonitud heli ja subtiitreid või subtiitreid antud tekstisisendi jaoks. AWS-is töötame pidevalt klientide nõudmiste järgi tagasi, nii et selles postituses kirjeldame meetodit, kuidas luua antud teksti jaoks samaaegselt heli ja subtiitreid.

Kuigi subtiitreid kasutatakse sageli vaheldumisi, sealhulgas selles postituses, on nende vahel väikesed erinevused:

  • Subtiitrid – Subtiitrite puhul erineb ekraanil kuvatav tekstikeel helikeelest ega kuva mittedialoogi jaoks midagi, näiteks olulisi helisid. Peamine eesmärk on jõuda vaatajaskonnani, kes ei räägi video helikeelt.
  • Subtiitrid (suletud/avatud) - Tiitrid kuvavad dialoogid, mida räägitakse helis samas keeles. Selle esmane eesmärk on suurendada juurdepääsetavust juhtudel, kui lõpptarbija ei saa heli mitmesuguste probleemide tõttu kuulda. Subtiitrid on osa erinevast failist kui heli-/videoallikas ning neid saab kasutaja äranägemisel välja ja sisse lülitada, samas kui avatud subtiitrid on osa videofailist ja kasutaja ei saa neid välja lülitada.

Amazon Polly kasutamise eelised subtiitrite või subtiitritega heli genereerimiseks

Kujutage ette järgmist kasutusjuhtumit: koostate veebipõhise õppeportaali jaoks slaidipõhise esitluse. Iga slaid sisaldab ekraanil kuvatavat sisu ja jutustamist. Ekraanil kuvatav sisu on põhiülevaade ja jutustus läheb detailidesse. Selle asemel, et salvestada inimhäält, mis võib olla tülikas ja ebajärjekindel, saate jutustuse genereerimiseks kasutada Amazon Pollyt. Amazon Polly toodab kvaliteetseid ja ühtseid hääli. Järeltöötlust pole vaja. Tulevikus, kui peate värskendama osa esitlusest, peate värskendama ainult mõjutatud slaide. Hääl ühtib originaalslaididega. Lisaks, kui Amazon Polly loob teie heli, lisatakse subtiitrid, mis ilmuvad koos heliga. Säästate aega, kuna pole vaja käsitsi salvestada, ja säästate täiendavat aega, kui on vaja värskendusi. Teie esitlus pakub ka rohkem väärtust, sest pealdised aitavad õpilastel sisu tarbida. See on win-win-win lahendus.

Subtiitrite kasutusjuhtumeid on palju, näiteks reklaamid sotsiaalruumides, spordisaalides, kohvikutes ja muudes kohtades, kus tavaliselt on televiisoris midagi, mille heli on vaigistatud ja muusika taustal; Siduskoolitused ja -tunnid; virtuaalsed koosolekud; avalikud elektroonilised teadaanded; videote vaatamine tööle sõites ilma kõrvaklappideta ja kaasreisijaid segamata; ja veel mitu.

Olenemata kasutusvaldkonnast võib subtiitrid aidata järgmistel juhtudel.

  • kättesaadavus – Kuulmispuudega inimesed saavad teie sisu paremini tarbida.
  • Säilitamine – Veebiõpet on e-õppijatel lihtsam mõista ja säilitada, kui kaasatud on rohkem inimmeeli.
  • Kättesaadavus – Teie sisu võib jõuda inimesteni, kellel on konkureerivad prioriteedid, nagu mängimine ja uudiste samaaegne vaatamine, või inimesteni, kelle emakeel erineb helikeelest.
  • Otsitavust - Sisu on otsingumootorites otsitav. Kui enamik otsingumootoreid ei saa videoid optimaalselt otsida, saavad otsingumootorid kasutada subtiitrite tekstifaile ja muuta teie sisu paremini leitavaks.
  • Sotsiaalne viisakus – Mõnikord võib heli esitamine olla ebaviisakas ümbritseva keskkonna tõttu või heli võib olla raske kuulda teie keskkonna müra tõttu.
  • Arusaamine – Sisu on kergemini mõistetav, olenemata kõneleja aktsendist, kõneleja emakeelest või kõne kiirusest. Märkmeid saate teha ka ilma sama stseeni korduvalt vaatamata.

Lahenduse ülevaade

Selles postituses esitatud teek kasutab sisendteksti heli ja pealkirjade genereerimiseks Amazon Pollyt. Saate selle teegi hõlpsasti integreerida oma kõnesünteesi rakendustesse. See toetab mitut helivormingut ja subtiitreid nii VTT- kui ka SRT-failivormingus, mis on kogu tööstuses kõige sagedamini kasutatavad.

Selles postituses keskendume sellele PollyVTT() süntaks ja suvandid ning pakume mõnda näidet, mis näitavad Pythoni kasutamist SubtitleGeneratorForPolly sünkroonsete heli- ja subtiitrifailide üheaegseks genereerimiseks antud tekstisisendi jaoks. Väljundhelifaili vorming võib olla PCM(wav), OGG või MP3 ja subtiitrite failivorming võib olla VTT või SRT. Lisaks SubtitleGeneratorForPolly toetab kogu Amazon Pollyt synthesize_speech parameetrid ja lisab rikkalikku Amazon Polly funktsioonikomplekti.

. polly-vtt raamatukogu ja selle sõltuvused on saadaval aadressil GitHub.

Installige ja kasutage funktsiooni

Enne kui vaatame mõningaid kasutamise näiteid PollyVTT(), funktsioon, mis annab volitusi SubtitleGeneratorForPolly, vaatame selle installimist ja süntaksit.

Installige raamatukogu, kasutades järgmist koodi:

pip install

Käsurealt käivitamiseks peate lihtsalt käivitama polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Järgmine kood näitab teie valikuid.

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Vaatame nüüd mõnda näidet.

Näiteks 1

See näide genereerib PCM-helifaili koos SRT-tiitrifailiga kahe lihtsa lause jaoks:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Näiteks 2

See näide demonstreerib, kuidas kasutada sisendiks teksti lõiku. See genereerib helifaile WAV-, MP3- ja OGG-vormingus ning subtiitreid SRT- ja VTT-vormingus. Järgmine näide loob antud sisendteksti jaoks kuus faili:

  • pcm_testfile.wav
  • pcm_testfile.wav.vtt
  • mp3_testfile.mp3
  • mp3_testfile.mp3.vtt
  • ogg_testfile.ogg
  • ogg_testfile.ogg.srt

Vaadake järgmist koodi:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
) 

Näiteks 3

Enamasti soovite aga teksti edastada sisendfailina. Järgmine on selle Pythoni näide, millel on sama väljund nagu eelmisel näitel:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Järgmine on AWS-i sisekoolitusmeeskonna iseloomustuspostitus Amazon Polly kasutamise kohta suletud pealdistega:

Järgmine video pakub lühikest demo selle kohta, kuidas AWS-i sisekoolitusmeeskond kasutab PollyVTT():

Järeldus

Selles postituses jagasime meetodit antud teksti jaoks heli ja subtiitrite samaaegseks genereerimiseks. The PollyVTT() funktsioon ja SubtitleGeneratorForPolly tegelema tõhusalt ja tulemuslikult subtiitrite ühise nõude täitmisega. Amazon Polly meeskond jätkab keerukate klientide vajaduste jaoks lihtsustatud lahenduste leiutamist ja pakkumist.

Rohkem õpetusi ja teavet Amazon Polly kohta leiate veebisaidilt AWS-i masinõppe ajaveeb.


Autoritest

Looge sünkroonitud subtiitreid ja heli, kasutades Amazon Polly subtiitrite generaatorit PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Abhishek Soni on AWS-i partnerlahenduste arhitekt. Ta teeb koostööd klientidega, et pakkuda tehnilisi juhiseid AWS-i töökoormuse parima tulemuse saavutamiseks.

Looge sünkroonitud subtiitreid ja heli, kasutades Amazon Polly subtiitrite generaatorit PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Dan McKee kasutab heli, videot ja kohvi sisu destilleerimiseks sihitud, modulaarseteks ja struktureeritud kursusteks. Oma rollis Amazon Web Servicesi NetSeci domeeni õppekavaarendaja projektijuhina kasutab ta oma kogemusi andmekeskuste võrgunduses, et aidata teemaekspertidel ideid ellu viia.

Looge sünkroonitud subtiitreid ja heli, kasutades Amazon Polly subtiitrite generaatorit PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Orlando Karam on Amazon Web Services'i tehnilise õppekava arendaja, mis tähendab, et ta saab mängida lahedate uute tehnoloogiatega ja seejärel sellest rääkida. Aeg-ajalt kasutab ta ka neid lahedaid tehnoloogiaid oma töö hõlbustamiseks.

Ajatempel:

Veel alates AWS-i masinõpe