Hozzon létre szinkronizált feliratokat és hangot az Amazon Polly feliratgenerátor segítségével

Amazon Polly, egy mesterséges intelligencia által generált szövegfelolvasó szolgáltatás, amely lehetővé teszi az interaktív hangmegoldások automatizálását és skálázását, segítve a termelékenység javítását és a költségek csökkentését.

Mivel ügyfeleink továbbra is használják az Amazon Pollyt annak gazdag funkcióinak és egyszerű használatának köszönhetően, megfigyeltük, hogy igény van arra, hogy egy adott szövegbevitelhez egyidejűleg szinkronizált hangot és feliratokat vagy feliratokat állítsanak elő. Az AWS-nél folyamatosan ügyfeleink kérésére visszafelé dolgozunk, ezért ebben a bejegyzésben egy módszert vázolunk fel, amellyel egy adott szöveghez hangot és feliratot állíthatunk elő egyszerre.

Bár a feliratokat gyakran felcserélhetően használják, beleértve ezt a bejegyzést is, vannak köztük apró különbségek:

  • feliratok – A feliratoknál a képernyőn megjelenő szöveg nyelve eltér a hang nyelvétől, és nem jelenít meg semmit a nem párbeszédhez, mint például a jelentős hangok. Az elsődleges cél az, hogy elérje azt a közönséget, amely nem beszéli a videóban szereplő hang nyelvét.
  • Feliratok (zárt/nyitott) – A feliratok a hanganyagban elhangzó párbeszédeket jelenítik meg ugyanazon a nyelven. Elsődleges célja a hozzáférhetőség növelése olyan esetekben, amikor a hangot a végfelhasználó nem hallja számos probléma miatt. A feliratok egy másik fájl részei, mint az audio-/videoforrás, és a felhasználó belátása szerint ki- és bekapcsolható, míg a nyílt feliratok a videofájl részét képezik, és a felhasználó nem kapcsolhatja ki őket.

Az Amazon Polly használatának előnyei felirattal vagy felirattal

Képzelje el a következő használati esetet: diaalapú prezentációt készít egy online tanulási portál számára. Minden dia tartalmaz képernyőn megjelenő tartalmat és narrációt. A képernyőn megjelenő tartalom alapvető vázlat, a narráció pedig részletekbe menően. Ahelyett, hogy emberi hangot rögzítene, ami nehézkes és következetlen, az Amazon Polly segítségével generálhatja a narrációt. Az Amazon Polly kiváló minőségű, egységes hangokat állít elő. Nincs szükség utómunkára. A jövőben, ha frissítenie kell a prezentáció egy részét, csak az érintett diákat kell frissítenie. A hang megegyezik az eredeti diákkal. Ezen túlmenően, amikor az Amazon Polly létrehozza a hangot, a feliratok is megjelennek, amelyek a hanggal együtt jelennek meg. Időt takarít meg, mert nincs szükség manuális rögzítésre, és további időt takarít meg, ha frissítésekre van szükség. A prezentáció több értéket is képvisel, mivel a feliratok segítenek a tanulóknak a tartalom fogyasztásában. Ez egy win-win-win megoldás.

Számos felhasználási eset létezik a feliratokra, például reklámok közösségi terekben, tornatermekben, kávézókban és más olyan helyeken, ahol jellemzően a televízióban van valami elnémított hanggal és zenével a háttérben; Online képzések és órák; virtuális találkozók; nyilvános elektronikus hirdetmények; videók megtekintése ingázás közben fejhallgató nélkül és a társutasok zavarása nélkül; és még több.

Az alkalmazási területtől függetlenül a feliratozás a következőkben segíthet:

  • megközelíthetőség – A hallássérültek jobban fogyaszthatják tartalmait.
  • Visszatartás – Az online tanulást az e-tanulók könnyebben megragadhatják és megtarthatják, ha több emberi érzékszervről van szó.
  • elérhetőség – A tartalom elérheti azokat az embereket, akiknek versengő prioritásai vannak, például játszanak és egyszerre néznek híreket, vagy olyan embereket, akik a hang nyelvétől eltérő anyanyelvűek.
  • Kereshetőség – A tartalom keresőmotorok által kereshető. Míg a videók között a legtöbb keresőmotor nem tud optimálisan keresni, a keresőmotorok használhatják a feliratszövegfájlokat, és könnyebben felfedezhetik a tartalmat.
  • Társadalmi udvariasság – Néha durva hangot játszani a környezete miatt, vagy a hang nehezen hallható a környezet zaja miatt.
  • felfogás – A tartalom könnyebben érthető, függetlenül a beszélő akcentusától, a beszélő anyanyelvétől vagy a beszéd sebességétől. Jegyzeteket is készíthet anélkül, hogy ugyanazt a jelenetet többször megnézné.

Megoldás áttekintése

Az ebben a bejegyzésben bemutatott könyvtár az Amazon Polly segítségével hangot és feliratokat generál a beviteli szöveghez. Ezt a könyvtárat könnyedén integrálhatja szövegfelolvasó alkalmazásaiba. Számos hangformátumot támogat, valamint VTT és SRT fájlformátumú feliratokat is, amelyek a leggyakrabban használtak az iparágban.

Ebben a bejegyzésben arra összpontosítunk, hogy PollyVTT() szintaxisát és beállításait, és néhány példát mutat be, amelyek bemutatják a Python használatát SubtitleGeneratorForPolly hogy egyidejűleg szinkron hang- és feliratfájlokat állítson elő egy adott szövegbevitelhez. A kimeneti hangfájl formátuma lehet PCM(wav), OGG vagy MP3, a feliratfájl formátuma pedig VTT vagy SRT. Továbbá, SubtitleGeneratorForPolly támogatja az összes Amazon Polly-t synthesize_speech paramétereket, és kiegészíti az Amazon Polly gazdag funkciókészletét.

A polly-vtt könyvtár és függőségei a következő címen érhetők el GitHub.

Telepítse és használja a funkciót

Mielőtt megnéznénk néhány felhasználási példát PollyVTT(), a funkció, amely meghatalmazza SubtitleGeneratorForPolly, nézzük meg a telepítését és szintaxisát.

Telepítse a könyvtárat a következő kóddal:

pip install

A parancssorból való futtatáshoz egyszerűen futtassa polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

A következő kód mutatja a lehetőségeket:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Nézzünk most néhány példát.

Példa 1

Ez a példa egy PCM hangfájlt hoz létre egy SRT feliratfájllal együtt két egyszerű mondathoz:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Példa 2

Ez a példa bemutatja, hogyan lehet szöveges bekezdést bemenetként használni. Ezzel hangfájlokat generál WAV, MP3 és OGG formátumban, valamint feliratokat SRT és VTT formátumban. A következő példa hat fájlt hoz létre az adott beviteli szöveghez:

  • pcm_testfile.wav
  • pcm_testfile.wav.vtt
  • mp3_testfile.mp3
  • mp3_testfile.mp3.vtt
  • ogg_testfile.ogg
  • ogg_testfile.ogg.srt

Lásd a következő kódot:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
) 

Példa 3

A legtöbb esetben azonban a szöveget beviteli fájlként szeretné átadni. A következő egy Python-példa erre, ugyanazzal a kimenettel, mint az előző példában:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

A következő egy ajánló bejegyzés az AWS belső képzési csapatától az Amazon Polly használatáról zárt feliratokkal:

A következő videó egy rövid bemutatót kínál az AWS belső képzési csapatának használatáról PollyVTT():

Következtetés

Ebben a bejegyzésben megosztottunk egy módszert, amellyel egyszerre lehet hangot és feliratot generálni egy adott szöveghez. A PollyVTT() funkció és SubtitleGeneratorForPolly hatékonyan és eredményesen kezelje a feliratokkal kapcsolatos általános követelményt. Az Amazon Polly csapata továbbra is egyszerűsített megoldásokat talál ki és kínál az ügyfelek összetett igényeire.

Az Amazon Pollyról további oktatóanyagokért és információkért tekintse meg a AWS gépi tanulási blog.


A szerzőkről

Generate synchronized closed captions and audio using the Amazon Polly subtitle generator PlatoBlockchain Data Intelligence. Vertical Search. Ai.Abhishek Soni az AWS partner megoldások építésze. Együttműködik az ügyfelekkel, hogy technikai útmutatást adjon az AWS-ben végzett munkaterhelések legjobb eredményéhez.

Generate synchronized closed captions and audio using the Amazon Polly subtitle generator PlatoBlockchain Data Intelligence. Vertical Search. Ai. Dan McKee hangot, videót és kávét használ a tartalom célzott, moduláris és strukturált kurzusokká történő lepárlásához. Az Amazon Web Services NetSec Domain tananyagfejlesztői projektmenedzsereként az adatközponti hálózatok területén szerzett tapasztalatait kamatoztatva segíti a téma szakértőit ​​az ötletek életre keltésében.

Generate synchronized closed captions and audio using the Amazon Polly subtitle generator PlatoBlockchain Data Intelligence. Vertical Search. Ai.Orlando Karam az Amazon Web Services műszaki tananyagfejlesztője, ami azt jelenti, hogy remek új technológiákkal játszhat, majd beszélhet róla. Időnként ő is használja ezeket a klassz technológiákat, hogy megkönnyítse a munkáját.

Időbélyeg:

Még több AWS gépi tanulás