Amazon Polly, egy mesterséges intelligencia által generált szövegfelolvasó szolgáltatás, amely lehetővé teszi az interaktív hangmegoldások automatizálását és skálázását, segítve a termelékenység javítását és a költségek csökkentését.
Mivel ügyfeleink továbbra is használják az Amazon Pollyt annak gazdag funkcióinak és egyszerű használatának köszönhetően, megfigyeltük, hogy igény van arra, hogy egy adott szövegbevitelhez egyidejűleg szinkronizált hangot és feliratokat vagy feliratokat állítsanak elő. Az AWS-nél folyamatosan ügyfeleink kérésére visszafelé dolgozunk, ezért ebben a bejegyzésben egy módszert vázolunk fel, amellyel egy adott szöveghez hangot és feliratot állíthatunk elő egyszerre.
Bár a feliratokat gyakran felcserélhetően használják, beleértve ezt a bejegyzést is, vannak köztük apró különbségek:
- feliratok – A feliratoknál a képernyőn megjelenő szöveg nyelve eltér a hang nyelvétől, és nem jelenít meg semmit a nem párbeszédhez, mint például a jelentős hangok. Az elsődleges cél az, hogy elérje azt a közönséget, amely nem beszéli a videóban szereplő hang nyelvét.
- Feliratok (zárt/nyitott) – A feliratok a hanganyagban elhangzó párbeszédeket jelenítik meg ugyanazon a nyelven. Elsődleges célja a hozzáférhetőség növelése olyan esetekben, amikor a hangot a végfelhasználó nem hallja számos probléma miatt. A feliratok egy másik fájl részei, mint az audio-/videoforrás, és a felhasználó belátása szerint ki- és bekapcsolható, míg a nyílt feliratok a videofájl részét képezik, és a felhasználó nem kapcsolhatja ki őket.
Az Amazon Polly használatának előnyei felirattal vagy felirattal
Képzelje el a következő használati esetet: diaalapú prezentációt készít egy online tanulási portál számára. Minden dia tartalmaz képernyőn megjelenő tartalmat és narrációt. A képernyőn megjelenő tartalom alapvető vázlat, a narráció pedig részletekbe menően. Ahelyett, hogy emberi hangot rögzítene, ami nehézkes és következetlen, az Amazon Polly segítségével generálhatja a narrációt. Az Amazon Polly kiváló minőségű, egységes hangokat állít elő. Nincs szükség utómunkára. A jövőben, ha frissítenie kell a prezentáció egy részét, csak az érintett diákat kell frissítenie. A hang megegyezik az eredeti diákkal. Ezen túlmenően, amikor az Amazon Polly létrehozza a hangot, a feliratok is megjelennek, amelyek a hanggal együtt jelennek meg. Időt takarít meg, mert nincs szükség manuális rögzítésre, és további időt takarít meg, ha frissítésekre van szükség. A prezentáció több értéket is képvisel, mivel a feliratok segítenek a tanulóknak a tartalom fogyasztásában. Ez egy win-win-win megoldás.
Számos felhasználási eset létezik a feliratokra, például reklámok közösségi terekben, tornatermekben, kávézókban és más olyan helyeken, ahol jellemzően a televízióban van valami elnémított hanggal és zenével a háttérben; Online képzések és órák; virtuális találkozók; nyilvános elektronikus hirdetmények; videók megtekintése ingázás közben fejhallgató nélkül és a társutasok zavarása nélkül; és még több.
Az alkalmazási területtől függetlenül a feliratozás a következőkben segíthet:
- megközelíthetőség – A hallássérültek jobban fogyaszthatják tartalmait.
- Visszatartás – Az online tanulást az e-tanulók könnyebben megragadhatják és megtarthatják, ha több emberi érzékszervről van szó.
- elérhetőség – A tartalom elérheti azokat az embereket, akiknek versengő prioritásai vannak, például játszanak és egyszerre néznek híreket, vagy olyan embereket, akik a hang nyelvétől eltérő anyanyelvűek.
- Kereshetőség – A tartalom keresőmotorok által kereshető. Míg a videók között a legtöbb keresőmotor nem tud optimálisan keresni, a keresőmotorok használhatják a feliratszövegfájlokat, és könnyebben felfedezhetik a tartalmat.
- Társadalmi udvariasság – Néha durva hangot játszani a környezete miatt, vagy a hang nehezen hallható a környezet zaja miatt.
- felfogás – A tartalom könnyebben érthető, függetlenül a beszélő akcentusától, a beszélő anyanyelvétől vagy a beszéd sebességétől. Jegyzeteket is készíthet anélkül, hogy ugyanazt a jelenetet többször megnézné.
Megoldás áttekintése
Az ebben a bejegyzésben bemutatott könyvtár az Amazon Polly segítségével hangot és feliratokat generál a beviteli szöveghez. Ezt a könyvtárat könnyedén integrálhatja szövegfelolvasó alkalmazásaiba. Számos hangformátumot támogat, valamint VTT és SRT fájlformátumú feliratokat is, amelyek a leggyakrabban használtak az iparágban.
Ebben a bejegyzésben arra összpontosítunk, hogy PollyVTT()
szintaxisát és beállításait, és néhány példát mutat be, amelyek bemutatják a Python használatát SubtitleGeneratorForPolly
hogy egyidejűleg szinkron hang- és feliratfájlokat állítson elő egy adott szövegbevitelhez. A kimeneti hangfájl formátuma lehet PCM(wav), OGG vagy MP3, a feliratfájl formátuma pedig VTT vagy SRT. Továbbá, SubtitleGeneratorForPolly
támogatja az összes Amazon Polly-t synthesize_speech
paramétereket, és kiegészíti az Amazon Polly gazdag funkciókészletét.
A polly-vtt
könyvtár és függőségei a következő címen érhetők el GitHub.
Telepítse és használja a funkciót
Mielőtt megnéznénk néhány felhasználási példát PollyVTT()
, a funkció, amely meghatalmazza SubtitleGeneratorForPolly
, nézzük meg a telepítését és szintaxisát.
Telepítse a könyvtárat a következő kóddal:
A parancssorból való futtatáshoz egyszerűen futtassa polly-vtt
:
A következő kód mutatja a lehetőségeket:
Nézzünk most néhány példát.
Példa 1
Ez a példa egy PCM hangfájlt hoz létre egy SRT feliratfájllal együtt két egyszerű mondathoz:
Példa 2
Ez a példa bemutatja, hogyan lehet szöveges bekezdést bemenetként használni. Ezzel hangfájlokat generál WAV, MP3 és OGG formátumban, valamint feliratokat SRT és VTT formátumban. A következő példa hat fájlt hoz létre az adott beviteli szöveghez:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Lásd a következő kódot:
Példa 3
A legtöbb esetben azonban a szöveget beviteli fájlként szeretné átadni. A következő egy Python-példa erre, ugyanazzal a kimenettel, mint az előző példában:
A következő egy ajánló bejegyzés az AWS belső képzési csapatától az Amazon Polly használatáról zárt feliratokkal:
A következő videó egy rövid bemutatót kínál az AWS belső képzési csapatának használatáról PollyVTT()
:
Következtetés
Ebben a bejegyzésben megosztottunk egy módszert, amellyel egyszerre lehet hangot és feliratot generálni egy adott szöveghez. A PollyVTT()
funkció és SubtitleGeneratorForPolly
hatékonyan és eredményesen kezelje a feliratokkal kapcsolatos általános követelményt. Az Amazon Polly csapata továbbra is egyszerűsített megoldásokat talál ki és kínál az ügyfelek összetett igényeire.
Az Amazon Pollyról további oktatóanyagokért és információkért tekintse meg a AWS gépi tanulási blog.
A szerzőkről
Abhishek Soni az AWS partner megoldások építésze. Együttműködik az ügyfelekkel, hogy technikai útmutatást adjon az AWS-ben végzett munkaterhelések legjobb eredményéhez.
Dan McKee hangot, videót és kávét használ a tartalom célzott, moduláris és strukturált kurzusokká történő lepárlásához. Az Amazon Web Services NetSec Domain tananyagfejlesztői projektmenedzsereként az adatközponti hálózatok területén szerzett tapasztalatait kamatoztatva segíti a téma szakértőit az ötletek életre keltésében.
Orlando Karam az Amazon Web Services műszaki tananyagfejlesztője, ami azt jelenti, hogy remek új technológiákkal játszhat, majd beszélhet róla. Időnként ő is használja ezeket a klassz technológiákat, hogy megkönnyítse a munkáját.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon Polly
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet