Generate Synchronized Closed Captions And Audio Using The Amazon Polly Subtitle Generator

بازنشر افلاطون

دنبال: 0

آمازون پولی، یک سرویس تبدیل متن به گفتار ایجاد شده توسط هوش مصنوعی، به شما امکان می دهد راه حل های صوتی تعاملی خود را خودکار و مقیاس کنید و به بهبود بهره وری و کاهش هزینه ها کمک کنید.

از آنجایی که مشتریان ما همچنان به استفاده از Amazon Polly برای مجموعه غنی از ویژگی‌ها و سهولت استفاده خود ادامه می‌دهند، ما تقاضایی را برای توانایی تولید همزمان صدا و زیرنویس یا زیرنویس‌های بسته برای ورودی متن مشخص مشاهده کرده‌ایم. در AWS، ما به طور مداوم بر اساس خواسته های مشتری خود کار می کنیم، بنابراین در این پست، روشی را برای تولید همزمان صدا و زیرنویس برای یک متن مشخص بیان می کنیم.

اگرچه زیرنویس ها و زیرنویس ها اغلب به جای یکدیگر استفاده می شوند، از جمله در این پست، تفاوت های ظریفی بین آنها وجود دارد:

زیرنویسها – در زیرنویس، زبان متن نمایش داده شده بر روی صفحه با زبان صوتی متفاوت است و برای غیر دیالوگ چیزی مانند صداهای قابل توجه نمایش نمی دهد. هدف اصلی دستیابی به مخاطبانی است که به زبان صوتی در ویدیو صحبت نمی کنند.
زیرنویس‌ها (بسته/باز) - زیرنویس‌ها دیالوگ‌هایی را که در صدا به همان زبان گفته می‌شوند نمایش می‌دهند. هدف اصلی آن افزایش دسترسی در مواردی است که صدا به دلیل طیف وسیعی از مسائل توسط مصرف کننده نهایی شنیده نمی شود. زیرنویس‌های بسته بخشی از یک فایل متفاوت از منبع صوتی/تصویری هستند و می‌توانند به صلاحدید کاربر خاموش و روشن شوند، در حالی که زیرنویس‌های باز بخشی از فایل ویدیویی هستند و کاربر نمی‌تواند آن را خاموش کند.

مزایای استفاده از Amazon Polly برای تولید صدا با زیرنویس یا زیرنویس

مورد استفاده زیر را تصور کنید: شما یک ارائه مبتنی بر اسلاید برای یک پورتال یادگیری آنلاین آماده می کنید. هر اسلاید شامل محتوای روی صفحه و روایت است. محتوای روی صفحه یک طرح کلی است و روایت به جزئیات می رود. به جای ضبط صدای انسان، که می تواند دست و پا گیر و ناسازگار باشد، می توانید از Amazon Polly برای تولید روایت استفاده کنید. آمازون پولی صداهایی با کیفیت بالا و ثابت تولید می کند. نیازی به پست پروداکشن نیست در آینده، اگر نیاز به به روز رسانی بخشی از ارائه دارید، فقط باید اسلایدهای آسیب دیده را به روز کنید. صدا با اسلایدهای اصلی مطابقت دارد. علاوه بر این، هنگامی که Amazon Polly صدای شما را تولید می‌کند، زیرنویس‌هایی اضافه می‌شوند که به موقع با صدا ظاهر می‌شوند. شما در زمان صرفه جویی می کنید زیرا ضبط دستی در کار نیست و در زمان نیاز به به روز رسانی در زمان اضافی صرفه جویی می کنید. ارائه شما همچنین ارزش بیشتری را ارائه می دهد زیرا زیرنویس ها به دانش آموزان کمک می کنند محتوا را مصرف کنند. این یک راه حل برد-برد-برد است.

موارد استفاده زیادی برای زیرنویس‌ها وجود دارد، مانند تبلیغات در فضاهای اجتماعی، سالن‌های ورزشی، کافی‌شاپ‌ها، و مکان‌های دیگری که معمولاً چیزی در تلویزیون با صدای خاموش و موسیقی در پس‌زمینه وجود دارد. آموزش و کلاس های آنلاین؛ جلسات مجازی؛ اطلاعیه های الکترونیکی عمومی؛ تماشای فیلم در حین رفت و آمد بدون هدفون و بدون مزاحمت برای مسافران؛ و چندین مورد دیگر

صرف نظر از حوزه کاربرد، زیرنویس‌های بسته می‌توانند به موارد زیر کمک کنند:

دسترسی - افراد مبتلا به اختلالات شنوایی بهتر می توانند محتوای شما را مصرف کنند.
نگهداری – زمانی که حواس انسانی بیشتری درگیر هستند، یادگیری آنلاین برای یادگیرندگان الکترونیکی آسان‌تر است.
قابلیت دسترسی – محتوای شما می‌تواند به افرادی برسد که اولویت‌های رقابتی دارند، مانند بازی و تماشای همزمان اخبار، یا افرادی که زبان مادری متفاوتی نسبت به زبان صوتی دارند.
قابلیت جستجو - محتوا توسط موتورهای جستجو قابل جستجو است. در حالی که اکثر موتورهای جستجو نمی‌توانند ویدیوها را به‌طور بهینه جستجو کنند، موتورهای جستجو می‌توانند از فایل‌های متنی زیرنویس استفاده کنند و محتوای شما را قابل کشف‌تر کنند.
ادب اجتماعی - گاهی اوقات ممکن است پخش صدا به دلیل محیط اطرافتان بی ادبانه باشد، یا شنیدن صدا به دلیل سر و صدای محیط شما دشوار باشد.
درک مطلب - درک محتوا صرف نظر از لهجه گوینده، زبان مادری گوینده یا سرعت گفتار آسانتر است. همچنین می توانید بدون تماشای مکرر همان صحنه یادداشت برداری کنید.

بررسی اجمالی راه حل

کتابخانه ارائه شده در این پست از Amazon Polly برای تولید صدا و زیرنویس‌های بسته برای متن ورودی استفاده می‌کند. شما به راحتی می توانید این کتابخانه را در برنامه های تبدیل متن به گفتار خود ادغام کنید. از چندین فرمت صوتی و زیرنویس در هر دو فرمت فایل VTT و SRT پشتیبانی می کند که بیشترین استفاده را در صنعت دارند.

در این پست، ما بر روی PollyVTT() نحو و گزینه‌ها، و چند مثال ارائه دهید که نحوه استفاده از پایتون را نشان می‌دهد SubtitleGeneratorForPolly برای تولید همزمان فایل های صوتی و زیرنویس برای یک ورودی متن مشخص. فرمت فایل صوتی خروجی می تواند PCM(wav)، OGG یا MP3 باشد و فرمت فایل زیرنویس می تواند VTT یا SRT باشد. علاوه بر این، SubtitleGeneratorForPolly همه آمازون پولی را پشتیبانی می کند synthesize_speech پارامترها و به مجموعه ویژگی های غنی آمازون پولی اضافه می کند.

La polly-vtt کتابخانه و وابستگی های آن در دسترس هستند GitHub.

تابع را نصب و استفاده کنید

قبل از اینکه به چند نمونه از استفاده نگاه کنیم PollyVTT()، عملکردی که قدرت می دهد SubtitleGeneratorForPolly، بیایید به نصب و نحو آن نگاه کنیم.

کتابخانه را با استفاده از کد زیر نصب کنید:

pip install

برای اجرا از خط فرمان، به سادگی اجرا کنید polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

کد زیر گزینه های شما را نشان می دهد:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

اکنون به چند نمونه نگاه می کنیم.

1 مثال

این مثال یک فایل صوتی PCM را به همراه یک فایل عنوان SRT برای دو جمله ساده تولید می کند:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

2 مثال

این مثال نحوه استفاده از یک پاراگراف متن را به عنوان ورودی نشان می دهد. این فایل های صوتی را در WAV، MP3 و OGG و زیرنویس ها را در SRT و VTT تولید می کند. مثال زیر شش فایل را برای متن ورودی ایجاد می کند:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

کد زیر را ببینید:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

3 مثال

با این حال، در بیشتر موارد، می خواهید متن را به عنوان یک فایل ورودی ارسال کنید. در زیر یک مثال پایتون از این مورد، با خروجی مشابه مثال قبلی است:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

در زیر یک پست گواهی از تیم آموزشی داخلی AWS در مورد استفاده از Amazon Polly با زیرنویس‌های بسته است:

ویدئوی زیر نمایشی کوتاه از نحوه استفاده تیم آموزشی داخلی در AWS ارائه می‌دهد PollyVTT():

نتیجه

در این پست روشی برای تولید همزمان صدا و زیرنویس برای یک متن به اشتراک گذاشتیم. را PollyVTT() عملکرد و SubtitleGeneratorForPolly یک نیاز رایج برای زیرنویس ها را به شیوه ای کارآمد و موثر برطرف کنید. تیم آمازون پولی به اختراع و ارائه راه حل های ساده برای نیازهای پیچیده مشتری ادامه می دهد.

برای آموزش ها و اطلاعات بیشتر در مورد آمازون پولی، به ادامه مطلب مراجعه کنید وبلاگ یادگیری ماشین AWS.

درباره نویسنده

آبیشک سونی یک معمار راه حل های شریک در AWS است. او با مشتریان کار می کند تا راهنمایی های فنی را برای بهترین نتیجه بارهای کاری در AWS ارائه دهد.

دن مک کی از صدا، تصویر و قهوه برای تقطیر محتوا به دوره های هدفمند، مدولار و ساختاریافته استفاده می کند. او در نقش خود به عنوان مدیر پروژه توسعه‌دهنده برنامه درسی برای دامنه NetSec در خدمات وب آمازون، از تجربیات خود در شبکه‌سازی مرکز داده استفاده می‌کند تا به کارشناسان موضوع کمک کند تا ایده‌ها را زنده کنند.

اورلاندو کرم یک توسعه دهنده برنامه درسی فنی در خدمات وب آمازون است، به این معنی که او می تواند با فناوری های جدید جالب بازی کند و سپس در مورد آن صحبت کند. گاهی اوقات، او همچنین از آن فناوری های جالب استفاده می کند تا کار خود را آسان تر کند.

تمبر زمان: ژوئیه 18، 2022ژوئیه 18، 2022

تمبر زمان: ممکن است 4، 2023

با استفاده از مولد زیرنویس Amazon Polly، زیرنویس‌ها و صداهای همگام‌سازی شده را ایجاد کنید

بازنشر افلاطون

مزایای استفاده از Amazon Polly برای تولید صدا با زیرنویس یا زیرنویس

بررسی اجمالی راه حل

تابع را نصب و استفاده کنید

1 مثال

2 مثال

3 مثال

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

اجرای پیش بینی آمازون در صنعت خرده فروشی: سفری از POC تا تولید

یک پلت فرم داده های زراعی با قابلیت های جغرافیایی Amazon SageMaker بسازید

استقرار مدل های بزرگ در Amazon SageMaker با استفاده از استنتاج موازی مدل DJLServing و DeepSpeed

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب