آمازون پولی، یک سرویس تبدیل متن به گفتار ایجاد شده توسط هوش مصنوعی، به شما امکان می دهد راه حل های صوتی تعاملی خود را خودکار و مقیاس کنید و به بهبود بهره وری و کاهش هزینه ها کمک کنید.
از آنجایی که مشتریان ما همچنان به استفاده از Amazon Polly برای مجموعه غنی از ویژگیها و سهولت استفاده خود ادامه میدهند، ما تقاضایی را برای توانایی تولید همزمان صدا و زیرنویس یا زیرنویسهای بسته برای ورودی متن مشخص مشاهده کردهایم. در AWS، ما به طور مداوم بر اساس خواسته های مشتری خود کار می کنیم، بنابراین در این پست، روشی را برای تولید همزمان صدا و زیرنویس برای یک متن مشخص بیان می کنیم.
اگرچه زیرنویس ها و زیرنویس ها اغلب به جای یکدیگر استفاده می شوند، از جمله در این پست، تفاوت های ظریفی بین آنها وجود دارد:
- زیرنویسها – در زیرنویس، زبان متن نمایش داده شده بر روی صفحه با زبان صوتی متفاوت است و برای غیر دیالوگ چیزی مانند صداهای قابل توجه نمایش نمی دهد. هدف اصلی دستیابی به مخاطبانی است که به زبان صوتی در ویدیو صحبت نمی کنند.
- زیرنویسها (بسته/باز) - زیرنویسها دیالوگهایی را که در صدا به همان زبان گفته میشوند نمایش میدهند. هدف اصلی آن افزایش دسترسی در مواردی است که صدا به دلیل طیف وسیعی از مسائل توسط مصرف کننده نهایی شنیده نمی شود. زیرنویسهای بسته بخشی از یک فایل متفاوت از منبع صوتی/تصویری هستند و میتوانند به صلاحدید کاربر خاموش و روشن شوند، در حالی که زیرنویسهای باز بخشی از فایل ویدیویی هستند و کاربر نمیتواند آن را خاموش کند.
مزایای استفاده از Amazon Polly برای تولید صدا با زیرنویس یا زیرنویس
مورد استفاده زیر را تصور کنید: شما یک ارائه مبتنی بر اسلاید برای یک پورتال یادگیری آنلاین آماده می کنید. هر اسلاید شامل محتوای روی صفحه و روایت است. محتوای روی صفحه یک طرح کلی است و روایت به جزئیات می رود. به جای ضبط صدای انسان، که می تواند دست و پا گیر و ناسازگار باشد، می توانید از Amazon Polly برای تولید روایت استفاده کنید. آمازون پولی صداهایی با کیفیت بالا و ثابت تولید می کند. نیازی به پست پروداکشن نیست در آینده، اگر نیاز به به روز رسانی بخشی از ارائه دارید، فقط باید اسلایدهای آسیب دیده را به روز کنید. صدا با اسلایدهای اصلی مطابقت دارد. علاوه بر این، هنگامی که Amazon Polly صدای شما را تولید میکند، زیرنویسهایی اضافه میشوند که به موقع با صدا ظاهر میشوند. شما در زمان صرفه جویی می کنید زیرا ضبط دستی در کار نیست و در زمان نیاز به به روز رسانی در زمان اضافی صرفه جویی می کنید. ارائه شما همچنین ارزش بیشتری را ارائه می دهد زیرا زیرنویس ها به دانش آموزان کمک می کنند محتوا را مصرف کنند. این یک راه حل برد-برد-برد است.
موارد استفاده زیادی برای زیرنویسها وجود دارد، مانند تبلیغات در فضاهای اجتماعی، سالنهای ورزشی، کافیشاپها، و مکانهای دیگری که معمولاً چیزی در تلویزیون با صدای خاموش و موسیقی در پسزمینه وجود دارد. آموزش و کلاس های آنلاین؛ جلسات مجازی؛ اطلاعیه های الکترونیکی عمومی؛ تماشای فیلم در حین رفت و آمد بدون هدفون و بدون مزاحمت برای مسافران؛ و چندین مورد دیگر
صرف نظر از حوزه کاربرد، زیرنویسهای بسته میتوانند به موارد زیر کمک کنند:
- دسترسی - افراد مبتلا به اختلالات شنوایی بهتر می توانند محتوای شما را مصرف کنند.
- نگهداری – زمانی که حواس انسانی بیشتری درگیر هستند، یادگیری آنلاین برای یادگیرندگان الکترونیکی آسانتر است.
- قابلیت دسترسی – محتوای شما میتواند به افرادی برسد که اولویتهای رقابتی دارند، مانند بازی و تماشای همزمان اخبار، یا افرادی که زبان مادری متفاوتی نسبت به زبان صوتی دارند.
- قابلیت جستجو - محتوا توسط موتورهای جستجو قابل جستجو است. در حالی که اکثر موتورهای جستجو نمیتوانند ویدیوها را بهطور بهینه جستجو کنند، موتورهای جستجو میتوانند از فایلهای متنی زیرنویس استفاده کنند و محتوای شما را قابل کشفتر کنند.
- ادب اجتماعی - گاهی اوقات ممکن است پخش صدا به دلیل محیط اطرافتان بی ادبانه باشد، یا شنیدن صدا به دلیل سر و صدای محیط شما دشوار باشد.
- درک مطلب - درک محتوا صرف نظر از لهجه گوینده، زبان مادری گوینده یا سرعت گفتار آسانتر است. همچنین می توانید بدون تماشای مکرر همان صحنه یادداشت برداری کنید.
بررسی اجمالی راه حل
کتابخانه ارائه شده در این پست از Amazon Polly برای تولید صدا و زیرنویسهای بسته برای متن ورودی استفاده میکند. شما به راحتی می توانید این کتابخانه را در برنامه های تبدیل متن به گفتار خود ادغام کنید. از چندین فرمت صوتی و زیرنویس در هر دو فرمت فایل VTT و SRT پشتیبانی می کند که بیشترین استفاده را در صنعت دارند.
در این پست، ما بر روی PollyVTT()
نحو و گزینهها، و چند مثال ارائه دهید که نحوه استفاده از پایتون را نشان میدهد SubtitleGeneratorForPolly
برای تولید همزمان فایل های صوتی و زیرنویس برای یک ورودی متن مشخص. فرمت فایل صوتی خروجی می تواند PCM(wav)، OGG یا MP3 باشد و فرمت فایل زیرنویس می تواند VTT یا SRT باشد. علاوه بر این، SubtitleGeneratorForPolly
همه آمازون پولی را پشتیبانی می کند synthesize_speech
پارامترها و به مجموعه ویژگی های غنی آمازون پولی اضافه می کند.
La polly-vtt
کتابخانه و وابستگی های آن در دسترس هستند GitHub.
تابع را نصب و استفاده کنید
قبل از اینکه به چند نمونه از استفاده نگاه کنیم PollyVTT()
، عملکردی که قدرت می دهد SubtitleGeneratorForPolly
، بیایید به نصب و نحو آن نگاه کنیم.
کتابخانه را با استفاده از کد زیر نصب کنید:
برای اجرا از خط فرمان، به سادگی اجرا کنید polly-vtt
:
کد زیر گزینه های شما را نشان می دهد:
اکنون به چند نمونه نگاه می کنیم.
1 مثال
این مثال یک فایل صوتی PCM را به همراه یک فایل عنوان SRT برای دو جمله ساده تولید می کند:
2 مثال
این مثال نحوه استفاده از یک پاراگراف متن را به عنوان ورودی نشان می دهد. این فایل های صوتی را در WAV، MP3 و OGG و زیرنویس ها را در SRT و VTT تولید می کند. مثال زیر شش فایل را برای متن ورودی ایجاد می کند:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
کد زیر را ببینید:
3 مثال
با این حال، در بیشتر موارد، می خواهید متن را به عنوان یک فایل ورودی ارسال کنید. در زیر یک مثال پایتون از این مورد، با خروجی مشابه مثال قبلی است:
در زیر یک پست گواهی از تیم آموزشی داخلی AWS در مورد استفاده از Amazon Polly با زیرنویسهای بسته است:
ویدئوی زیر نمایشی کوتاه از نحوه استفاده تیم آموزشی داخلی در AWS ارائه میدهد PollyVTT()
:
نتیجه
در این پست روشی برای تولید همزمان صدا و زیرنویس برای یک متن به اشتراک گذاشتیم. را PollyVTT()
عملکرد و SubtitleGeneratorForPolly
یک نیاز رایج برای زیرنویس ها را به شیوه ای کارآمد و موثر برطرف کنید. تیم آمازون پولی به اختراع و ارائه راه حل های ساده برای نیازهای پیچیده مشتری ادامه می دهد.
برای آموزش ها و اطلاعات بیشتر در مورد آمازون پولی، به ادامه مطلب مراجعه کنید وبلاگ یادگیری ماشین AWS.
درباره نویسنده
آبیشک سونی یک معمار راه حل های شریک در AWS است. او با مشتریان کار می کند تا راهنمایی های فنی را برای بهترین نتیجه بارهای کاری در AWS ارائه دهد.
دن مک کی از صدا، تصویر و قهوه برای تقطیر محتوا به دوره های هدفمند، مدولار و ساختاریافته استفاده می کند. او در نقش خود به عنوان مدیر پروژه توسعهدهنده برنامه درسی برای دامنه NetSec در خدمات وب آمازون، از تجربیات خود در شبکهسازی مرکز داده استفاده میکند تا به کارشناسان موضوع کمک کند تا ایدهها را زنده کنند.
اورلاندو کرم یک توسعه دهنده برنامه درسی فنی در خدمات وب آمازون است، به این معنی که او می تواند با فناوری های جدید جالب بازی کند و سپس در مورد آن صحبت کند. گاهی اوقات، او همچنین از آن فناوری های جالب استفاده می کند تا کار خود را آسان تر کند.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون پولی
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت