Amazon Polly سب ٹائٹل جنریٹر کا استعمال کرتے ہوئے مطابقت پذیر بند کیپشنز اور آڈیو تخلیق کریں۔

ایمیزون پولی، ایک AI تیار کردہ ٹیکسٹ ٹو اسپیچ سروس، آپ کو اپنے انٹرایکٹو وائس سلوشنز کو خودکار اور اسکیل کرنے کے قابل بناتی ہے، جس سے پیداواری صلاحیت کو بہتر بنانے اور اخراجات کو کم کرنے میں مدد ملتی ہے۔

جیسا کہ ہمارے صارفین Amazon Polly کو اس کی خصوصیات کے بھرپور سیٹ اور استعمال میں آسانی کے لیے استعمال کرتے رہتے ہیں، ہم نے دیے گئے ٹیکسٹ ان پٹ کے لیے بیک وقت سنکرونائز آڈیو اور سب ٹائٹلز یا بند کیپشن بنانے کی اہلیت کی مانگ کو دیکھا ہے۔ AWS میں، ہم اپنے گاہک کے پوچھنے سے مسلسل پیچھے کام کرتے ہیں، اس لیے اس پوسٹ میں، ہم ایک دیئے گئے متن کے لیے ایک ہی وقت میں آڈیو اور سب ٹائٹلز تیار کرنے کا طریقہ بتاتے ہیں۔

اگرچہ سب ٹائٹلز اور کیپشنز اکثر ایک دوسرے کے بدلے استعمال ہوتے ہیں، بشمول اس پوسٹ میں، ان میں ٹھیک ٹھیک فرق موجود ہیں:

  • ذیلی فلمیں - سب ٹائٹلز میں، اسکرین پر ظاہر ہونے والی ٹیکسٹ لینگویج آڈیو لینگویج سے مختلف ہوتی ہے اور غیر ڈائیلاگ کے لیے کچھ بھی نہیں دکھاتی ہے جیسے اہم آوازیں۔ بنیادی مقصد ان سامعین تک پہنچنا ہے جو ویڈیو میں آڈیو زبان نہیں بولتے ہیں۔
  • کیپشنز (بند/کھلے) - کیپشن آڈیو میں بولے جانے والے مکالموں کو اسی زبان میں دکھاتے ہیں۔ اس کا بنیادی مقصد ان معاملات میں رسائی کو بڑھانا ہے جہاں بہت سے مسائل کی وجہ سے آخری صارف آڈیو نہیں سن سکتا۔ بند کیپشنز آڈیو/ویڈیو ماخذ سے مختلف فائل کا حصہ ہیں اور صارف کی صوابدید پر اسے بند اور آن کیا جا سکتا ہے، جبکہ کھلے کیپشنز ویڈیو فائل کا حصہ ہیں اور صارف اسے بند نہیں کر سکتا۔

سب ٹائٹلز کے ساتھ آڈیو بنانے کے لیے Amazon Polly کے استعمال کے فوائد

درج ذیل استعمال کے معاملے کا تصور کریں: آپ آن لائن لرننگ پورٹل کے لیے سلائیڈ پر مبنی پریزنٹیشن تیار کرتے ہیں۔ ہر سلائیڈ میں اسکرین کا مواد اور بیانیہ شامل ہوتا ہے۔ اسکرین کا مواد ایک بنیادی خاکہ ہے، اور بیان تفصیل میں جاتا ہے۔ انسانی آواز کو ریکارڈ کرنے کے بجائے، جو کہ بوجھل اور متضاد ہو سکتی ہے، آپ بیانیہ تخلیق کرنے کے لیے Amazon Polly کا استعمال کر سکتے ہیں۔ Amazon Polly اعلیٰ معیار کی، مسلسل آوازیں تیار کرتا ہے۔ پوسٹ پروڈکشن کی ضرورت نہیں ہے۔ مستقبل میں، اگر آپ کو پیشکش کے کسی حصے کو اپ ڈیٹ کرنے کی ضرورت ہے، تو آپ کو صرف متاثرہ سلائیڈوں کو اپ ڈیٹ کرنے کی ضرورت ہے۔ آواز اصل سلائیڈوں سے ملتی ہے۔ مزید برآں، جب Amazon Polly آپ کا آڈیو تیار کرتا ہے، تو کیپشنز شامل کیے جاتے ہیں جو آڈیو کے ساتھ وقت پر ظاہر ہوتے ہیں۔ آپ وقت بچاتے ہیں کیونکہ اس میں کوئی دستی ریکارڈنگ شامل نہیں ہے، اور جب اپ ڈیٹس کی ضرورت ہو تو اضافی وقت بچاتے ہیں۔ آپ کی پیشکش بھی زیادہ اہمیت دیتی ہے کیونکہ کیپشن طلباء کو مواد استعمال کرنے میں مدد کرتے ہیں۔ یہ جیت جیت کا حل ہے۔

کیپشنز کے لیے استعمال کے بہت سے کیسز ہیں، جیسے کہ سماجی جگہوں، جمنازیم، کافی شاپس، اور دوسری جگہوں پر اشتہارات جہاں عام طور پر ٹیلی ویژن پر کچھ ہوتا ہے جس میں آڈیو خاموش اور پس منظر میں موسیقی ہوتی ہے۔ آن لائن تربیت اور کلاسز؛ ورچوئل میٹنگز؛ عوامی الیکٹرانک اعلانات؛ بغیر ہیڈ فون کے سفر کے دوران اور ساتھی مسافروں کو پریشان کیے بغیر ویڈیوز دیکھنا؛ اور کئی مزید.

درخواست کے میدان سے قطع نظر، بند کیپشن درج ذیل میں مدد کر سکتا ہے:

  • رسائی - سماعت سے محروم لوگ آپ کے مواد کو بہتر طریقے سے استعمال کر سکتے ہیں۔
  • برقراری - جب زیادہ انسانی حواس شامل ہوتے ہیں تو آن لائن سیکھنا ای-لاررز کے لیے سمجھنا اور برقرار رکھنا آسان ہوتا ہے۔
  • بحالی - آپ کا مواد ان لوگوں تک پہنچ سکتا ہے جن کی مسابقتی ترجیحات ہیں، جیسے کہ گیمنگ اور خبریں بیک وقت دیکھنا، یا ایسے لوگ جن کی مادری زبان آڈیو زبان سے مختلف ہے۔
  • تلاش کی اہلیت - مواد کو سرچ انجنوں کے ذریعہ تلاش کیا جاسکتا ہے۔ جب کہ زیادہ تر سرچ انجنوں کے ذریعے ویڈیوز کو بہترین طریقے سے تلاش نہیں کیا جا سکتا، سرچ انجن کیپشن ٹیکسٹ فائلز کا استعمال کر سکتے ہیں اور آپ کے مواد کو مزید قابل دریافت بنا سکتے ہیں۔
  • سماجی شائستگی - بعض اوقات آپ کے ماحول کی وجہ سے آڈیو چلانا بدتمیزی ہو سکتا ہے، یا آپ کے ماحول کے شور کی وجہ سے آڈیو کو سننا مشکل ہو سکتا ہے۔
  • جامع - بولنے والے کے لہجے، بولنے والے کی مادری زبان، یا تقریر کی رفتار سے قطع نظر مواد کو سمجھنا آسان ہے۔ آپ ایک ہی منظر کو بار بار دیکھے بغیر بھی نوٹ لے سکتے ہیں۔

حل جائزہ

اس پوسٹ میں پیش کی گئی لائبریری ان پٹ ٹیکسٹ کے لیے آواز اور بند کیپشن بنانے کے لیے Amazon Polly کا استعمال کرتی ہے۔ آپ اس لائبریری کو اپنی ٹیکسٹ ٹو اسپیچ ایپلی کیشنز میں آسانی سے ضم کر سکتے ہیں۔ یہ VTT اور SRT دونوں فائل فارمیٹس میں کئی آڈیو فارمیٹس، اور کیپشن کو سپورٹ کرتا ہے، جو پوری صنعت میں سب سے زیادہ استعمال ہوتے ہیں۔

اس پوسٹ میں، ہم پر توجہ مرکوز کرتے ہیں PollyVTT() نحو اور اختیارات، اور چند مثالیں پیش کرتے ہیں جو یہ ظاہر کرتے ہیں کہ Python کو کیسے استعمال کیا جائے۔ SubtitleGeneratorForPolly دیئے گئے ٹیکسٹ ان پٹ کے لیے بیک وقت سنکرونس آڈیو اور سب ٹائٹل فائلیں بنانے کے لیے۔ آؤٹ پٹ آڈیو فائل فارمیٹ PCM(wav)، OGG، یا MP3 ہو سکتا ہے، اور سب ٹائٹل فائل فارمیٹ VTT یا SRT ہو سکتا ہے۔ مزید برآں، SubtitleGeneratorForPolly تمام ایمیزون پولی کی حمایت کرتا ہے۔ synthesize_speech پیرامیٹرز اور امیر ایمیزون پولی فیچر سیٹ میں اضافہ کرتا ہے۔

۔ polly-vtt لائبریری اور اس پر انحصار دستیاب ہے۔ GitHub کے.

فنکشن کو انسٹال اور استعمال کریں۔

اس سے پہلے کہ ہم استعمال کرنے کی کچھ مثالیں دیکھیں PollyVTT()، وہ فنکشن جو طاقت دیتا ہے۔ SubtitleGeneratorForPollyآئیے اس کی تنصیب اور نحو کو دیکھتے ہیں۔

درج ذیل کوڈ کا استعمال کرتے ہوئے لائبریری کو انسٹال کریں:

pip install

کمانڈ لائن سے چلانے کے لیے، آپ بس چلاتے ہیں۔ polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

درج ذیل کوڈ آپ کے اختیارات کو ظاہر کرتا ہے:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

آئیے اب چند مثالیں دیکھتے ہیں۔

مثال 1

یہ مثال دو آسان جملوں کے لیے ایک PCM آڈیو فائل کے ساتھ SRT کیپشن فائل بناتی ہے۔

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

مثال 2

یہ مثال ظاہر کرتی ہے کہ متن کے پیراگراف کو بطور ان پٹ کیسے استعمال کیا جائے۔ یہ WAV، MP3، اور OGG میں آڈیو فائلیں اور SRT اور VTT میں سب ٹائٹلز تیار کرتا ہے۔ درج ذیل مثال دیے گئے ان پٹ ٹیکسٹ کے لیے چھ فائلیں بناتی ہے۔

  • pcm_testfile.wav
  • pcm_testfile.wav.vtt
  • mp3_testfile.mp3
  • mp3_testfile.mp3.vtt
  • ogg_testfile.ogg
  • ogg_testfile.ogg.srt

درج ذیل کوڈ دیکھیں:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
) 

مثال 3

تاہم، زیادہ تر معاملات میں، آپ متن کو ان پٹ فائل کے طور پر منتقل کرنا چاہتے ہیں۔ پچھلی مثال کے طور پر ایک ہی آؤٹ پٹ کے ساتھ، اس کی ایک ازگر کی مثال درج ذیل ہے:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

مندرجہ ذیل AWS کی داخلی تربیتی ٹیم کی طرف سے Amazon Polly کو بند کیپشن کے ساتھ استعمال کرنے کی ایک تعریفی پوسٹ ہے:

مندرجہ ذیل ویڈیو میں ایک مختصر ڈیمو پیش کیا گیا ہے کہ AWS میں داخلی تربیتی ٹیم کس طرح استعمال کرتی ہے۔ PollyVTT():

نتیجہ

اس پوسٹ میں، ہم نے دیئے گئے متن کے لیے ایک ہی وقت میں آڈیو اور سب ٹائٹلز بنانے کا طریقہ شیئر کیا ہے۔ دی PollyVTT() فنکشن اور SubtitleGeneratorForPolly سب ٹائٹلز کے لیے ایک عام ضرورت کو موثر اور موثر انداز میں حل کریں۔ ایمیزون پولی ٹیم پیچیدہ کسٹمر کی ضروریات کے لیے آسان حل ایجاد اور پیش کرتی ہے۔

ایمیزون پولی کے بارے میں مزید سبق اور معلومات کے لیے، دیکھیں AWS مشین لرننگ بلاگ.


مصنفین کے بارے میں

Generate synchronized closed captions and audio using the Amazon Polly subtitle generator PlatoBlockchain Data Intelligence. Vertical Search. Ai.ابھیشیک سونی AWS میں ایک پارٹنر سلوشنز آرکیٹیکٹ ہے۔ وہ AWS پر کام کے بوجھ کے بہترین نتائج کے لیے تکنیکی رہنمائی فراہم کرنے کے لیے صارفین کے ساتھ کام کرتا ہے۔

Generate synchronized closed captions and audio using the Amazon Polly subtitle generator PlatoBlockchain Data Intelligence. Vertical Search. Ai. عطیہ میککی ٹارگٹڈ، ماڈیولر، اور سٹرکچرڈ کورسز میں مواد کو ڈسٹل کرنے کے لیے آڈیو، ویڈیو اور کافی کا استعمال کرتا ہے۔ Amazon Web Services میں NetSec ڈومین کے لیے کریکولم ڈیولپر پروجیکٹ مینیجر کے طور پر اپنے کردار میں، وہ ڈیٹا سینٹر نیٹ ورکنگ میں اپنے تجربے سے فائدہ اٹھاتا ہے تاکہ مضامین کے ماہرین کو خیالات کو زندہ کرنے میں مدد ملے۔

Generate synchronized closed captions and audio using the Amazon Polly subtitle generator PlatoBlockchain Data Intelligence. Vertical Search. Ai.اورلینڈو کرم ایمیزون ویب سروسز میں ٹیکنیکل کریکولم ڈیولپر ہے، جس کا مطلب ہے کہ وہ نئی نئی ٹیکنالوجیز کے ساتھ کھیل سکتا ہے اور پھر اس کے بارے میں بات کرتا ہے۔ کبھی کبھار، وہ اپنے کام کو آسان بنانے کے لیے ان ٹھنڈی ٹیکنالوجیز کا بھی استعمال کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ