ایمیزون پولی، ایک AI تیار کردہ ٹیکسٹ ٹو اسپیچ سروس، آپ کو اپنے انٹرایکٹو وائس سلوشنز کو خودکار اور اسکیل کرنے کے قابل بناتی ہے، جس سے پیداواری صلاحیت کو بہتر بنانے اور اخراجات کو کم کرنے میں مدد ملتی ہے۔
جیسا کہ ہمارے صارفین Amazon Polly کو اس کی خصوصیات کے بھرپور سیٹ اور استعمال میں آسانی کے لیے استعمال کرتے رہتے ہیں، ہم نے دیے گئے ٹیکسٹ ان پٹ کے لیے بیک وقت سنکرونائز آڈیو اور سب ٹائٹلز یا بند کیپشن بنانے کی اہلیت کی مانگ کو دیکھا ہے۔ AWS میں، ہم اپنے گاہک کے پوچھنے سے مسلسل پیچھے کام کرتے ہیں، اس لیے اس پوسٹ میں، ہم ایک دیئے گئے متن کے لیے ایک ہی وقت میں آڈیو اور سب ٹائٹلز تیار کرنے کا طریقہ بتاتے ہیں۔
اگرچہ سب ٹائٹلز اور کیپشنز اکثر ایک دوسرے کے بدلے استعمال ہوتے ہیں، بشمول اس پوسٹ میں، ان میں ٹھیک ٹھیک فرق موجود ہیں:
- ذیلی فلمیں - سب ٹائٹلز میں، اسکرین پر ظاہر ہونے والی ٹیکسٹ لینگویج آڈیو لینگویج سے مختلف ہوتی ہے اور غیر ڈائیلاگ کے لیے کچھ بھی نہیں دکھاتی ہے جیسے اہم آوازیں۔ بنیادی مقصد ان سامعین تک پہنچنا ہے جو ویڈیو میں آڈیو زبان نہیں بولتے ہیں۔
- کیپشنز (بند/کھلے) - کیپشن آڈیو میں بولے جانے والے مکالموں کو اسی زبان میں دکھاتے ہیں۔ اس کا بنیادی مقصد ان معاملات میں رسائی کو بڑھانا ہے جہاں بہت سے مسائل کی وجہ سے آخری صارف آڈیو نہیں سن سکتا۔ بند کیپشنز آڈیو/ویڈیو ماخذ سے مختلف فائل کا حصہ ہیں اور صارف کی صوابدید پر اسے بند اور آن کیا جا سکتا ہے، جبکہ کھلے کیپشنز ویڈیو فائل کا حصہ ہیں اور صارف اسے بند نہیں کر سکتا۔
سب ٹائٹلز کے ساتھ آڈیو بنانے کے لیے Amazon Polly کے استعمال کے فوائد
درج ذیل استعمال کے معاملے کا تصور کریں: آپ آن لائن لرننگ پورٹل کے لیے سلائیڈ پر مبنی پریزنٹیشن تیار کرتے ہیں۔ ہر سلائیڈ میں اسکرین کا مواد اور بیانیہ شامل ہوتا ہے۔ اسکرین کا مواد ایک بنیادی خاکہ ہے، اور بیان تفصیل میں جاتا ہے۔ انسانی آواز کو ریکارڈ کرنے کے بجائے، جو کہ بوجھل اور متضاد ہو سکتی ہے، آپ بیانیہ تخلیق کرنے کے لیے Amazon Polly کا استعمال کر سکتے ہیں۔ Amazon Polly اعلیٰ معیار کی، مسلسل آوازیں تیار کرتا ہے۔ پوسٹ پروڈکشن کی ضرورت نہیں ہے۔ مستقبل میں، اگر آپ کو پیشکش کے کسی حصے کو اپ ڈیٹ کرنے کی ضرورت ہے، تو آپ کو صرف متاثرہ سلائیڈوں کو اپ ڈیٹ کرنے کی ضرورت ہے۔ آواز اصل سلائیڈوں سے ملتی ہے۔ مزید برآں، جب Amazon Polly آپ کا آڈیو تیار کرتا ہے، تو کیپشنز شامل کیے جاتے ہیں جو آڈیو کے ساتھ وقت پر ظاہر ہوتے ہیں۔ آپ وقت بچاتے ہیں کیونکہ اس میں کوئی دستی ریکارڈنگ شامل نہیں ہے، اور جب اپ ڈیٹس کی ضرورت ہو تو اضافی وقت بچاتے ہیں۔ آپ کی پیشکش بھی زیادہ اہمیت دیتی ہے کیونکہ کیپشن طلباء کو مواد استعمال کرنے میں مدد کرتے ہیں۔ یہ جیت جیت کا حل ہے۔
کیپشنز کے لیے استعمال کے بہت سے کیسز ہیں، جیسے کہ سماجی جگہوں، جمنازیم، کافی شاپس، اور دوسری جگہوں پر اشتہارات جہاں عام طور پر ٹیلی ویژن پر کچھ ہوتا ہے جس میں آڈیو خاموش اور پس منظر میں موسیقی ہوتی ہے۔ آن لائن تربیت اور کلاسز؛ ورچوئل میٹنگز؛ عوامی الیکٹرانک اعلانات؛ بغیر ہیڈ فون کے سفر کے دوران اور ساتھی مسافروں کو پریشان کیے بغیر ویڈیوز دیکھنا؛ اور کئی مزید.
درخواست کے میدان سے قطع نظر، بند کیپشن درج ذیل میں مدد کر سکتا ہے:
- رسائی - سماعت سے محروم لوگ آپ کے مواد کو بہتر طریقے سے استعمال کر سکتے ہیں۔
- برقراری - جب زیادہ انسانی حواس شامل ہوتے ہیں تو آن لائن سیکھنا ای-لاررز کے لیے سمجھنا اور برقرار رکھنا آسان ہوتا ہے۔
- بحالی - آپ کا مواد ان لوگوں تک پہنچ سکتا ہے جن کی مسابقتی ترجیحات ہیں، جیسے کہ گیمنگ اور خبریں بیک وقت دیکھنا، یا ایسے لوگ جن کی مادری زبان آڈیو زبان سے مختلف ہے۔
- تلاش کی اہلیت - مواد کو سرچ انجنوں کے ذریعہ تلاش کیا جاسکتا ہے۔ جب کہ زیادہ تر سرچ انجنوں کے ذریعے ویڈیوز کو بہترین طریقے سے تلاش نہیں کیا جا سکتا، سرچ انجن کیپشن ٹیکسٹ فائلز کا استعمال کر سکتے ہیں اور آپ کے مواد کو مزید قابل دریافت بنا سکتے ہیں۔
- سماجی شائستگی - بعض اوقات آپ کے ماحول کی وجہ سے آڈیو چلانا بدتمیزی ہو سکتا ہے، یا آپ کے ماحول کے شور کی وجہ سے آڈیو کو سننا مشکل ہو سکتا ہے۔
- جامع - بولنے والے کے لہجے، بولنے والے کی مادری زبان، یا تقریر کی رفتار سے قطع نظر مواد کو سمجھنا آسان ہے۔ آپ ایک ہی منظر کو بار بار دیکھے بغیر بھی نوٹ لے سکتے ہیں۔
حل جائزہ
اس پوسٹ میں پیش کی گئی لائبریری ان پٹ ٹیکسٹ کے لیے آواز اور بند کیپشن بنانے کے لیے Amazon Polly کا استعمال کرتی ہے۔ آپ اس لائبریری کو اپنی ٹیکسٹ ٹو اسپیچ ایپلی کیشنز میں آسانی سے ضم کر سکتے ہیں۔ یہ VTT اور SRT دونوں فائل فارمیٹس میں کئی آڈیو فارمیٹس، اور کیپشن کو سپورٹ کرتا ہے، جو پوری صنعت میں سب سے زیادہ استعمال ہوتے ہیں۔
اس پوسٹ میں، ہم پر توجہ مرکوز کرتے ہیں PollyVTT()
نحو اور اختیارات، اور چند مثالیں پیش کرتے ہیں جو یہ ظاہر کرتے ہیں کہ Python کو کیسے استعمال کیا جائے۔ SubtitleGeneratorForPolly
دیئے گئے ٹیکسٹ ان پٹ کے لیے بیک وقت سنکرونس آڈیو اور سب ٹائٹل فائلیں بنانے کے لیے۔ آؤٹ پٹ آڈیو فائل فارمیٹ PCM(wav)، OGG، یا MP3 ہو سکتا ہے، اور سب ٹائٹل فائل فارمیٹ VTT یا SRT ہو سکتا ہے۔ مزید برآں، SubtitleGeneratorForPolly
تمام ایمیزون پولی کی حمایت کرتا ہے۔ synthesize_speech
پیرامیٹرز اور امیر ایمیزون پولی فیچر سیٹ میں اضافہ کرتا ہے۔
۔ polly-vtt
لائبریری اور اس پر انحصار دستیاب ہے۔ GitHub کے.
فنکشن کو انسٹال اور استعمال کریں۔
اس سے پہلے کہ ہم استعمال کرنے کی کچھ مثالیں دیکھیں PollyVTT()
، وہ فنکشن جو طاقت دیتا ہے۔ SubtitleGeneratorForPolly
آئیے اس کی تنصیب اور نحو کو دیکھتے ہیں۔
درج ذیل کوڈ کا استعمال کرتے ہوئے لائبریری کو انسٹال کریں:
کمانڈ لائن سے چلانے کے لیے، آپ بس چلاتے ہیں۔ polly-vtt
:
درج ذیل کوڈ آپ کے اختیارات کو ظاہر کرتا ہے:
آئیے اب چند مثالیں دیکھتے ہیں۔
مثال 1
یہ مثال دو آسان جملوں کے لیے ایک PCM آڈیو فائل کے ساتھ SRT کیپشن فائل بناتی ہے۔
مثال 2
یہ مثال ظاہر کرتی ہے کہ متن کے پیراگراف کو بطور ان پٹ کیسے استعمال کیا جائے۔ یہ WAV، MP3، اور OGG میں آڈیو فائلیں اور SRT اور VTT میں سب ٹائٹلز تیار کرتا ہے۔ درج ذیل مثال دیے گئے ان پٹ ٹیکسٹ کے لیے چھ فائلیں بناتی ہے۔
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
درج ذیل کوڈ دیکھیں:
مثال 3
تاہم، زیادہ تر معاملات میں، آپ متن کو ان پٹ فائل کے طور پر منتقل کرنا چاہتے ہیں۔ پچھلی مثال کے طور پر ایک ہی آؤٹ پٹ کے ساتھ، اس کی ایک ازگر کی مثال درج ذیل ہے:
مندرجہ ذیل AWS کی داخلی تربیتی ٹیم کی طرف سے Amazon Polly کو بند کیپشن کے ساتھ استعمال کرنے کی ایک تعریفی پوسٹ ہے:
مندرجہ ذیل ویڈیو میں ایک مختصر ڈیمو پیش کیا گیا ہے کہ AWS میں داخلی تربیتی ٹیم کس طرح استعمال کرتی ہے۔ PollyVTT()
:
نتیجہ
اس پوسٹ میں، ہم نے دیئے گئے متن کے لیے ایک ہی وقت میں آڈیو اور سب ٹائٹلز بنانے کا طریقہ شیئر کیا ہے۔ دی PollyVTT()
فنکشن اور SubtitleGeneratorForPolly
سب ٹائٹلز کے لیے ایک عام ضرورت کو موثر اور موثر انداز میں حل کریں۔ ایمیزون پولی ٹیم پیچیدہ کسٹمر کی ضروریات کے لیے آسان حل ایجاد اور پیش کرتی ہے۔
ایمیزون پولی کے بارے میں مزید سبق اور معلومات کے لیے، دیکھیں AWS مشین لرننگ بلاگ.
مصنفین کے بارے میں
ابھیشیک سونی AWS میں ایک پارٹنر سلوشنز آرکیٹیکٹ ہے۔ وہ AWS پر کام کے بوجھ کے بہترین نتائج کے لیے تکنیکی رہنمائی فراہم کرنے کے لیے صارفین کے ساتھ کام کرتا ہے۔
عطیہ میککی ٹارگٹڈ، ماڈیولر، اور سٹرکچرڈ کورسز میں مواد کو ڈسٹل کرنے کے لیے آڈیو، ویڈیو اور کافی کا استعمال کرتا ہے۔ Amazon Web Services میں NetSec ڈومین کے لیے کریکولم ڈیولپر پروجیکٹ مینیجر کے طور پر اپنے کردار میں، وہ ڈیٹا سینٹر نیٹ ورکنگ میں اپنے تجربے سے فائدہ اٹھاتا ہے تاکہ مضامین کے ماہرین کو خیالات کو زندہ کرنے میں مدد ملے۔
اورلینڈو کرم ایمیزون ویب سروسز میں ٹیکنیکل کریکولم ڈیولپر ہے، جس کا مطلب ہے کہ وہ نئی نئی ٹیکنالوجیز کے ساتھ کھیل سکتا ہے اور پھر اس کے بارے میں بات کرتا ہے۔ کبھی کبھار، وہ اپنے کام کو آسان بنانے کے لیے ان ٹھنڈی ٹیکنالوجیز کا بھی استعمال کرتا ہے۔
- AI
- ai آرٹ
- AI آرٹ جنریٹر
- عی روبوٹ
- ایمیزون پولی
- مصنوعی ذہانت
- مصنوعی ذہانت کا سرٹیفیکیشن
- بینکنگ میں مصنوعی ذہانت
- مصنوعی ذہانت والا روبوٹ
- مصنوعی ذہانت والے روبوٹ
- مصنوعی ذہانت سافٹ ویئر
- AWS مشین لرننگ
- blockchain
- بلاکچین کانفرنس
- coingenius
- بات چیت مصنوعی ذہانت
- crypto کانفرنس ai
- dall-e
- گہری سیکھنے
- گوگل عی
- مشین لرننگ
- پلاٹا
- افلاطون اے
- افلاطون ڈیٹا انٹیلی جنس
- افلاطون گیم
- پلیٹو ڈیٹا
- پلیٹو گیمنگ
- پیمانہ ai
- نحو
- زیفیرنیٹ