AI اور چند الفاظ کے ساتھ Make-A-Video: Meta کے نئے ٹول PlatoBlockchain Data Intelligence کو چیک کریں۔ عمودی تلاش۔ عی

AI اور چند الفاظ کے ساتھ Make-A-Video: Meta کا نیا ٹول چیک کریں۔

عوامی طور پر دستیاب AI امیج جنریٹرز جیسے DALL-E 2 اور Stable Diffusion کے ساتھ، مٹھی بھر الفاظ کے جواب میں ایک تصویر بنانے میں مصنوعی ذہانت بہتر سے بہتر ہوتی جا رہی ہے۔ اب، میٹا محققین AI کو ایک قدم آگے لے جا رہے ہیں: وہ اسے ٹیکسٹ پرامپٹ سے ویڈیوز بنانے کے لیے استعمال کر رہے ہیں۔

میٹا کے سی ای او مارک زکربرگ تحقیق کے بارے میں جمعرات کو فیس بک پر پوسٹ کیا۔، سے ملاقات کی ایک ویڈیو بنائیں20 سیکنڈ کے کلپ کے ساتھ جس میں متعدد ٹیکسٹ پرامپٹس مرتب کیے گئے جو میٹا محققین نے استعمال کیے اور نتیجے میں (بہت مختصر) ویڈیوز۔ اشارے میں شامل ہیں "ایک ٹیڈی بیئر ایک سیلف پورٹریٹ پینٹ کر رہا ہے،" "مریخ پر اترنے والا ایک خلائی جہاز،" "بنی ہوئی ٹوپی کے ساتھ لیپ ٹاپ کا پتہ لگانے کی کوشش کرنے والا ایک بچہ کاہلی" اور "سمندر میں لہروں پر سرفنگ کرنے والا ایک روبوٹ۔"

ہر ایک پرامپٹ کے لیے ویڈیوز صرف چند سیکنڈ کے ہوتے ہیں، اور وہ عام طور پر دکھاتے ہیں کہ پرامپٹ کیا تجویز کرتا ہے (بچہ کاہلی کو چھوڑ کر، جو اصل مخلوق کی طرح نظر نہیں آتا)، کافی کم ریزولوشن میں اور کسی حد تک جھٹکے سے انداز اس کے باوجود، یہ ظاہر کرتا ہے کہ AI تحقیق ایک نئی سمت لے رہی ہے کیونکہ سسٹمز الفاظ سے تصاویر بنانے میں تیزی سے بہتر ہو رہے ہیں۔ اگر ٹیکنالوجی کو آخر کار وسیع پیمانے پر جاری کیا جاتا ہے، اگرچہ، یہ ٹیکسٹ ٹو امیج سسٹمز کے ذریعے پیدا ہونے والے بہت سے خدشات کو جنم دے گی، جیسے کہ اسے ویڈیو کے ذریعے غلط معلومات پھیلانے کے لیے استعمال کیا جا سکتا ہے۔

ایک ویب صفحہ میک-اے-ویڈیو کے لیے یہ مختصر کلپس اور دیگر شامل ہیں، جن میں سے کچھ کافی حد تک حقیقت پسندانہ نظر آتے ہیں، جیسے کہ پرامپٹ کے جواب میں بنائی گئی ویڈیو "کلون مچھلی مرجان کی چٹان میں تیر رہی ہے" یا ایک دکھانا ہے؟ "ایک نوجوان جوڑا تیز بارش میں چل رہا ہے۔".

اپنی فیس بک پوسٹ میں، زکربرگ نے نشاندہی کی کہ مٹھی بھر الفاظ سے متحرک تصویر بنانا کتنا مشکل ہے۔

"تصاویر کے مقابلے میں ویڈیو بنانا بہت مشکل ہے کیونکہ ہر ایک پکسل کو صحیح طریقے سے بنانے کے علاوہ، سسٹم کو یہ بھی پیش گوئی کرنا ہوتی ہے کہ وہ وقت کے ساتھ ساتھ کیسے بدلیں گے،" انہوں نے لکھا۔

ایک تحقیقی مقالہ کام کی وضاحت کرتے ہوئے یہ بتاتا ہے کہ پراجیکٹ میں متن سے تصویر کے AI ماڈل کا استعمال کیا گیا ہے تاکہ یہ معلوم کیا جا سکے کہ الفاظ تصویروں سے کیسے مطابقت رکھتے ہیں، اور ایک AI تکنیک جس کے نام سے جانا جاتا ہے۔ غیر زیر نگرانی تعلیم - جس میں الگورتھم ایسے ڈیٹا پر چھا جاتے ہیں جس پر اس کے اندر پیٹرن کو سمجھنے کے لیے لیبل نہیں لگایا گیا ہے - ویڈیوز کو دیکھنے اور اس بات کا تعین کرنے کے لیے کہ حقیقت پسندانہ حرکت کیسی دکھتی ہے۔

جیسا کہ بڑے پیمانے پر، مقبول AI سسٹمز جو متن سے تصاویر تیار کرتے ہیں، محققین نے نشاندہی کی کہ ان کے ٹیکسٹ ٹو امیج AI ماڈل کو انٹرنیٹ ڈیٹا پر تربیت دی گئی تھی - جس کا مطلب ہے کہ اس نے "اور ممکنہ طور پر بڑھا چڑھا کر سماجی تعصبات کو سیکھا، بشمول نقصان دہ،" تحقیق لکھا انہوں نے نوٹ کیا کہ انہوں نے "NSFW مواد اور زہریلے الفاظ" کے لیے ڈیٹا کو فلٹر کیا، لیکن چونکہ ڈیٹا سیٹس میں لاکھوں تصاویر اور متن شامل ہو سکتا ہے، اس لیے اس طرح کے تمام مواد کو ہٹانا ممکن نہیں ہے۔

زکربرگ نے لکھا کہ میٹا مستقبل میں میک-اے-ویڈیو پروجیکٹ کو بطور ڈیمو شیئر کرنے کا ارادہ رکھتی ہے۔

The-CNN-Wire™ & © 2022 Cable News Network, Inc.، Warner Bros. Discovery کمپنی۔ جملہ حقوق محفوظ ہیں.

ٹائم اسٹیمپ:

سے زیادہ WRAL ٹیک وائر