مونا لیزا اب بات کر سکتی ہے، بشکریہ EMO

مونا لیزا اب بات کر سکتی ہے، بشکریہ EMO

علی بابا گروپ کے انسٹی ٹیوٹ فار انٹیلیجنٹ کمپیوٹنگ کے محققین نے ایک AI ٹول تیار کیا ہے جسے EMO: Emote Portrait Alive کہا جاتا ہے، جو پورٹریٹ کو زندہ کرتا ہے۔

یہ ٹول صارفین کو اسٹیل امیج میں آڈیو اور ویڈیو شامل کرنے کے قابل بناتا ہے۔ اس ٹول کا استعمال کرتے ہوئے، کوئی بھی مشہور لیونارڈو ڈا ونچی کی لا جیوکونڈا کی طرح پرانے پورٹریٹ کے ساتھ کھیل سکتا ہے، جسے مونا لیزا کے نام سے جانا جاتا ہے، سر کے پوز، حرکت، چہرے کے تاثرات، اور ہونٹوں کی درست مطابقت کے ساتھ اپنی گفتگو اور گانا بنا سکتا ہے۔

اظہار خیال آڈیو سے چلنے والا پورٹریٹ ویڈیو جنریشن ٹول

اپنی رپورٹ میں، "EMO: Emote Portrait Alive: کمزور حالات میں Audio2Video Diffusion Model کے ساتھ ایکسپریسیو پورٹریٹ ویڈیوز تیار کرنا،"  محققین ان کے نئے ٹول، اس کے افعال، اور کامل نتائج کے لیے اسے کیسے استعمال کیا جائے کے بارے میں بصیرت فراہم کریں۔

تاثراتی آڈیو سے چلنے والے پورٹریٹ بنانے والے AI ٹول کے ساتھ، صارفین چہرے کے تاثرات کے ساتھ مخر اوتار ویڈیوز بنا سکتے ہیں۔ محققین کے مطابق، یہ ٹول انہیں "ان پٹ آڈیو کی لمبائی کے لحاظ سے" کسی بھی دورانیے کی ویڈیوز بنانے کی اجازت دیتا ہے۔

محققین نے کہا، "ایک ہی کردار کی تصویر اور ایک آواز کی آڈیو، جیسے گانا، اور ہمارا طریقہ صوتی اوتار کی ویڈیوز بنا سکتا ہے جس میں چہرے کے تاثرات اور مختلف سر پوز ہوتے ہیں۔"

"ہمارا طریقہ مختلف زبانوں میں گانوں کی حمایت کرتا ہے اور متنوع پورٹریٹ اسٹائل کو زندہ کرتا ہے۔ یہ آڈیو میں ٹونل تغیرات کو بدیہی طور پر پہچانتا ہے، متحرک، اظہار سے بھرپور اوتاروں کی نسل کو قابل بناتا ہے۔

مزید پڑھئے: اوپن اے آئی کا دعویٰ ہے کہ کاپی رائٹ کیس تیار کرنے کے لیے نیویارک ٹائمز چیٹ جی پی ٹی کو "ہیک کر لیا گیا"

پورٹریٹ سے بات کرنا، گانا

محققین کے مطابق اے آئی سے چلنے والا یہ ٹول نہ صرف موسیقی پر کارروائی کرتا ہے بلکہ مختلف زبانوں میں بولی جانے والی آڈیو کو بھی جگہ دیتا ہے۔

محققین نے کہا، "اس کے علاوہ، ہمارے طریقہ کار میں گزرے ہوئے زمانے کے پورٹریٹ، پینٹنگز، اور 3D ماڈلز اور AI سے تیار کردہ مواد کو متحرک کرنے کی صلاحیت ہے، جس سے وہ زندگی بھر کی حرکت اور حقیقت پسندی کے ساتھ متاثر ہوتے ہیں،" محققین نے کہا۔

لیکن بات وہیں ختم نہیں ہوتی۔ صارفین فلمی ستاروں کے پورٹریٹ اور تصاویر کے ساتھ بھی کھیل سکتے ہیں جو مختلف انداز اور زبانوں میں ایکولوگ یا پرفارمنس پیش کرتے ہیں۔

X پلیٹ فارم پر جانے والے کچھ AI پرجوشوں نے اسے "ذہن اڑا دینے والا" قرار دیا۔

اصلی اور AI کے درمیان پتلی ہونے والی حد

EMO ٹول کی خبر بذریعہ Alibaba دوسرے صارفین کو یہ سوچنے پر مجبور کر دیا ہے کہ AI اور حقیقت کے درمیان حد ختم ہونے والی ہے کیونکہ ٹیک فرمیں نئی ​​مصنوعات جاری کرنا جاری رکھے ہوئے ہیں۔

"AI اور real کے درمیان کنارہ پہلے سے زیادہ پتلا ہے،" Ruben پوسٹ کیا X پر، جبکہ دوسرے سوچتے ہیں۔ ٹاکوک جلد ہی تخلیقات سے بھر جائے گا۔

"یہ پہلی بار ہے کہ میں نے اتنا درست اور حقیقت پسندانہ نتیجہ دیکھا ہے۔ ویڈیو AI اس سال قابل اعتماد ہونے کا وعدہ کیا گیا ہے،" کہا پال کوورٹ.

جبکہ دوسروں کا خیال ہے کہ یہ تخلیق کاروں کے لیے گیم چینجر ثابت ہو سکتا ہے، من چوئی بھی اس بارے میں محتاط ہے۔

"امید ہے کہ صرف تخلیقی چیزوں کے لیے۔ یہ غلط ہاتھوں میں خطرناک ہوسکتا ہے۔"

مونا لیزا اب بات کر سکتی ہے، بشکریہ EMO

ٹول کا استعمال کرتے ہوئے۔

اس عمل کی وضاحت کرتے ہوئے، محققین نے روشنی ڈالی کہ EMO فریم ورک کے دو مراحل ہوتے ہیں، جس میں پہلے فریمز انکوڈنگ کے نام سے جانا جاتا ہے، جہاں ReferenceNet کو حوالہ جاتی تصاویر اور موشن فریموں سے خصوصیات نکالنے کے لیے تعینات کیا جاتا ہے۔

اگلا مرحلہ بازی کے عمل کا مرحلہ ہے، جہاں پہلے سے تربیت یافتہ آڈیو انکوڈر "آڈیو ایمبیڈنگ پر کارروائی کرتا ہے۔" چہرے کی بہترین تصویر بنانے کے لیے، صارفین چہرے کے علاقے کے ماسک اور ملٹی فریم شور کو مربوط کرتے ہیں۔

"یہ میکانزم کردار کی شناخت کو محفوظ رکھنے اور کردار کی حرکات کو بالترتیب ماڈیول کرنے کے لیے ضروری ہیں،" وضاحت کا حصہ پڑھتا ہے۔

"اس کے علاوہ، عارضی ماڈیولز کا استعمال وقتی جہت میں ہیرا پھیری اور رفتار کی رفتار کو ایڈجسٹ کرنے کے لیے کیا جاتا ہے۔"

ٹائم اسٹیمپ:

سے زیادہ میٹا نیوز