طبیعیات کا وہ اصول جس نے جدید AI آرٹ کو متاثر کیا۔

طبیعیات کا وہ اصول جس نے جدید AI آرٹ کو متاثر کیا۔

The Physics Principle That Inspired Modern AI Art PlatoBlockchain Data Intelligence. Vertical Search. Ai.

تعارف

DALL·E 2، OpenAI کی طرف سے تخلیق کردہ ایک امیج جنریشن سسٹم سے پوچھیں کہ "گولڈ فش کوکا کولا کو بیچ میں ڈھلتی ہوئی" کی تصویر پینٹ کرنے کے لیے، اور یہ بالکل اس کی حقیقی تصاویر کو تھوک دے گا۔ اس پروگرام میں ٹریننگ کے دوران ساحلوں، گولڈ فش اور کوکا کولا کی تصاویر کا سامنا کرنا پڑا ہوگا، لیکن اس بات کا بہت زیادہ امکان نہیں ہے کہ اس میں تینوں ایک ساتھ آئے ہوں۔ اس کے باوجود DALL·E 2 تصورات کو کسی ایسی چیز میں جمع کر سکتا ہے جس نے ڈالی کو فخر کیا ہو۔

DALL·E 2 ایک قسم کا جنریٹو ماڈل ہے — ایک ایسا نظام جو تربیتی ڈیٹا کو استعمال کرنے کی کوشش کرتا ہے تاکہ کوئی نئی چیز تیار کی جا سکے جو کہ معیار اور مختلف قسم کے لحاظ سے ڈیٹا سے موازنہ ہو۔ یہ مشین لرننگ میں مشکل ترین مسائل میں سے ایک ہے، اور اس مقام تک پہنچنا ایک مشکل سفر رہا ہے۔

امیجز کے لیے پہلے اہم جنریٹو ماڈلز نے مصنوعی ذہانت کے لیے ایک نقطہ نظر کا استعمال کیا جسے نیورل نیٹ ورک کہا جاتا ہے - ایک ایسا پروگرام جو کمپیوٹیشنل یونٹس کی کئی پرتوں پر مشتمل ہے جسے مصنوعی نیوران کہتے ہیں۔ لیکن جیسا کہ ان کی تصاویر کا معیار بہتر ہوتا گیا، ماڈل ناقابل اعتماد اور تربیت کے لیے مشکل ثابت ہوئے۔ دریں اثنا، ایک طاقتور جنریٹو ماڈل — جسے طبیعیات کے شوق کے ساتھ ایک پوسٹ ڈاکیٹرل محقق نے تخلیق کیا — اس وقت تک غیر فعال رہا، جب تک کہ دو گریجویٹ طالب علموں نے تکنیکی کامیابیاں حاصل نہیں کیں جس نے اس جانور کو زندہ کر دیا۔

DALL·E 2 ایسا حیوان ہے۔ کلیدی بصیرت جو DALL·E 2 کی امیجز کو ممکن بناتی ہے — نیز اس کے حریف Stable Diffusion and Imagen — فزکس کی دنیا سے آتی ہے۔ وہ نظام جو ان کو زیر کرتا ہے، جسے ڈفیوژن ماڈل کہا جاتا ہے، غیر متوازن تھرموڈینامکس سے بہت زیادہ متاثر ہوتا ہے، جو سیالوں اور گیسوں کے پھیلاؤ جیسے مظاہر کو کنٹرول کرتا ہے۔ "بہت ساری تکنیکیں ہیں جو ابتدائی طور پر طبیعیات دانوں نے ایجاد کی تھیں اور اب مشین لرننگ میں بہت اہم ہیں،" کہا۔ یانگ گانا، OpenAI میں مشین لرننگ محقق۔

ان ماڈلز کی طاقت نے صنعت اور صارفین کو یکساں طور پر ہلا کر رکھ دیا ہے۔ "یہ تخلیقی ماڈلز کے لیے ایک دلچسپ وقت ہے،" نے کہا انیما آنند کمارکیلیفورنیا انسٹی ٹیوٹ آف ٹیکنالوجی کے کمپیوٹر سائنسدان اور Nvidia میں مشین لرننگ ریسرچ کے سینئر ڈائریکٹر۔ اور جب کہ ڈفیوژن ماڈلز کے ذریعے تخلیق کردہ حقیقت پسندانہ نظر آنے والی تصاویر بعض اوقات سماجی اور ثقافتی تعصبات کو برقرار رکھ سکتی ہیں، اس نے کہا، "ہم نے ثابت کیا ہے کہ جنریٹو ماڈلز بہاوی کاموں کے لیے کارآمد ہیں [جو] پیش گوئی کرنے والے AI ماڈلز کی منصفانہ صلاحیت کو بہتر بناتے ہیں۔"

زیادہ امکانات

یہ سمجھنے کے لیے کہ ڈیٹا بنانا تصویروں کے لیے کیسے کام کرتا ہے، آئیے صرف دو ملحقہ گرے اسکیل پکسلز سے بنی ایک سادہ تصویر سے شروعات کریں۔ ہم اس تصویر کو دو قدروں کے ساتھ مکمل طور پر بیان کر سکتے ہیں، ہر پکسل کے شیڈ کی بنیاد پر (صفر کے مکمل سیاہ ہونے سے 255 کے مکمل سفید ہونے تک)۔ آپ ان دو قدروں کو 2D جگہ میں ایک نقطہ کے طور پر تصویر بنانے کے لیے استعمال کر سکتے ہیں۔

اگر ہم ایک سے زیادہ امیجز کو پوائنٹس کے طور پر پلاٹ کرتے ہیں، تو کلسٹرز ابھر سکتے ہیں — کچھ تصاویر اور ان کی متعلقہ پکسل ویلیوز جو دوسروں کے مقابلے میں زیادہ کثرت سے ہوتی ہیں۔ اب ہوائی جہاز کے اوپر ایک سطح کا تصور کریں، جہاں سطح کی اونچائی اس کے مساوی ہے کہ کلسٹرز کتنے گھنے ہیں۔ یہ سطح امکانی تقسیم کا نقشہ بناتی ہے۔ آپ کو سطح کے سب سے اونچے حصے کے نیچے انفرادی ڈیٹا پوائنٹس ملنے کا زیادہ امکان ہے، اور کچھ جہاں سطح سب سے نیچے ہے۔

تعارف

اب آپ اس امکانی تقسیم کو نئی تصاویر بنانے کے لیے استعمال کر سکتے ہیں۔ آپ کو صرف اس پابندی پر عمل کرتے ہوئے تصادفی طور پر نئے ڈیٹا پوائنٹس تیار کرنے کی ضرورت ہے کہ آپ زیادہ ممکنہ ڈیٹا زیادہ کثرت سے تیار کرتے ہیں — ایک عمل جسے تقسیم کو "سیمپلنگ" کہا جاتا ہے۔ ہر نیا نقطہ ایک نئی تصویر ہے۔

ایک ہی تجزیہ زیادہ حقیقت پسندانہ گرے اسکیل تصویروں کے لیے رکھتا ہے، کہیے، ایک ملین پکسلز۔ صرف اب، ہر تصویر کو پلاٹ کرنے کے لیے دو محوروں کی نہیں بلکہ ایک ملین کی ضرورت ہے۔ اس طرح کی تصاویر پر امکانی تقسیم کچھ پیچیدہ ملین پلس ایک جہتی سطح ہوگی۔ اگر آپ اس تقسیم کا نمونہ بناتے ہیں، تو آپ ایک ملین پکسل ویلیو پیدا کریں گے۔ ان پکسلز کو کاغذ کی شیٹ پر پرنٹ کریں، اور ممکنہ طور پر تصویر اصل ڈیٹا سیٹ کی تصویر کی طرح نظر آئے گی۔

جنریٹو ماڈلنگ کا چیلنج یہ ہے کہ کچھ امیجز کے لیے اس پیچیدہ امکانی تقسیم کو سیکھیں جو تربیتی ڈیٹا کو تشکیل دیتے ہیں۔ یہ تقسیم جزوی طور پر مفید ہے کیونکہ یہ ڈیٹا کے بارے میں وسیع معلومات حاصل کرتی ہے، اور جزوی طور پر اس لیے کہ محققین مختلف قسم کے ڈیٹا (جیسے متن اور تصاویر) پر امکانی تقسیم کو یکجا کر کے غیر حقیقی نتائج مرتب کر سکتے ہیں، جیسے کہ ایک سنہری مچھلی ساحل پر کوکا کولا کو گھور رہی ہے۔ . آنند کمار نے کہا، "آپ مختلف تصورات کو مکس اور میچ کر سکتے ہیں ... مکمل طور پر نئے منظرنامے تخلیق کرنے کے لیے جو تربیتی ڈیٹا میں کبھی نہیں دیکھے گئے تھے۔"

2014 میں، ایک ماڈل جسے جنریٹو ایڈورسریل نیٹ ورک (GAN) کہا جاتا ہے حقیقت پسندانہ تصاویر تیار کرنے والا پہلا ماڈل بن گیا۔ آنند کمار نے کہا، ’’بہت جوش و خروش تھا۔ لیکن GANs کو تربیت دینا مشکل ہے: ہو سکتا ہے کہ وہ مکمل امکانی تقسیم نہ سیکھ سکیں اور تقسیم کے صرف ذیلی سیٹ سے تصویریں تیار کرنے میں بند ہو جائیں۔ مثال کے طور پر، مختلف قسم کے جانوروں کی تصاویر پر تربیت یافتہ GAN صرف کتوں کی تصویریں بنا سکتا ہے۔

مشین لرننگ کے لیے زیادہ مضبوط ماڈل کی ضرورت تھی۔ Jascha Sohl-Dicksteinجس کا کام طبیعیات سے متاثر تھا، ایک فراہم کرے گا۔

جوش کے بلابس

جس وقت GAN کی ایجاد ہوئی، اس وقت Sohl-Dickstein اسٹینفورڈ یونیورسٹی میں ایک پوسٹ ڈاک تھا جو پیدا کرنے والے ماڈلز پر کام کر رہا تھا، جس کی عدم توازن تھرموڈینامکس میں ایک طرفہ دلچسپی تھی۔ طبیعیات کی یہ شاخ تھرمل توازن میں نہیں نظاموں کا مطالعہ کرتی ہے - وہ جو مادے اور توانائی کو اندرونی طور پر اور اپنے ماحول کے ساتھ تبدیل کرتے ہیں۔

ایک مثالی مثال نیلی سیاہی کا ایک قطرہ ہے جو پانی کے کنٹینر میں پھیلا ہوا ہے۔ سب سے پہلے، یہ ایک جگہ پر ایک سیاہ بلاب بناتا ہے. اس مقام پر، اگر آپ کنٹینر کے کچھ چھوٹے حجم میں سیاہی کے مالیکیول کو تلاش کرنے کے امکان کا حساب لگانا چاہتے ہیں، تو آپ کو ایک امکانی تقسیم کی ضرورت ہے جو سیاہی پھیلنے سے پہلے، ابتدائی حالت کو صاف طور پر ماڈل کرے۔ لیکن یہ تقسیم پیچیدہ ہے اور اس لیے اس سے نمونہ لینا مشکل ہے۔

تاہم، بالآخر، سیاہی پورے پانی میں پھیل جاتی ہے، جس سے یہ ہلکا نیلا ہو جاتا ہے۔ اس سے مالیکیولز کی ایک بہت آسان، زیادہ یکساں امکانی تقسیم ہوتی ہے جسے سیدھے سادے ریاضیاتی اظہار کے ساتھ بیان کیا جا سکتا ہے۔ Nonequilibrium thermodynamics پھیلاؤ کے عمل میں ہر مرحلے پر امکانی تقسیم کو بیان کرتا ہے۔ اہم طور پر، ہر قدم الٹنے والا ہے — کافی چھوٹے قدموں کے ساتھ، آپ ایک سادہ تقسیم سے ایک پیچیدہ میں جا سکتے ہیں۔

تعارف

Sohl-Dickstein نے جنریٹو ماڈلنگ کے لیے الگورتھم تیار کرنے کے لیے بازی کے اصولوں کا استعمال کیا۔ خیال آسان ہے: الگورتھم پہلے تربیتی ڈیٹا میں پیچیدہ تصاویر کو سادہ شور میں بدل دیتا ہے — جیسے سیاہی کے بلاب سے ہلکے نیلے پانی کو پھیلانے کے لیے — اور پھر نظام کو سکھاتا ہے کہ کس طرح عمل کو ریورس کرنا ہے، شور کو تصاویر میں تبدیل کرنا ہے۔

یہ کیسے کام کرتا ہے۔ سب سے پہلے، الگورتھم ٹریننگ سیٹ سے ایک تصویر لیتا ہے۔ پہلے کی طرح، ہم یہ کہتے ہیں کہ ملین پکسلز میں سے ہر ایک کی کچھ قدر ہوتی ہے، اور ہم تصویر کو ملین جہتی جگہ میں ایک نقطے کے طور پر پلاٹ کر سکتے ہیں۔ الگورتھم ہر وقت ہر مرحلے پر ہر پکسل میں کچھ شور ڈالتا ہے، جو کہ ایک چھوٹے وقت کے قدم کے بعد سیاہی کے پھیلاؤ کے برابر ہے۔ جیسا کہ یہ عمل جاری رہتا ہے، پکسلز کی قدریں اصل تصویر میں اپنی اقدار سے کم تعلق رکھتی ہیں، اور پکسلز ایک سادہ شور کی تقسیم کی طرح نظر آتے ہیں۔ (الگورتھم ہر ایک قدم پر ہر پکسل کی قدر کو اصل کی طرف ایک smidgen، ان تمام محوروں پر صفر کی قدر کو بھی دھکیلتا ہے۔ یہ جھٹکا پکسل کی قدروں کو کمپیوٹر کے آسانی سے کام کرنے کے لیے بہت زیادہ بڑھنے سے روکتا ہے۔)

ڈیٹا سیٹ میں موجود تمام امیجز کے لیے ایسا کریں، اور ملین ڈائمینشنل اسپیس میں نقطوں کی ابتدائی پیچیدہ تقسیم (جسے آسانی سے بیان اور نمونہ نہیں بنایا جا سکتا) اصل کے ارد گرد نقطوں کی ایک سادہ، عام تقسیم میں بدل جاتا ہے۔

"تبدیلیوں کا سلسلہ بہت آہستہ آہستہ آپ کے ڈیٹا کی تقسیم کو صرف ایک بڑے شور کی گیند میں بدل دیتا ہے،" سوہل ڈکسٹین نے کہا۔ یہ "آگے کا عمل" آپ کو ایک ایسی تقسیم کے ساتھ چھوڑتا ہے جس سے آپ آسانی سے نمونہ لے سکتے ہیں۔

اگلا مشین لرننگ حصہ ہے: ایک نیورل نیٹ ورک کو فارورڈ پاس سے حاصل کی گئی شور والی تصاویر دیں اور اسے کم شور والی تصاویر کی پیشین گوئی کرنے کی تربیت دیں جو ایک قدم پہلے آئیں۔ یہ سب سے پہلے غلطیاں کرے گا، لہذا آپ نیٹ ورک کے پیرامیٹرز کو موافقت دیتے ہیں تاکہ یہ بہتر ہو. بالآخر، نیورل نیٹ ورک قابل اعتماد طور پر شور والی تصویر کو تبدیل کر سکتا ہے، جو سادہ تقسیم سے نمونے کا نمائندہ ہوتا ہے، پیچیدہ تقسیم کے نمونے کے نمائندہ تصویر میں۔

تربیت یافتہ نیٹ ورک ایک مکمل طور پر تیار کرنے والا ماڈل ہے۔ اب آپ کو ایک اصلی تصویر کی بھی ضرورت نہیں ہے جس پر فارورڈ پاس کرنا ہے: آپ کے پاس سادہ تقسیم کی مکمل ریاضیاتی تفصیل ہے، لہذا آپ اس سے براہ راست نمونہ لے سکتے ہیں۔ اعصابی نیٹ ورک اس نمونے کو - بنیادی طور پر صرف جامد - کو ایک حتمی تصویر میں بدل سکتا ہے جو تربیتی ڈیٹا سیٹ میں ایک تصویر سے مشابہت رکھتا ہے۔

Sohl-Dickstein اپنے ڈفیوژن ماڈل کے پہلے نتائج کو یاد کرتے ہیں۔ انہوں نے کہا، "آپ بھیکیں گے اور ایسے بنیں گے، 'مجھے لگتا ہے کہ رنگین بلاب ایک ٹرک کی طرح لگتا ہے،'" اس نے کہا۔ "میں نے اپنی زندگی کے بہت سارے مہینے پکسلز کے مختلف نمونوں کو گھورتے ہوئے گزارے اور اس ساخت کو دیکھنے کی کوشش کی جس طرح میں تھا، 'یہ اس سے کہیں زیادہ ڈھانچہ ہے جتنا میں نے پہلے کبھی حاصل کیا تھا۔' میں بہت پرجوش تھا."

مستقبل کا تصور کرنا

Sohl-Dickstein نے اسے شائع کیا۔ بازی ماڈل الگورتھم 2015 میں، لیکن یہ ابھی بھی بہت پیچھے تھا جو GAN کر سکتا تھا۔ جب کہ ڈفیوژن ماڈل پوری تقسیم پر نمونے لے سکتے ہیں اور صرف تصاویر کے ایک ذیلی سیٹ کو تھوکتے ہوئے کبھی نہیں پھنس سکتے ہیں، تصاویر بدتر لگ رہی تھیں، اور یہ عمل بہت سست تھا۔ "مجھے نہیں لگتا کہ اس وقت اسے اتنا دلچسپ دیکھا گیا تھا،" سہل ڈکسٹین نے کہا۔

اس ابتدائی کام سے نقطوں کو جدید دور کے ڈفیوژن ماڈلز جیسے DALL·E 2 سے جوڑنے کے لیے دو طالب علموں کو، جن میں سے کوئی بھی Sohl-Dickstein یا ایک دوسرے کو نہیں جانتا تھا۔ 2019 میں، وہ اور ان کے مشیر ایک نیا طریقہ شائع کیا جنریٹیو ماڈلز بنانے کے لیے جنہوں نے ڈیٹا کی ممکنہ تقسیم (اعلی جہتی سطح) کا اندازہ نہیں لگایا۔ اس کے بجائے، اس نے تقسیم کے میلان کا اندازہ لگایا (اسے اعلیٰ جہتی سطح کی ڈھلوان سمجھیں)۔

گانے کو اس کی تکنیک بہترین ثابت ہوئی اگر اس نے پہلے شور کی بڑھتی ہوئی سطح کے ساتھ تربیتی ڈیٹا سیٹ میں ہر تصویر کو پریشان کیا، پھر اپنے نیورل نیٹ ورک سے کہا کہ وہ تقسیم کے میلان کا استعمال کرتے ہوئے اصل تصویر کی پیش گوئی کرے، مؤثر طریقے سے اس کی تردید کرے۔ ایک بار تربیت حاصل کرنے کے بعد، اس کا عصبی نیٹ ورک ایک سادہ تقسیم سے نمونہ کی گئی شور والی تصویر لے سکتا ہے اور آہستہ آہستہ اسے تربیتی ڈیٹا سیٹ کے تصویری نمائندے میں تبدیل کر سکتا ہے۔ تصویر کا معیار بہت اچھا تھا، لیکن اس کا مشین لرننگ ماڈل نمونے کے لیے دردناک حد تک سست تھا۔ اور اس نے یہ کام Sohl-Dickstein کے کام کے بارے میں علم کے بغیر کیا۔ "میں بازی کے ماڈلز سے بالکل واقف نہیں تھا،" سونگ نے کہا۔ "ہمارا 2019 کا مقالہ شائع ہونے کے بعد، مجھے جسچا کی طرف سے ایک ای میل موصول ہوا۔ اس نے میری طرف اشارہ کیا کہ [ہمارے ماڈلز] کے بہت مضبوط روابط ہیں۔

2020 میں، دوسرے طالب علم نے ان رابطوں کو دیکھا اور محسوس کیا کہ سونگ کا کام Sohl-Dickstein کے ڈفیوژن ماڈلز کو بہتر بنا سکتا ہے۔ جوناتھن ہو انہوں نے حال ہی میں یونیورسٹی آف کیلیفورنیا، برکلے میں جنریٹو ماڈلنگ پر ڈاکٹریٹ کا کام مکمل کیا تھا، لیکن اس نے اس پر کام جاری رکھا۔ "میں نے سوچا کہ یہ ریاضی کے لحاظ سے مشین لرننگ کا سب سے خوبصورت ذیلی نظم ہے،" انہوں نے کہا۔

ہو نے سونگ کے کچھ آئیڈیاز اور نیورل نیٹ ورکس کی دنیا سے دیگر پیشرفت کے ساتھ Sohl-Dickstein کے ڈفیوژن ماڈل کو دوبارہ ڈیزائن اور اپ ڈیٹ کیا۔ انہوں نے کہا کہ "میں جانتا تھا کہ کمیونٹی کی توجہ حاصل کرنے کے لیے، مجھے ماڈل کو شاندار نمونے بنانے کی ضرورت تھی۔" "مجھے یقین تھا کہ یہ سب سے اہم چیز تھی جو میں اس وقت کر سکتا تھا۔"

اس کا وجدان اپنی جگہ پر تھا۔ ہو اور ان کے ساتھیوں نے 2020 میں اس نئے اور بہتر پھیلاؤ والے ماڈل کا اعلان ایک مقالے میں کیا جس کا عنوان تھا "ڈینوائزنگ ڈفیوژن پروبیبلسٹک ماڈلز" یہ تیزی سے ایک تاریخی نشان بن گیا کہ محققین اب اسے محض ڈی ڈی پی ایم کہتے ہیں۔ تصویری معیار کے ایک معیار کے مطابق - جو تیار کردہ تصاویر کی تقسیم کا تربیتی امیجز کی تقسیم سے موازنہ کرتا ہے - یہ ماڈلز تمام مسابقتی جنریٹو ماڈلز سے مماثل یا پیچھے رہ گئے، بشمول GANs۔ بڑے کھلاڑیوں کو نوٹس لینے میں زیادہ دیر نہیں گزری۔ اب، DALL·E 2، Stable Diffusion، Imagen اور دیگر تجارتی ماڈل سبھی DDPM کے کچھ تغیرات کا استعمال کرتے ہیں۔

جدید ڈفیوژن ماڈلز میں ایک اور کلیدی جزو ہوتا ہے: بڑے لینگوئج ماڈل (LLMs)، جیسے GPT-3۔ یہ تخلیقی ماڈلز ہیں جنہیں انٹرنیٹ سے متن پر تربیت دی گئی ہے تاکہ تصویروں کے بجائے الفاظ پر امکانی تقسیم سیکھی جا سکے۔ 2021 میں، ہو — اب ایک اسٹیلتھ کمپنی میں ایک ریسرچ سائنسدان — اور اس کا ساتھی ٹم سلیمان گوگل ریسرچ میں، دوسری جگہوں پر دیگر ٹیموں کے ساتھ، دکھایا گیا کہ کس طرح LLM اور تصویر بنانے والے ڈفیوژن ماڈل سے معلومات کو یکجا کرنے کے لیے متن کا استعمال کیا جائے (کہیں، "گولڈ فِش کوکا کولا کو بیچ میں پھینکنا") تاکہ بازی کے عمل کی رہنمائی کی جا سکے۔ تصویر کی نسل. "گائیڈڈ ڈفیوژن" کا یہ عمل ٹیکسٹ ٹو امیج ماڈلز، جیسے DALL·E 2 کی کامیابی کے پیچھے ہے۔

"وہ میری جنگلی توقعات سے کہیں زیادہ ہیں،" ہو نے کہا۔ "میں یہ دکھاوا نہیں کروں گا کہ میں نے یہ سب آتے دیکھا ہے۔"

مسائل پیدا کرنا

یہ ماڈل جتنے کامیاب رہے ہیں، DALL·E 2 اور اس کے لوگوں کی تصاویر اب بھی کامل سے بہت دور ہیں۔ زبان کے بڑے ماڈل ثقافتی اور معاشرتی تعصبات کی عکاسی کر سکتے ہیں، جیسے کہ نسل پرستی اور جنس پرستی، جو وہ تخلیق کرتے ہیں اس میں۔ اس کی وجہ یہ ہے کہ انہیں انٹرنیٹ سے ہٹائے گئے متن پر تربیت دی جاتی ہے، اور اکثر ایسے متن میں نسل پرستانہ اور جنس پرست زبان ہوتی ہے۔ LLMs جو اس طرح کے متن پر امکانی تقسیم سیکھتے ہیں وہ انہی تعصبات میں مبتلا ہو جاتے ہیں۔ ڈفیوژن ماڈلز کو انٹرنیٹ سے لی گئی غیر کیوریٹڈ امیجز پر بھی تربیت دی جاتی ہے، جس میں اسی طرح کا متعصب ڈیٹا ہو سکتا ہے۔ یہ کوئی تعجب کی بات نہیں ہے کہ ایل ایل ایم کو آج کے ڈفیوژن ماڈلز کے ساتھ جوڑنے کے نتیجے میں بعض اوقات معاشرے کی برائیوں کی عکاسی ہوتی ہے۔

آنند کمار کو پہلا تجربہ ہے۔ جب اس نے ڈفیوژن ماڈل پر مبنی ایپ کا استعمال کرتے ہوئے خود کے اسٹائلائزڈ اوتار بنانے کی کوشش کی تو وہ حیران رہ گئی۔ انہوں نے کہا، "تو [بہت سے] تصاویر انتہائی جنسی نوعیت کی تھیں، جب کہ وہ چیزیں جو یہ مردوں کے سامنے پیش کر رہی تھیں۔" وہ اکیلے نہیں.

ان تعصبات کو ڈیٹا کی کوریٹنگ اور فلٹرنگ (ایک انتہائی مشکل کام، ڈیٹا سیٹ کی وسعت کے پیش نظر)، یا ان ماڈلز کے ان پٹ پرامپٹس اور آؤٹ پٹس دونوں کو چیک کر کے کم کیا جا سکتا ہے۔ ہو نے کہا کہ "یقیناً، احتیاط اور وسیع پیمانے پر حفاظتی جانچ کے لیے کوئی بھی چیز متبادل نہیں ہے"۔ "یہ میدان کے لیے ایک اہم چیلنج ہے۔"

اس طرح کے خدشات کے باوجود، آنند کمار جنریٹو ماڈلنگ کی طاقت پر یقین رکھتے ہیں۔ "مجھے رچرڈ فین مین کا اقتباس بہت پسند ہے: 'میں جو نہیں بنا سکتی، میں سمجھ نہیں پاتی،'" اس نے کہا۔ ایک بڑھتی ہوئی تفہیم نے اس کی ٹیم کو تخلیقی ماڈل تیار کرنے کے قابل بنایا ہے، مثال کے طور پر، پیش گوئی کرنے والے کاموں کے لیے کم نمائندگی والی کلاسوں کا مصنوعی تربیتی ڈیٹا، جیسے چہرے کی شناخت کے لیے جلد کے گہرے رنگ، انصاف کو بہتر بنانے میں مدد کرتے ہیں۔ جنریٹیو ماڈلز ہمیں یہ بصیرت بھی فراہم کر سکتے ہیں کہ ہمارا دماغ کس طرح شور مچانے والے آدانوں سے نمٹتا ہے، یا وہ کس طرح ذہنی منظر کشی کرتے ہیں اور مستقبل کی کارروائی پر غور کرتے ہیں۔ اور مزید نفیس ماڈلز کی تعمیر اسی طرح کی صلاحیتوں کے ساتھ AIs کو عطا کر سکتی ہے۔

آنند کمار نے کہا، "مجھے لگتا ہے کہ ہم صرف اس بات کے امکانات کے آغاز میں ہیں کہ ہم تخلیقی AI کے ساتھ کیا کر سکتے ہیں۔"

ٹائم اسٹیمپ:

سے زیادہ کوانٹا میگزین