تصویروں کو بہتر بنانے والے AI ٹولز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

تصویروں کو بہتر بنانے والے AI ٹولز | کوانٹا میگزین پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

یہ جرائم اور سائنس فکشن میں سب سے بڑے کلیچز میں سے ایک ہے: ایک تفتیش کار کمپیوٹر اسکرین پر ایک دھندلی تصویر کھینچتا ہے اور اسے بہتر بنانے کے لیے کہتا ہے، اور تیزی سے تصویر فوکس میں آتی ہے، جس سے کچھ ضروری اشارے سامنے آتے ہیں۔ یہ کہانی سنانے کی ایک حیرت انگیز سہولت ہے، لیکن یہ کئی دہائیوں سے ایک مایوس کن افسانہ رہا ہے — کسی تصویر کو بہت زیادہ اڑا دیتا ہے، اور یہ واضح طور پر پکسلیٹ ہو جاتا ہے۔ مزید کام کرنے کے لیے کافی ڈیٹا نہیں ہے۔

"اگر آپ محض ایک تصویر کو بڑھا چڑھا کر پیش کرتے ہیں، تو یہ دھندلی ہو جائے گی۔ اس میں بہت ساری تفصیل ہونے جا رہی ہے، لیکن یہ غلط ہونے والا ہے،" کہا برائن کیٹانزاروNvidia میں اپلائیڈ ڈیپ لرننگ ریسرچ کے نائب صدر۔

حال ہی میں، محققین اور پیشہ ور افراد نے اپنے امیج کو بڑھانے والے ٹولز میں مصنوعی ذہانت کے الگورتھم کو شامل کرنا شروع کر دیا ہے، جس سے اس عمل کو آسان اور زیادہ طاقتور بنایا جا رہا ہے، لیکن اب بھی اس بات کی حدود موجود ہیں کہ کسی بھی تصویر سے کتنا ڈیٹا حاصل کیا جا سکتا ہے۔ خوش قسمتی سے، جیسا کہ محققین اضافہ کے الگورتھم کو مزید آگے بڑھاتے ہیں، وہ ان حدود سے نمٹنے کے لیے نئے طریقے تلاش کر رہے ہیں — حتیٰ کہ، بعض اوقات، ان پر قابو پانے کے طریقے بھی تلاش کر رہے ہیں۔

پچھلی دہائی میں، محققین نے ایک نئی قسم کے AI ماڈل کے ساتھ تصاویر کو بڑھانا شروع کیا جسے جنریٹو ایڈورسریل نیٹ ورک، یا GAN کہا جاتا ہے، جو تفصیلی، متاثر کن نظر آنے والی تصاویر تیار کر سکتا ہے۔ "تصاویر اچانک بہت بہتر لگنے لگیں،" کہا ٹومر مائیکلی۔اسرائیل میں ٹیکنین میں الیکٹریکل انجینئر۔ لیکن وہ حیران تھا کہ GANs کی بنائی گئی تصاویر میں تحریف کی اعلیٰ سطح دکھائی دیتی ہے، جس سے اندازہ ہوتا ہے کہ ایک بہتر تصویر اس کی اصل حقیقت سے کتنی قریب ہے۔ GANs نے ایسی تصاویر تیار کیں جو خوبصورت اور قدرتی لگ رہی تھیں، لیکن وہ اصل میں بنا رہی تھیں، یا "فریب،" تفصیلات جو درست نہیں تھیں، جو کہ تحریف کی اعلیٰ سطح کے طور پر رجسٹرڈ تھیں۔

مائیکلی نے تصویر کی بحالی کے شعبے کو دو الگ الگ ذیلی برادریوں میں تقسیم ہوتے دیکھا۔ "ایک نے اچھی تصویریں دکھائیں، بہت سی GAN کی بنائی ہوئی تھیں۔ دوسرے نے ڈیٹا دکھایا، لیکن انہوں نے بہت سی تصاویر نہیں دکھائیں، کیونکہ وہ اچھی نہیں لگ رہی تھیں،" اس نے کہا۔

2017 میں، مائیکلی اور اس کے گریجویٹ طالب علم یوچائی بلاؤ نے اس اختلاف کو زیادہ رسمی طور پر دیکھا۔ انہوں نے ادراک کے معیار کے لیے ایک معروف پیمائش کا استعمال کرتے ہوئے تحریف بمقابلہ ادراک کے معیار کے گراف پر مختلف امیج بڑھانے والے الگورتھم کی کارکردگی کی منصوبہ بندی کی جو انسانوں کے موضوعی فیصلے کے ساتھ اچھی طرح سے تعلق رکھتی ہے۔ جیسا کہ Michaeli نے توقع کی تھی، کچھ الگورتھم کے نتیجے میں بہت ہی اعلیٰ بصری معیار نکلا، جب کہ دیگر بہت درست تھے، کم تحریف کے ساتھ۔ لیکن کسی کو بھی دونوں فائدے نہیں تھے۔ آپ کو ایک یا دوسرا چننا پڑا۔ محققین نے اسے ڈب کیا۔ ادراک مسخ تجارت.

مائیکلی بھی دوسرے محققین کو چیلنج کیا۔ ایسے الگورتھم کے ساتھ آنا جو بگاڑ کی دی گئی سطح کے لیے بہترین تصویری معیار پیدا کر سکتا ہے، تاکہ خوبصورت تصویر والے الگورتھم اور اچھے اعدادوشمار کے درمیان منصفانہ موازنہ کی اجازت دی جا سکے۔ تب سے، سیکڑوں AI محققین نے اپنے الگورتھم کی تحریف اور ادراک کی خصوصیات کے بارے میں اطلاع دی ہے، مائیکلی اور بلاؤ پیپر کا حوالہ دیتے ہوئے جس نے تجارت کو بیان کیا۔

بعض اوقات، ادراک مسخ تجارت کے مضمرات سنگین نہیں ہوتے ہیں۔ مثال کے طور پر، Nvidia نے پایا کہ ہائی ڈیفینیشن اسکرینز کچھ لوئر ڈیفینیشن بصری مواد کو اچھی طرح سے پیش نہیں کر رہی تھیں، اس لیے فروری میں اس نے ایک ٹول جاری کیا جو ویڈیو کو اعلیٰ درجے کی اسٹریمنگ کے لیے گہری سیکھنے کا استعمال کرتا ہے۔ اس معاملے میں، Nvidia کے انجینئرز نے اس حقیقت کو قبول کرتے ہوئے کہ جب الگورتھم ویڈیو کو اپ اسکیل کرتا ہے، تو یہ کچھ بصری تفصیلات بنائے گا جو اصل ویڈیو میں نہیں ہیں۔ "ماڈل فریب دینے والا ہے۔ یہ سب ایک اندازہ ہے،" کیتنزارو نے کہا۔ "زیادہ تر وقت ایک سپر ریزولوشن ماڈل کے لیے غلط اندازہ لگانا ٹھیک ہے، جب تک کہ یہ مستقل ہو۔"

تحقیق اور طب میں درخواستیں یقیناً کہیں زیادہ درستگی کا مطالبہ کرتی ہیں۔ اے آئی ٹیکنالوجی نے امیجنگ میں بڑی ترقی کی ہے، لیکن یہ "بعض اوقات ناپسندیدہ ضمنی اثرات کے ساتھ آتا ہے، جیسے اوور فٹنگ یا جعلی خصوصیات [شامل کرنا]، اور اس طرح انتہائی احتیاط کے ساتھ علاج کرنے کی ضرورت ہے،" کہا۔ جنجی یاؤڈیوک یونیورسٹی میں بائیو میڈیکل انجینئر۔ پچھلے سال، اس نے ایک ساتھ لکھا کاغذ یہ بیان کرتے ہوئے کہ AI ٹولز دماغ میں خون کے بہاؤ اور میٹابولزم کی پیمائش کے موجودہ طریقوں کو کیسے بہتر بنا سکتے ہیں - جبکہ ادراک کو مسخ کرنے کی تجارت کے درست پہلو پر محفوظ رہتے ہوئے

کسی تصویر سے کتنا ڈیٹا نکالا جا سکتا ہے اس کی حدود کو روکنے کا ایک طریقہ یہ ہے کہ صرف مزید تصاویر سے ڈیٹا شامل کیا جائے — حالانکہ یہ اکثر اتنا آسان نہیں ہوتا ہے۔ سیٹلائٹ امیجری کے ذریعے ماحولیات کا مطالعہ کرنے والے محققین نے بصری ڈیٹا کے مختلف ذرائع کو یکجا کرنے میں پیش رفت کی ہے۔ 2021 میں، چین اور برطانیہ میں محققین کا ایک گروپ ملا ہوا ڈیٹا کانگو بیسن میں جنگلات کی کٹائی کا بہتر نظارہ حاصل کرنے کے لیے دو مختلف قسم کے سیٹلائٹس سے، جو دنیا کا دوسرا سب سے بڑا اشنکٹبندیی بارشی جنگل ہے اور حیاتیاتی تنوع کا سب سے بڑا ذخیرہ ہے۔ محققین نے دو Landsat سیٹلائٹس سے ڈیٹا لیا، جنہوں نے کئی دہائیوں سے جنگلات کی کٹائی کی پیمائش کی، اور 30 میٹر سے 10 میٹر تک تصاویر کی ریزولوشن کو بہتر بنانے کے لیے گہری سیکھنے کی تکنیک کا استعمال کیا۔ اس کے بعد انہوں نے اس تصویر کو دو سینٹینیل-2 سیٹلائٹس کے ڈیٹا کے ساتھ ملایا، جس میں ڈٹیکٹرز کی ایک قدرے مختلف صف ہے۔ انہوں نے لکھا کہ مشترکہ امیجری نے "صرف سینٹینیل-11 یا لینڈ سیٹ-21/2 امیجز کے استعمال سے 7% سے 8% زیادہ پریشان کن علاقوں کا پتہ لگانے کی اجازت دی۔"

مائیکلی معلومات کی رسائی پر سخت حدود سے گزرنے کا ایک اور طریقہ تجویز کرتا ہے، اگر نہیں تو۔ کم معیار کی تصویر کو کیسے بہتر بنایا جائے اس کے لیے ایک مضبوط جواب پر طے کرنے کے بجائے، ماڈل اصل تصویر کی متعدد مختلف تشریحات دکھا سکتے ہیں۔ ایک مقالے میں جس کا عنوان تھا "ایکسپلور ایبل سپر ریزولوشن"انہوں نے یہ ظاہر کرنے میں مدد کی کہ تصویر بڑھانے والے ٹولز کس طرح صارف کو متعدد تجاویز کے ساتھ پیش کر سکتے ہیں۔ سرمئی رنگ کی قمیض پہننے والے شخص کی ایک مبہم، کم ریزولوشن والی تصویر کو ایک اعلیٰ ریزولوشن والی تصویر میں دوبارہ بنایا جا سکتا ہے جس میں قمیض پر سیاہ اور سفید عمودی دھاریاں، افقی پٹیاں، یا چیک ہیں، یہ سب یکساں طور پر قابل فہم ہیں۔ .

ایک اور مثال میں، Michaeli نے لائسنس پلیٹ کی کم معیار کی تصویر لی اور اسے ایک معروف AI امیج بڑھانے والے کے ذریعے چلایا، جس سے ظاہر ہوتا ہے کہ لائسنس پلیٹ پر 1 صفر کی طرح نظر آتا ہے۔ لیکن جب تصویر پر ایک مختلف، زیادہ کھلے ہوئے الگورتھم کے ذریعے کارروائی کی گئی جسے مائیکلی نے ڈیزائن کیا تھا، تو ہندسوں کے صفر، 1 یا 8 ہونے کا یکساں امکان نظر آیا۔ یہ نقطہ نظر غلطی سے یہ نتیجہ اخذ کیے بغیر دوسرے ہندسوں کو مسترد کرنے میں مدد کر سکتا ہے کہ ہندسہ صفر تھا۔

جیسا کہ مختلف مضامین اپنے اپنے طریقوں سے ادراک اور تحریف کے کاروبار سے جڑے ہوئے ہیں، یہ سوال کہ ہم AI امیجری سے کتنا کچھ نکال سکتے ہیں اور ہم ان تصاویر پر کتنا اعتماد کر سکتے ہیں۔ "ہمیں یہ بات ذہن میں رکھنی چاہیے کہ ان اچھی تصاویر کو آؤٹ پٹ کرنے کے لیے الگورتھم صرف تفصیلات بناتے ہیں،" مائیکلی نے کہا۔ ہم ان فریب نظروں کو کم کر سکتے ہیں، لیکن طاقتور، جرائم کو حل کرنے والا "بہتر" بٹن ایک خواب ہی رہے گا۔