IIIT الہ آباد کے محققین نے T2CI GAN کی تجویز پیش کی: ایک گہری سیکھنے کا ماڈل جو متن سے کمپریسڈ امیجز تیار کرتا ہے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

پچھلے کچھ سالوں میں، بصری ڈیٹا کے لیے متنی وضاحتوں کی تخلیق ایک مجبوری تحقیقی مسئلہ بن گیا ہے۔ تاہم، تحریری وضاحتوں سے بصری ڈیٹا تیار کرنے کے لیے مسئلہ کا بیان اب بھی زیادہ مشکل ہے کیونکہ اس میں نیچرل لینگویج پروسیسنگ اور کمپیوٹر ویژن تکنیکوں کے امتزاج کی ضرورت ہے۔ دستیاب تکنیک جنریٹیو ایڈورسریئل نیٹ ورکس (GANs) کا استعمال کرتے ہوئے متنی وضاحتوں سے غیر کمپریسڈ تصاویر تخلیق کرتی ہیں۔ جنریٹو ایڈورسریل نیٹ ورک مشین لرننگ فریم ورک کی ایک قسم ہے جو متن، تصاویر، ویڈیوز اور آواز کی ریکارڈنگ تیار کر سکتی ہے۔ اس سے پہلے، GANs کو تربیت کے لیے دیگر گہری سیکھنے والے الگورتھم کے لیے امیج ڈیٹاسیٹس تیار کرنے، خاص مقاصد کے لیے فلمیں یا اینیمیشن تیار کرنے، اور تصاویر کے لیے مناسب کیپشن تیار کرنے کے لیے کامیابی کے ساتھ استعمال کیا جاتا رہا ہے۔

حقیقت میں، زیادہ تر بصری ان پٹ پر عملدرآمد اور کمپریسڈ شکل میں منتقل کیا جاتا ہے۔ سٹوریج اور کمپیوٹیشنل کارکردگی کو حاصل کرنے کے لیے، تجویز کردہ کام ڈیپ کنولوشنل GANs (DCGANs) کا استعمال کرتے ہوئے کمپریسڈ نمائندگی فارم میں براہ راست بصری ڈیٹا تیار کرنے کی کوشش کرتا ہے۔ ایک نیا GAN پر مبنی ماڈل، T2CI-GAN، حال ہی میں آئی آئی آئی ٹی الہ آباد کے کمپیوٹر وژن اور بایومیٹرکس لیب اور ہندوستان میں وگنان یونیورسٹی کے محققین کے ذریعہ بنایا گیا ہے جو متن پر مبنی وضاحتوں سے کمپریسڈ تصاویر تیار کرسکتا ہے۔ یہ نقطہ نظر مختلف سمارٹ آلات کے درمیان امیج اسٹوریج اور مواد کے اشتراک کے متعدد اختیارات کی چھان بین کے لیے ایک نقطہ آغاز کے طور پر کام کر سکتا ہے۔

پہلے کام میں، محققین نے مختلف کاموں کو سنبھالنے کے لیے GANs اور دیگر گہرے سیکھنے کے ماڈلز کا استعمال کیا، جیسے کہ ڈیٹا سے فیچر نکالنا، ٹیکسٹ اور امیج ڈیٹا سیگمنٹیشن، لمبے متن کے نچوڑ میں لفظ کا پتہ لگانا، اور کمپریسڈ JPEG امیجز بنانا۔ یہ ناول ماڈل کمپیوٹیشنل مسئلے سے نمٹنے کے لیے ان ابتدائی اقدامات پر وسعت کرتا ہے جس پر اب تک ادب میں بہت کم توجہ حاصل ہوئی ہے۔ صرف چند گہری سیکھنے پر مبنی تکنیکیں جو دوسری تحقیقی ٹیموں کے ذریعے متن کی تفصیل سے تصاویر بنانے کے لیے استعمال کی جاتی ہیں وہ کمپریسڈ امیجز تیار کرتی ہیں۔ مزید برآں، تصاویر بنانے اور سکیڑنے کے لیے زیادہ تر موجودہ نظام آزادانہ طور پر ایسا کرنے کے مسئلے سے رجوع کرتے ہیں، جس سے کمپیوٹنگ اور پروسیسنگ کے وقت کے کام کا بوجھ بڑھ جاتا ہے۔

تجویز کردہ T2CI-GAN ایک گہری سیکھنے پر مبنی ماڈل ہے جو متن کی وضاحت سے کمپریسڈ بصری تصاویر کو اس کے ان پٹ کے طور پر نکالتا ہے۔ یہ روایتی طریقوں سے ایک اہم رخصتی ہے جو متن کی وضاحتوں سے بصری نمائندگی پیدا کرتی ہے اور ان تصاویر کو مزید سکیڑتی ہے۔ ماڈل کی بنیادی فروخت کی خصوصیت متن کی تفصیل کا نقشہ بنانے اور براہ راست کمپریسڈ امیجز بنانے کی صلاحیت ہے۔

تحقیقی ٹیم نے متن کی تفصیل سے کمپریسڈ امیجز بنانے کے لیے GAN پر مبنی دو ماڈلز بنائے۔ کمپریسڈ JPEG DCT (مجرد کوزائن ٹرانسفارم) امیجز کا ڈیٹاسیٹ ان میں سے پہلے ماڈل کو تربیت دینے کے لیے استعمال کیا گیا تھا۔ تربیت کے بعد، یہ ماڈل متن کی تفصیل سے کمپریسڈ تصاویر تیار کر سکتا ہے۔ دوسری طرف، RGB تصاویر کا ایک سیٹ محققین کے دوسرے GAN پر مبنی ماڈل کی تربیت کے لیے استعمال کیا گیا۔ اس ماڈل نے تصویروں کی JPEG-کمپریسڈ DCT نمائیندگی پیدا کرنے کی صلاحیت تیار کی، جو ایک مساوات کے طور پر ڈیٹا پوائنٹس کی ایک سیریز کو واضح طور پر ظاہر کرتی ہے۔ تجویز کردہ ماڈلز کا جائزہ معروف اوپن سورس بینچ مارک ڈیٹاسیٹ Oxford-102 فلاور پکچرز کے RGB اور JPEG دونوں کمپریسڈ ورژنز کا استعمال کرتے ہوئے کیا گیا۔ JPEG-کمپریسڈ ڈومین میں، ماڈل نے انتہائی حوصلہ افزا اسٹیٹ آف دی آرٹ کارکردگی حاصل کی۔

جب فراہم کردہ تصاویر کو اسمارٹ فونز یا دیگر سمارٹ آلات کے ساتھ آسانی سے شیئر کرنے کا ارادہ کیا جاتا ہے، تو T2CI-GAN ماڈل کو خودکار تصویری بازیافت کے نظام کو بڑھانے کے لیے استعمال کیا جا سکتا ہے۔ مزید برآں، یہ میڈیا اور کمیونیکیشن کے ماہرین کے لیے ایک قیمتی ٹول ہو سکتا ہے، جو انہیں آن لائن پوسٹ کرنے کے لیے مخصوص تصویروں کے ہلکے ورژن تلاش کرنے کے قابل بناتا ہے۔

حالیہ تکنیکی ترقی کی وجہ سے، ہماری دنیا مشین سے مشین اور انسان سے مشین کے رابطوں کی طرف بڑھ رہی ہے۔ T2CI-GAN اس صورت حال میں اہم ہو گا کیونکہ مشینوں کو حقائق کو پڑھنے یا سمجھنے کے لیے کمپریسڈ شکل میں درکار ہوتے ہیں۔ ماڈل فی الحال صرف JPEG کمپریسڈ شکل میں تصاویر بناتا ہے۔ اس طرح محققین کا طویل مدتی مقصد اسے پھیلانا ہے تاکہ کسی بھی کمپریسڈ شکل میں کمپریشن الگورتھم پر پابندی کے بغیر تصویریں تیار کی جاسکیں۔ ٹیم کے تحقیقی مضمون کے شائع ہونے کے بعد، ماڈل کا سورس کوڈ بھی عام لوگوں کے لیے دستیاب کر دیا جائے گا۔

یہ مضمون تحقیقی مقالے کی بنیاد پر مارکٹیک پوسٹ سٹاف کے ذریعہ ایک تحقیقی خلاصہ مضمون کے طور پر لکھا گیا ہے۔T2CI-GAN: جنریٹو ایڈورسریئل نیٹ ورک کا استعمال کرتے ہوئے کمپریسڈ امیج جنریشن کے لیے ٹیکسٹ' اس تحقیق کا تمام کریڈٹ اس پروجیکٹ کے محققین کو جاتا ہے۔ چیک کریں کاغذ اور حوالہ مضمون.

براہ کرم شامل ہونا نہ بھولیں۔ ہمارا ML Subreddit

خوشبو گپتا مارکٹیک پوسٹ میں کنسلٹنگ انٹرن ہیں۔ وہ فی الحال انڈین انسٹی ٹیوٹ آف ٹیکنالوجی (IIT)، گوا سے اپنی B.Tech کر رہی ہے۔ وہ مشین لرننگ، نیچرل لینگویج پروسیسنگ اور ویب ڈویلپمنٹ کے شعبوں کے بارے میں پرجوش ہیں۔ وہ کئی چیلنجوں میں حصہ لے کر تکنیکی شعبے کے بارے میں مزید سیکھنے کا لطف اٹھاتی ہے۔

<!–

ٹائم اسٹیمپ: اکتوبر 29، 2022اکتوبر 31، 2022

ٹائم اسٹیمپ: فروری 18، 2023

IIIT الہ آباد کے محققین نے T2CI GAN کی تجویز پیش کی: ایک گہری سیکھنے کا ماڈل جو متن سے کمپریسڈ امیجز تیار کرتا ہے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سے زیادہ بلاکچین کنسلٹنٹس

ریاستہائے متحدہ میں کرپٹو سے متعلقہ نفاذ کی کارروائیوں کی تعداد بڑھ رہی ہے۔

گرے اسکیل کے سی ای او نے سرمایہ کاروں کے تحفظ کے لیے SEC پر کال کی۔

Voyager مبینہ طور پر Coinbase ایکسچینج پر اثاثے فروخت کرتا ہے۔

کوونا کیپٹل نے نئے فنٹیک وینچر فنڈ کا اعلان کیا، $332 ملین اکٹھا کیا۔

بلاکچین چپس کی ترقی

یونی سویپ V3 پروٹوکول لائسنس کی میعاد ختم ہو رہی ہے، جو ڈویلپرز کو فورک کوڈ کی اجازت دیتا ہے۔

امریکی صدر جو بائیڈن کی انتظامیہ نے 27 جنوری کو ایک بیان جاری کیا۔

لین دین کی فیس کے جل جانے کے ساتھ ہی جلائے گئے ETH کی مقدار میں اضافہ ہوتا رہے گا۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ