وژن مامبا: دو طرفہ ریاستی خلائی ماڈلز کے ساتھ AI وژن میں ایک نیا نمونہ

وژن مامبا: دو طرفہ ریاستی خلائی ماڈلز کے ساتھ AI وژن میں ایک نیا نمونہ

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

مصنوعی ذہانت (AI) اور مشین لرننگ کا شعبہ مسلسل ترقی کر رہا ہے، جس میں Vision Mamba (Vim) AI وژن کے دائرے میں ایک اہم منصوبے کے طور پر ابھر رہا ہے۔ حال ہی میں، تعلیمی کاغذ "Vision Mamba- Efficient Visual Representation Learning with Bidirectional" مشین لرننگ کے دائرے میں اس نقطہ نظر کو متعارف کراتا ہے۔ ریاستی خلائی ماڈلز (SSMs) کا استعمال کرتے ہوئے ہارڈ ویئر سے آگاہی کے موثر ڈیزائن کے ساتھ تیار کیا گیا، Vim بصری نمائندگی کی تعلیم میں ایک اہم چھلانگ کی نمائندگی کرتا ہے۔

Vim بصری ڈیٹا کی مؤثر طریقے سے نمائندگی کرنے کے اہم چیلنج سے نمٹتا ہے، ایک ایسا کام جو روایتی طور پر ویژن ٹرانسفارمرز (ViTs) کے اندر خود توجہ دینے کے طریقہ کار پر منحصر ہے۔ ViTs، اپنی کامیابی کے باوجود، رفتار اور میموری کے استعمال میں رکاوٹوں کی وجہ سے ہائی ریزولوشن امیجز پر کارروائی کرنے میں محدودیت کا سامنا کرتے ہیں۔ Vim، اس کے برعکس، دو طرفہ Mamba بلاکس کا استعمال کرتا ہے جو نہ صرف ڈیٹا پر منحصر عالمی بصری سیاق و سباق فراہم کرتا ہے بلکہ زیادہ باریک، مقام سے آگاہ بصری تفہیم کے لیے پوزیشن ایمبیڈنگز کو بھی شامل کرتا ہے۔ یہ نقطہ نظر Vim کو کلیدی کاموں جیسے امیج نیٹ کی درجہ بندی، COCO آبجیکٹ کا پتہ لگانے، اور ADE20K سیمنٹک سیگمنٹیشن پر اعلیٰ کارکردگی کو حاصل کرنے کے قابل بناتا ہے، جیسا کہ DeiT۔

ImageNet-1K ڈیٹاسیٹ پر Vim کے ساتھ کیے گئے تجربات، جس میں 1.28 زمروں میں 1000 ملین تربیتی تصاویر شامل ہیں، کمپیوٹیشنل اور میموری کی کارکردگی کے لحاظ سے اس کی برتری کو ظاہر کرتی ہیں۔ خاص طور پر، Vim کو DeiT کے مقابلے میں 2.8 گنا تیز بتایا جاتا ہے، جس سے ہائی ریزولوشن امیجز کے لیے بیچ کے تخمینے کے دوران 86.8% GPU میموری کی بچت ہوتی ہے۔ ADE20K ڈیٹاسیٹ پر سیمنٹک سیگمنٹیشن کے کاموں میں، Vim مستقل طور پر مختلف پیمانے پر DeiT کو پیچھے چھوڑتا ہے، تقریباً نصف پیرامیٹرز کے ساتھ ResNet-101 بیک بون کے برابر کارکردگی حاصل کرتا ہے۔

مزید برآں، COCO 2017 ڈیٹاسیٹ پر آبجیکٹ کا پتہ لگانے اور مثال کے طور پر الگ کرنے کے کاموں میں، Vim نے DeiT کو نمایاں مارجن کے ساتھ پیچھے چھوڑ دیا، جو اس کی طویل فاصلے تک سیاق و سباق سیکھنے کی بہتر صلاحیت کا مظاہرہ کرتا ہے۔ یہ کارکردگی خاص طور پر قابل ذکر ہے کیونکہ Vim اپنی ریڑھ کی ہڈی میں 2D priors کی ضرورت کے بغیر، خالص ترتیب ماڈلنگ کے انداز میں کام کرتا ہے، جو روایتی ٹرانسفارمر پر مبنی نقطہ نظر میں ایک عام ضرورت ہے۔

Vim کی دو طرفہ ریاستی خلائی ماڈلنگ اور ہارڈویئر سے آگاہی ڈیزائن نہ صرف اس کی کمپیوٹیشنل کارکردگی کو بڑھاتا ہے بلکہ مختلف ہائی ریزولوشن ویژن کاموں میں اس کے اطلاق کے لیے نئے امکانات بھی کھولتا ہے۔ Vim کے مستقبل کے امکانات میں اس کا اطلاق غیر زیر نگرانی کاموں جیسے ماسک امیج ماڈلنگ پری ٹریننگ، ملٹی موڈل ٹاسک جیسے CLIP طرز کی پری ٹریننگ، اور ہائی ریزولوشن میڈیکل امیجز، ریموٹ سینسنگ امیجز، اور لمبی ویڈیوز کا تجزیہ شامل ہے۔

آخر میں، Vision Mamba کا اختراعی نقطہ نظر AI وژن ٹیکنالوجی میں ایک اہم پیشرفت کی نشاندہی کرتا ہے۔ روایتی وژن ٹرانسفارمرز کی حدود پر قابو پا کر، Vim وژن پر مبنی AI ایپلی کیشنز کی وسیع رینج کے لیے اگلی نسل کی ریڑھ کی ہڈی بننے کے لیے تیار ہے۔

تصویری ماخذ: شٹر اسٹاک

ٹائم اسٹیمپ:

سے زیادہ بلاکچین نیوز