حوزه هوش مصنوعی (AI) و یادگیری ماشین به تکامل خود ادامه می دهد و Vision Mamba (Vim) به عنوان یک پروژه پیشگامانه در قلمرو بینایی AI ظهور می کند. اخیراً دانشگاهی مقاله "Vision Mamba- Efficient Visual Representation Learning with Bidirectional" این رویکرد را در حوزه یادگیری ماشین معرفی می کند. Vim که با استفاده از مدلهای فضای حالت (SSM) با طراحیهای سختافزاری کارآمد توسعه یافته است، جهشی قابل توجه در یادگیری بازنمایی بصری را نشان میدهد.
Vim به چالش حیاتی نمایش کارآمد داده های بصری می پردازد، وظیفه ای که به طور سنتی به مکانیسم های توجه به خود در Vision Transformers (ViTs) وابسته بوده است. ViTها، علیرغم موفقیتشان، با محدودیت هایی در پردازش تصاویر با وضوح بالا به دلیل محدودیت های سرعت و استفاده از حافظه مواجه هستند. در مقابل، Vim از بلوکهای Mamba دو جهته استفاده میکند که نه تنها یک زمینه بصری جهانی وابسته به دادهها را فراهم میکند، بلکه جاسازیهای موقعیت را برای درک بصری دقیقتر و آگاهتر از موقعیت مکانی ترکیب میکند. این رویکرد Vim را قادر میسازد تا عملکرد بالاتری را در وظایف کلیدی مانند طبقهبندی ImageNet، تشخیص اشیاء COCO و تقسیمبندی معنایی ADE20K در مقایسه با ترانسفورماتورهای بینایی موجود مانند DeiT به دست آورد.
آزمایشهای انجامشده با Vim روی مجموعه داده ImageNet-1K، که شامل 1.28 میلیون تصویر آموزشی در 1000 دسته است، برتری آن را از نظر کارایی محاسباتی و حافظه نشان میدهد. به طور خاص، Vim 2.8 برابر سریعتر از DeiT گزارش شده است که در طول استنتاج دسته ای برای تصاویر با وضوح بالا تا 86.8 درصد حافظه GPU را ذخیره می کند. در وظایف تقسیمبندی معنایی در مجموعه دادههای ADE20K، Vim به طور مداوم از DeiT در مقیاسهای مختلف بهتر عمل میکند و عملکردی مشابه با ستون فقرات ResNet-101 با تقریباً نیمی از پارامترها به دست میآورد.
علاوه بر این، در وظایف تشخیص اشیا و تقسیمبندی نمونه در مجموعه داده COCO 2017، Vim با حاشیههای قابلتوجهی از DeiT پیشی میگیرد و توانایی یادگیری بافت دوربرد بهتر خود را نشان میدهد. این عملکرد به ویژه قابل توجه است زیرا Vim به روشی مدلسازی توالی خالص عمل میکند، بدون نیاز به اولویتهای دو بعدی در ستون فقرات خود، که یک نیاز رایج در رویکردهای مبتنی بر ترانسفورماتور سنتی است.
مدلسازی فضای حالت دوطرفه و طراحی سختافزاری Vim نه تنها کارایی محاسباتی آن را افزایش میدهد، بلکه فرصتهای جدیدی را برای کاربرد آن در وظایف مختلف بینایی با وضوح بالا باز میکند. چشماندازهای آینده Vim شامل کاربرد آن در کارهای بدون نظارت مانند پیشآموزش مدلسازی تصویر ماسک، کارهای چندوجهی مانند پیشآموزش به سبک CLIP، و تجزیه و تحلیل تصاویر پزشکی با وضوح بالا، تصاویر سنجش از راه دور و ویدیوهای طولانی است.
در نتیجه، رویکرد نوآورانه Vision Mamba نشانگر پیشرفتی اساسی در فناوری بینایی هوش مصنوعی است. با غلبه بر محدودیتهای ترانسفورماتورهای بینایی سنتی، Vim آماده تبدیل شدن به ستون فقرات نسل بعدی برای طیف گستردهای از برنامههای کاربردی هوش مصنوعی مبتنی بر بینایی است.
منبع تصویر: Shutterstock
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- : دارد
- :است
- :نه
- $UP
- 1
- 2017
- 28
- 2D
- 8
- a
- دانشگاهی
- رسیدن
- دستیابی به
- در میان
- آدرس
- پیشرفت
- AI
- همچنین
- تحلیل
- و
- کاربرد
- برنامه های کاربردی
- روش
- رویکردها
- مصنوعی
- هوش مصنوعی
- هوش مصنوعی (AI)
- AS
- ستون فقرات
- BE
- شدن
- بوده
- بهتر
- بلاکچین
- بلاک ها
- اما
- by
- دسته
- به چالش
- طبقه بندی
- درخت نارگیل
- مشترک
- مقایسه
- محاسباتی
- نتیجه
- انجام
- همواره
- شامل
- زمینه
- ادامه
- کنتراست
- بحرانی
- داده ها
- نشان دادن
- نشان دادن
- وابسته
- طرح
- طرح
- با وجود
- کشف
- مختلف
- دو
- در طی
- بهره وری
- موثر
- موثر
- سنگ سنباده
- کار می کند
- را قادر می سازد
- بالا بردن
- تاسیس
- تکامل یابد
- آزمایش
- چهره
- سریعتر
- رشته
- برای
- آینده
- جهانی
- GPU
- پیشگامانه
- نیم
- کیفیت بالا
- بالاتر
- HTTPS
- تصویر
- تصاویر
- in
- شامل
- ترکیب کردن
- ابتکاری
- نمونه
- تقسیم بندی نمونه
- اطلاعات
- معرفی می کند
- ITS
- JPG
- کلید
- پرش
- یادگیری
- پسندیدن
- محدودیت
- طولانی
- دستگاه
- فراگیری ماشین
- روش
- حاشیه
- ماسک
- مکانیسم
- پزشکی
- حافظه
- میلیون
- مدل سازی
- مدل
- بیش
- تقریبا
- نیاز
- جدید
- اخبار
- نسل بعدی
- قابل توجه
- هدف
- تشخیص شی
- of
- on
- فقط
- باز کن
- عمل می کند
- عملکرد بهتر
- فائق آمدن
- نمونه
- ویژه
- کارایی
- محوری
- افلاطون
- هوش داده افلاطون
- PlatoData
- آمادگی
- موقعیت
- فرصت
- در حال پردازش
- پروژه
- چشم انداز
- ارائه
- محدوده
- قلمرو
- تازه
- دور
- گزارش
- نمایندگی
- نمایندگی
- نشان دهنده
- نیاز
- s
- صرفه جویی کردن
- مقیاس ها
- تقسیم بندی
- معنایی
- دنباله
- قابل توجه
- مشابه
- منبع
- فضا
- به طور خاص
- سرعت
- می ایستد
- دولت
- موفقیت
- چنین
- فراتر می رود
- کار
- وظایف
- پیشرفته
- قوانین و مقررات
- نسبت به
- که
- La
- شان
- این
- بار
- به
- سنتی
- به طور سنتی
- آموزش
- ترانسفورماتور
- درک
- استفاده
- با استفاده از
- مختلف
- دید
- بصری
- که
- وسیع
- دامنه گسترده
- با
- در داخل
- بدون
- زفیرنت