Vision Mamba: یک پارادایم جدید در چشم انداز هوش مصنوعی با مدل های فضایی حالت دو جهته

Vision Mamba: یک پارادایم جدید در چشم انداز هوش مصنوعی با مدل های فضایی حالت دو جهته

Vision Mamba: پارادایم جدیدی در چشم انداز هوش مصنوعی با مدل های فضایی حالت دو جهته، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

حوزه هوش مصنوعی (AI) و یادگیری ماشین به تکامل خود ادامه می دهد و Vision Mamba (Vim) به عنوان یک پروژه پیشگامانه در قلمرو بینایی AI ظهور می کند. اخیراً دانشگاهی مقاله "Vision Mamba- Efficient Visual Representation Learning with Bidirectional" این رویکرد را در حوزه یادگیری ماشین معرفی می کند. Vim که با استفاده از مدل‌های فضای حالت (SSM) با طراحی‌های سخت‌افزاری کارآمد توسعه یافته است، جهشی قابل توجه در یادگیری بازنمایی بصری را نشان می‌دهد.

Vim به چالش حیاتی نمایش کارآمد داده های بصری می پردازد، وظیفه ای که به طور سنتی به مکانیسم های توجه به خود در Vision Transformers (ViTs) وابسته بوده است. ViTها، علیرغم موفقیتشان، با محدودیت هایی در پردازش تصاویر با وضوح بالا به دلیل محدودیت های سرعت و استفاده از حافظه مواجه هستند. در مقابل، Vim از بلوک‌های Mamba دو جهته استفاده می‌کند که نه تنها یک زمینه بصری جهانی وابسته به داده‌ها را فراهم می‌کند، بلکه جاسازی‌های موقعیت را برای درک بصری دقیق‌تر و آگاه‌تر از موقعیت مکانی ترکیب می‌کند. این رویکرد Vim را قادر می‌سازد تا عملکرد بالاتری را در وظایف کلیدی مانند طبقه‌بندی ImageNet، تشخیص اشیاء COCO و تقسیم‌بندی معنایی ADE20K در مقایسه با ترانسفورماتورهای بینایی موجود مانند DeiT به دست آورد.

آزمایش‌های انجام‌شده با Vim روی مجموعه داده ImageNet-1K، که شامل 1.28 میلیون تصویر آموزشی در 1000 دسته است، برتری آن را از نظر کارایی محاسباتی و حافظه نشان می‌دهد. به طور خاص، Vim 2.8 برابر سریعتر از DeiT گزارش شده است که در طول استنتاج دسته ای برای تصاویر با وضوح بالا تا 86.8 درصد حافظه GPU را ذخیره می کند. در وظایف تقسیم‌بندی معنایی در مجموعه داده‌های ADE20K، Vim به طور مداوم از DeiT در مقیاس‌های مختلف بهتر عمل می‌کند و عملکردی مشابه با ستون فقرات ResNet-101 با تقریباً نیمی از پارامترها به دست می‌آورد.

علاوه بر این، در وظایف تشخیص اشیا و تقسیم‌بندی نمونه در مجموعه داده COCO 2017، Vim با حاشیه‌های قابل‌توجهی از DeiT پیشی می‌گیرد و توانایی یادگیری بافت دوربرد بهتر خود را نشان می‌دهد. این عملکرد به ویژه قابل توجه است زیرا Vim به روشی مدل‌سازی توالی خالص عمل می‌کند، بدون نیاز به اولویت‌های دو بعدی در ستون فقرات خود، که یک نیاز رایج در رویکردهای مبتنی بر ترانسفورماتور سنتی است.

مدل‌سازی فضای حالت دوطرفه و طراحی سخت‌افزاری Vim نه تنها کارایی محاسباتی آن را افزایش می‌دهد، بلکه فرصت‌های جدیدی را برای کاربرد آن در وظایف مختلف بینایی با وضوح بالا باز می‌کند. چشم‌اندازهای آینده Vim شامل کاربرد آن در کارهای بدون نظارت مانند پیش‌آموزش مدل‌سازی تصویر ماسک، کارهای چندوجهی مانند پیش‌آموزش به سبک CLIP، و تجزیه و تحلیل تصاویر پزشکی با وضوح بالا، تصاویر سنجش از راه دور و ویدیوهای طولانی است.

در نتیجه، رویکرد نوآورانه Vision Mamba نشانگر پیشرفتی اساسی در فناوری بینایی هوش مصنوعی است. با غلبه بر محدودیت‌های ترانسفورماتورهای بینایی سنتی، Vim آماده تبدیل شدن به ستون فقرات نسل بعدی برای طیف گسترده‌ای از برنامه‌های کاربردی هوش مصنوعی مبتنی بر بینایی است.

منبع تصویر: Shutterstock

تمبر زمان:

بیشتر از اخبار بلوچین