Vision Mamba: یک پارادایم جدید در چشم انداز هوش مصنوعی با مدل های فضایی حالت دو جهته

بازنشر افلاطون

دنبال: 0

Vision Mamba: پارادایم جدیدی در چشم انداز هوش مصنوعی با مدل های فضایی حالت دو جهته، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

حوزه هوش مصنوعی (AI) و یادگیری ماشین به تکامل خود ادامه می دهد و Vision Mamba (Vim) به عنوان یک پروژه پیشگامانه در قلمرو بینایی AI ظهور می کند. اخیراً دانشگاهی مقاله "Vision Mamba- Efficient Visual Representation Learning with Bidirectional" این رویکرد را در حوزه یادگیری ماشین معرفی می کند. Vim که با استفاده از مدل‌های فضای حالت (SSM) با طراحی‌های سخت‌افزاری کارآمد توسعه یافته است، جهشی قابل توجه در یادگیری بازنمایی بصری را نشان می‌دهد.

Vim به چالش حیاتی نمایش کارآمد داده های بصری می پردازد، وظیفه ای که به طور سنتی به مکانیسم های توجه به خود در Vision Transformers (ViTs) وابسته بوده است. ViTها، علیرغم موفقیتشان، با محدودیت هایی در پردازش تصاویر با وضوح بالا به دلیل محدودیت های سرعت و استفاده از حافظه مواجه هستند. در مقابل، Vim از بلوک‌های Mamba دو جهته استفاده می‌کند که نه تنها یک زمینه بصری جهانی وابسته به داده‌ها را فراهم می‌کند، بلکه جاسازی‌های موقعیت را برای درک بصری دقیق‌تر و آگاه‌تر از موقعیت مکانی ترکیب می‌کند. این رویکرد Vim را قادر می‌سازد تا عملکرد بالاتری را در وظایف کلیدی مانند طبقه‌بندی ImageNet، تشخیص اشیاء COCO و تقسیم‌بندی معنایی ADE20K در مقایسه با ترانسفورماتورهای بینایی موجود مانند DeiT به دست آورد.

آزمایش‌های انجام‌شده با Vim روی مجموعه داده ImageNet-1K، که شامل 1.28 میلیون تصویر آموزشی در 1000 دسته است، برتری آن را از نظر کارایی محاسباتی و حافظه نشان می‌دهد. به طور خاص، Vim 2.8 برابر سریعتر از DeiT گزارش شده است که در طول استنتاج دسته ای برای تصاویر با وضوح بالا تا 86.8 درصد حافظه GPU را ذخیره می کند. در وظایف تقسیم‌بندی معنایی در مجموعه داده‌های ADE20K، Vim به طور مداوم از DeiT در مقیاس‌های مختلف بهتر عمل می‌کند و عملکردی مشابه با ستون فقرات ResNet-101 با تقریباً نیمی از پارامترها به دست می‌آورد.

علاوه بر این، در وظایف تشخیص اشیا و تقسیم‌بندی نمونه در مجموعه داده COCO 2017، Vim با حاشیه‌های قابل‌توجهی از DeiT پیشی می‌گیرد و توانایی یادگیری بافت دوربرد بهتر خود را نشان می‌دهد. این عملکرد به ویژه قابل توجه است زیرا Vim به روشی مدل‌سازی توالی خالص عمل می‌کند، بدون نیاز به اولویت‌های دو بعدی در ستون فقرات خود، که یک نیاز رایج در رویکردهای مبتنی بر ترانسفورماتور سنتی است.

مدل‌سازی فضای حالت دوطرفه و طراحی سخت‌افزاری Vim نه تنها کارایی محاسباتی آن را افزایش می‌دهد، بلکه فرصت‌های جدیدی را برای کاربرد آن در وظایف مختلف بینایی با وضوح بالا باز می‌کند. چشم‌اندازهای آینده Vim شامل کاربرد آن در کارهای بدون نظارت مانند پیش‌آموزش مدل‌سازی تصویر ماسک، کارهای چندوجهی مانند پیش‌آموزش به سبک CLIP، و تجزیه و تحلیل تصاویر پزشکی با وضوح بالا، تصاویر سنجش از راه دور و ویدیوهای طولانی است.

در نتیجه، رویکرد نوآورانه Vision Mamba نشانگر پیشرفتی اساسی در فناوری بینایی هوش مصنوعی است. با غلبه بر محدودیت‌های ترانسفورماتورهای بینایی سنتی، Vim آماده تبدیل شدن به ستون فقرات نسل بعدی برای طیف گسترده‌ای از برنامه‌های کاربردی هوش مصنوعی مبتنی بر بینایی است.

منبع تصویر: Shutterstock

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

تمبر زمان: ژانویه 19، 2024

تمبر زمان: ژان 20، 2022

Vision Mamba: یک پارادایم جدید در چشم انداز هوش مصنوعی با مدل های فضایی حالت دو جهته

بازنشر افلاطون

بیشتر از اخبار بلوچین

بیت کوین به 42 هزار دلار رسید، پس از انحلال 2.2 میلیارد دلار در 12 ساعت

بیت کوین بار دیگر ویزا را تغییر می دهد

Citizens Trust Bank دارای 65 میلیون دلار ذخایر سکه دلاری است

بایننس 281 کاربر نیجریه ای را در رابطه با قوانین پولشویی محدود می کند

الگوی دو پایین در بازار بیت کوین، آیا 50 هزار دلار در چشم است؟

آیا نمی‌توانید در سهام ایالات متحده که روی آن‌ها خوش‌بین هستید، سرمایه‌گذاری کنید؟ DeFi می تواند کمک کند

Binance Pool هزینه های صفر استخر را برای استخراج شبکه عصبی (CKB) معرفی می کند

فایل‌های NYSE Arca تغییر قانون پیشنهادی را برای فهرست بیت‌ویز اتریوم ETF ارائه می‌کند

شکایت علیه Ooki DAO به دلیل مخالفت کمیسیونر CFTC، پیچیدگی جدیدی به خود می گیرد

Playful Studios بخش بازی های Web3 را راه اندازی کرد و 46 میلیون دلار از سرمایه سری A جمع آوری کرد

پلتفرم NFT Autograph 170 میلیون دلار بودجه سری B را به رهبری a16z و Kleiner Perkins جمع آوری می کند.

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب