Vision Mamba: нова парадигма AI Vision із двонаправленими моделями простору стану

Vision Mamba: нова парадигма AI Vision із двонаправленими моделями простору стану

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Сфера штучного інтелекту (ШІ) і машинного навчання продовжує розвиватися, і Vision Mamba (Vim) стає новаторським проектом у сфері бачення ШІ. Останнім часом академ папір «Vision Mamba – Ефективне навчання візуального представлення з двонаправленим» представляє цей підхід у царині машинного навчання. Розроблений з використанням моделей простору станів (SSM) з ефективним дизайном з урахуванням апаратного забезпечення, Vim являє собою значний стрибок у навчанні візуального представлення.

Vim вирішує критичну проблему ефективного представлення візуальних даних, завдання, яке традиційно залежить від механізмів самоуважності в Vision Transformers (ViTs). ViTs, незважаючи на свій успіх, стикаються з обмеженнями в обробці зображень високої роздільної здатності через обмеження швидкості та використання пам’яті​​. Vim, навпаки, використовує двонаправлені блоки Mamba, які не лише забезпечують глобальний візуальний контекст, що залежить від даних, але й включають вбудовування позицій для більш детального візуального розуміння з урахуванням розташування. Цей підхід дозволяє Vim досягти вищої продуктивності в таких ключових завданнях, як класифікація ImageNet, виявлення об’єктів COCO та семантична сегментація ADE20K, у порівнянні з такими усталеними трансформаторами бачення, як DeiT​​.

Експерименти, проведені з Vim на наборі даних ImageNet-1K, який містить 1.28 мільйона навчальних зображень у 1000 категоріях, демонструють його перевагу з точки зору ефективності обчислення та пам’яті. Зокрема, повідомляється, що Vim у 2.8 рази швидший за DeiT, заощаджуючи до 86.8% пам’яті графічного процесора під час пакетного аналізу для зображень із високою роздільною здатністю​​. У завданнях семантичної сегментації на наборі даних ADE20K Vim постійно перевершує DeiT у різних масштабах, досягаючи продуктивності, подібної до магістралі ResNet-101 із майже половиною параметрів.

Крім того, у задачах виявлення об’єктів і сегментації екземплярів на наборі даних COCO 2017 Vim перевершує DeiT зі значним відривом, демонструючи свою кращу здатність довгострокового навчання контексту. Ця продуктивність є особливо помітною, оскільки Vim працює в манері моделювання чистої послідовності, без потреби в попередніх 2D у своїй основі, що є загальною вимогою в традиційних підходах на основі трансформаторів.

Двонаправлене моделювання простору станів Vim і дизайн з урахуванням апаратного забезпечення не тільки підвищують обчислювальну ефективність, але й відкривають нові можливості для його застосування в різних задачах зору з високою роздільною здатністю. Майбутні перспективи для Vim включають його застосування в неконтрольованих завданнях, таких як попереднє навчання моделювання зображення маски, мультимодальних завдань, таких як попереднє навчання у стилі CLIP, і аналіз медичних зображень високої роздільної здатності, зображень дистанційного зондування та довгих відео.

Підсумовуючи, інноваційний підхід Vision Mamba знаменує собою ключовий прогрес у технології бачення ШІ. Долаючи обмеження традиційних трансформаторів зору, Vim готовий стати основою наступного покоління для широкого спектру додатків ШІ на основі зору.

Джерело зображення: Shutterstock

Часова мітка:

Більше від Блокчай Новини