Сфера штучного інтелекту (ШІ) і машинного навчання продовжує розвиватися, і Vision Mamba (Vim) стає новаторським проектом у сфері бачення ШІ. Останнім часом академ папір «Vision Mamba – Ефективне навчання візуального представлення з двонаправленим» представляє цей підхід у царині машинного навчання. Розроблений з використанням моделей простору станів (SSM) з ефективним дизайном з урахуванням апаратного забезпечення, Vim являє собою значний стрибок у навчанні візуального представлення.
Vim вирішує критичну проблему ефективного представлення візуальних даних, завдання, яке традиційно залежить від механізмів самоуважності в Vision Transformers (ViTs). ViTs, незважаючи на свій успіх, стикаються з обмеженнями в обробці зображень високої роздільної здатності через обмеження швидкості та використання пам’яті. Vim, навпаки, використовує двонаправлені блоки Mamba, які не лише забезпечують глобальний візуальний контекст, що залежить від даних, але й включають вбудовування позицій для більш детального візуального розуміння з урахуванням розташування. Цей підхід дозволяє Vim досягти вищої продуктивності в таких ключових завданнях, як класифікація ImageNet, виявлення об’єктів COCO та семантична сегментація ADE20K, у порівнянні з такими усталеними трансформаторами бачення, як DeiT.
Експерименти, проведені з Vim на наборі даних ImageNet-1K, який містить 1.28 мільйона навчальних зображень у 1000 категоріях, демонструють його перевагу з точки зору ефективності обчислення та пам’яті. Зокрема, повідомляється, що Vim у 2.8 рази швидший за DeiT, заощаджуючи до 86.8% пам’яті графічного процесора під час пакетного аналізу для зображень із високою роздільною здатністю. У завданнях семантичної сегментації на наборі даних ADE20K Vim постійно перевершує DeiT у різних масштабах, досягаючи продуктивності, подібної до магістралі ResNet-101 із майже половиною параметрів.
Крім того, у задачах виявлення об’єктів і сегментації екземплярів на наборі даних COCO 2017 Vim перевершує DeiT зі значним відривом, демонструючи свою кращу здатність довгострокового навчання контексту. Ця продуктивність є особливо помітною, оскільки Vim працює в манері моделювання чистої послідовності, без потреби в попередніх 2D у своїй основі, що є загальною вимогою в традиційних підходах на основі трансформаторів.
Двонаправлене моделювання простору станів Vim і дизайн з урахуванням апаратного забезпечення не тільки підвищують обчислювальну ефективність, але й відкривають нові можливості для його застосування в різних задачах зору з високою роздільною здатністю. Майбутні перспективи для Vim включають його застосування в неконтрольованих завданнях, таких як попереднє навчання моделювання зображення маски, мультимодальних завдань, таких як попереднє навчання у стилі CLIP, і аналіз медичних зображень високої роздільної здатності, зображень дистанційного зондування та довгих відео.
Підсумовуючи, інноваційний підхід Vision Mamba знаменує собою ключовий прогрес у технології бачення ШІ. Долаючи обмеження традиційних трансформаторів зору, Vim готовий стати основою наступного покоління для широкого спектру додатків ШІ на основі зору.
Джерело зображення: Shutterstock
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- : має
- :є
- : ні
- $UP
- 1
- 2017
- 28
- 2D
- 8
- a
- академічний
- Achieve
- досягнення
- через
- адреси
- просування
- AI
- Також
- аналіз
- та
- додаток
- застосування
- підхід
- підходи
- штучний
- штучний інтелект
- Штучний інтелект (AI)
- AS
- Хребет
- BE
- ставати
- було
- Краще
- blockchain
- блоки
- але
- by
- категорії
- виклик
- класифікація
- кокос
- загальний
- порівняний
- обчислювальна
- висновок
- проводиться
- послідовно
- містить
- контекст
- триває
- контрастність
- критичний
- дані
- демонструвати
- демонстрація
- залежний
- дизайн
- конструкцій
- Незважаючи на
- Виявлення
- різний
- два
- під час
- ефективність
- ефективний
- продуктивно
- з'являються
- працює
- дозволяє
- підвищувати
- встановлений
- еволюціонувати
- Експерименти
- Face
- швидше
- поле
- для
- майбутнє
- Глобальний
- GPU
- новаторський
- Половина
- висока роздільна здатність
- вище
- HTTPS
- зображення
- зображень
- in
- включати
- включати
- інноваційний
- екземпляр
- Сегментація екземплярів
- Інтелект
- Вводить
- ЙОГО
- JPG
- ключ
- Стрибок
- вивчення
- як
- недоліки
- Довго
- машина
- навчання за допомогою машини
- манера
- поля
- маска
- механізми
- медичний
- пам'ять
- мільйона
- моделювання
- Моделі
- більше
- майже
- Необхідність
- Нові
- новини
- наступне покоління
- Помітний
- об'єкт
- Виявлення об'єктів
- of
- on
- тільки
- відкрити
- працює
- Переважає
- подолання
- парадигма
- особливо
- продуктивність
- основний
- plato
- Інформація про дані Платона
- PlatoData
- готовий
- положення
- можливостей
- обробка
- проект
- перспективи
- забезпечувати
- діапазон
- царство
- нещодавно
- віддалений
- Повідомляється
- подання
- представляє
- представляє
- вимога
- s
- економія
- ваги
- сегментація
- смисловий
- Послідовність
- значний
- аналогічний
- Source
- Простір
- конкретно
- швидкість
- стенди
- стан
- успіх
- такі
- перевершує
- Завдання
- завдання
- Технологія
- terms
- ніж
- Що
- Команда
- їх
- це
- times
- до
- традиційний
- традиційно
- Навчання
- Трансформатори
- розуміння
- Використання
- використання
- різний
- бачення
- візуальний
- який
- широкий
- Широкий діапазон
- з
- в
- без
- зефірнет