Vision Mamba: нова парадигма AI Vision із двонаправленими моделями простору стану

Перевидано Платоном

читають: 0

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Сфера штучного інтелекту (ШІ) і машинного навчання продовжує розвиватися, і Vision Mamba (Vim) стає новаторським проектом у сфері бачення ШІ. Останнім часом академ папір «Vision Mamba – Ефективне навчання візуального представлення з двонаправленим» представляє цей підхід у царині машинного навчання. Розроблений з використанням моделей простору станів (SSM) з ефективним дизайном з урахуванням апаратного забезпечення, Vim являє собою значний стрибок у навчанні візуального представлення.

Vim вирішує критичну проблему ефективного представлення візуальних даних, завдання, яке традиційно залежить від механізмів самоуважності в Vision Transformers (ViTs). ViTs, незважаючи на свій успіх, стикаються з обмеженнями в обробці зображень високої роздільної здатності через обмеження швидкості та використання пам’яті. Vim, навпаки, використовує двонаправлені блоки Mamba, які не лише забезпечують глобальний візуальний контекст, що залежить від даних, але й включають вбудовування позицій для більш детального візуального розуміння з урахуванням розташування. Цей підхід дозволяє Vim досягти вищої продуктивності в таких ключових завданнях, як класифікація ImageNet, виявлення об’єктів COCO та семантична сегментація ADE20K, у порівнянні з такими усталеними трансформаторами бачення, як DeiT.

Експерименти, проведені з Vim на наборі даних ImageNet-1K, який містить 1.28 мільйона навчальних зображень у 1000 категоріях, демонструють його перевагу з точки зору ефективності обчислення та пам’яті. Зокрема, повідомляється, що Vim у 2.8 рази швидший за DeiT, заощаджуючи до 86.8% пам’яті графічного процесора під час пакетного аналізу для зображень із високою роздільною здатністю. У завданнях семантичної сегментації на наборі даних ADE20K Vim постійно перевершує DeiT у різних масштабах, досягаючи продуктивності, подібної до магістралі ResNet-101 із майже половиною параметрів.

Крім того, у задачах виявлення об’єктів і сегментації екземплярів на наборі даних COCO 2017 Vim перевершує DeiT зі значним відривом, демонструючи свою кращу здатність довгострокового навчання контексту. Ця продуктивність є особливо помітною, оскільки Vim працює в манері моделювання чистої послідовності, без потреби в попередніх 2D у своїй основі, що є загальною вимогою в традиційних підходах на основі трансформаторів.

Двонаправлене моделювання простору станів Vim і дизайн з урахуванням апаратного забезпечення не тільки підвищують обчислювальну ефективність, але й відкривають нові можливості для його застосування в різних задачах зору з високою роздільною здатністю. Майбутні перспективи для Vim включають його застосування в неконтрольованих завданнях, таких як попереднє навчання моделювання зображення маски, мультимодальних завдань, таких як попереднє навчання у стилі CLIP, і аналіз медичних зображень високої роздільної здатності, зображень дистанційного зондування та довгих відео.

Підсумовуючи, інноваційний підхід Vision Mamba знаменує собою ключовий прогрес у технології бачення ШІ. Долаючи обмеження традиційних трансформаторів зору, Vim готовий стати основою наступного покоління для широкого спектру додатків ШІ на основі зору.

Джерело зображення: Shutterstock

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Часова мітка: Січень 19, 2024

Часова мітка: Березень 5, 2023

Vision Mamba: нова парадигма AI Vision із двонаправленими моделями простору стану

Перевидано Платоном

Більше від Блокчай Новини

Пропозиція Ethereum сповільнилася після «злиття», чи сприятиме це інвестиціям?

Засновник TRON Джастін Сан може стати реальним покупцем Huobi Global: Джерела

Банк Китаю в Гонконзі завершує випробування цифрового пісочниці в юанях

Web3 Foundation стверджує, що DOT є частиною програмного забезпечення, а не цінним папером

MetaMask Snaps покращує безпеку та сумісність у просторі Web3

Біткойн знову перевертає Visa

BitMEX перераховує Luna 2.0, маржу ETH та варіанти розрахунків

Офіційні особи казначейства Великобританії зустрілися з криптокомпаніями та компаніями венчурного капіталу в першому кварталі: Джерела

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки