Область искусственного интеллекта (ИИ) и машинного обучения продолжает развиваться, и Vision Mamba (Vim) стал новаторским проектом в области видения ИИ. Недавно академик бумаги «Vision Mamba — эффективное двунаправленное обучение визуальному представлению» представляет этот подход в области машинного обучения. Vim, разработанный с использованием моделей пространства состояний (SSM) и эффективных аппаратных средств, представляет собой значительный шаг вперед в обучении визуальному представлению.
Vim решает критическую задачу эффективного представления визуальных данных — задачу, которая традиционно зависела от механизмов самообслуживания в Vision Transformers (ViT). ViT, несмотря на свой успех, сталкиваются с ограничениями при обработке изображений с высоким разрешением из-за ограничений скорости и использования памяти. Vim, напротив, использует двунаправленные блоки Mamba, которые не только обеспечивают зависящий от данных глобальный визуальный контекст, но также включают встраивание позиций для более детального визуального понимания с учетом местоположения. Этот подход позволяет Vim достичь более высокой производительности при выполнении ключевых задач, таких как классификация ImageNet, обнаружение объектов COCO и семантическая сегментация ADE20K, по сравнению с признанными преобразователями машинного зрения, такими как DeiT.
Эксперименты, проведенные с Vim на наборе данных ImageNet-1K, который содержит 1.28 миллиона обучающих изображений по 1000 категориям, демонстрируют его превосходство с точки зрения эффективности вычислений и памяти. В частности, сообщается, что Vim в 2.8 раза быстрее, чем DeiT, экономя до 86.8% памяти графического процессора во время пакетного вывода для изображений с высоким разрешением. В задачах семантической сегментации набора данных ADE20K Vim постоянно превосходит DeiT в разных масштабах, достигая производительности, аналогичной базовой сети ResNet-101, с почти половиной меньших параметров.
Кроме того, в задачах обнаружения объектов и сегментации экземпляров в наборе данных COCO 2017 Vim превосходит DeiT со значительным отрывом, демонстрируя свои лучшие возможности долгосрочного контекстного обучения. Эта производительность особенно примечательна, поскольку Vim работает в чистом виде последовательного моделирования без необходимости использования 2D-априорных данных в своей магистрали, что является общим требованием в традиционных подходах на основе преобразователей.
Двунаправленное моделирование пространства состояний и аппаратно-ориентированный дизайн Vim не только повышают его вычислительную эффективность, но и открывают новые возможности для его применения в различных задачах машинного зрения с высоким разрешением. Будущие перспективы Vim включают его применение в неконтролируемых задачах, таких как предварительное обучение моделированию изображения маски, мультимодальные задачи, такие как предварительное обучение в стиле CLIP, а также анализ медицинских изображений высокого разрешения, изображений дистанционного зондирования и длинных видеороликов.
В заключение отметим, что инновационный подход Vision Mamba знаменует собой важнейшее достижение в технологии машинного зрения на базе искусственного интеллекта. Преодолевая ограничения традиционных преобразователей машинного зрения, Vim готов стать основой следующего поколения для широкого спектра приложений искусственного интеллекта на основе машинного зрения.
Источник изображения: Shutterstock
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- :имеет
- :является
- :нет
- $UP
- 1
- 2017
- 28
- 2D
- 8
- a
- академический
- Достигать
- достижение
- через
- адреса
- продвижение
- AI
- причислены
- анализ
- и
- Применение
- Приложения
- подхода
- подходы
- искусственный
- искусственный интеллект
- Искусственный интеллект (AI)
- AS
- Позвоночник
- BE
- становиться
- было
- Лучшая
- блокчейн
- Блоки
- но
- by
- категории
- вызов
- классификация
- кокос
- Общий
- сравненный
- вычислительный
- заключение
- проводятся
- последовательно
- содержит
- контекст
- продолжается
- контраст
- критической
- данным
- демонстрировать
- демонстрирующий
- зависимый
- Проект
- конструкций
- Несмотря на
- обнаружение
- различный
- два
- в течение
- затрат
- эффективный
- эффективно
- появление
- работает
- позволяет
- повышать
- установленный
- развивается
- Эксперименты
- Face
- быстрее
- поле
- Что касается
- будущее
- Глобальный
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- новаторским
- Половина
- высокое разрешение
- высший
- HTTPS
- изображение
- изображений
- in
- включают
- включать
- инновационный
- пример
- Сегментация экземпляра
- Интеллекта
- Представляет
- ЕГО
- JPG
- Основные
- Leap
- изучение
- такое как
- недостатки
- Длинное
- машина
- обучение с помощью машины
- способ
- поля
- маска
- механизмы
- основным медицинским
- Память
- миллиона
- моделирование
- Модели
- БОЛЕЕ
- почти
- Необходимость
- Новые
- Новости
- следующее поколение
- примечательный
- объект
- Обнаружение объекта
- of
- on
- только
- открытый
- работает
- Превосходит
- преодоление
- парадигма
- особенно
- производительность
- основной
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- сбалансирован
- должность
- возможности,
- обработка
- Проект
- перспектива
- обеспечивать
- ассортимент
- область
- недавно
- удаленные
- Сообщается
- представление
- представляющий
- представляет
- требование
- s
- экономия
- Весы
- сегментация
- семантический
- Последовательность
- значительный
- аналогичный
- Источник
- Space
- конкретно
- скорость
- стоит
- Область
- успех
- такие
- превосходит
- Сложность задачи
- задачи
- Технологии
- terms
- чем
- который
- Ассоциация
- их
- этой
- раз
- в
- традиционный
- Традиционно
- Обучение
- трансформеры
- понимание
- Применение
- через
- различный
- видение
- визуальный
- который
- широкий
- Широкий диапазон
- в
- без
- зефирнет