Vision Mamba: новая парадигма в AI Vision с двунаправленными моделями пространства состояний

Vision Mamba: новая парадигма в AI Vision с двунаправленными моделями пространства состояний

Vision Mamba: новая парадигма в AI Vision с двунаправленными моделями пространства состояний PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Область искусственного интеллекта (ИИ) и машинного обучения продолжает развиваться, и Vision Mamba (Vim) стал новаторским проектом в области видения ИИ. Недавно академик бумаги «Vision Mamba — эффективное двунаправленное обучение визуальному представлению» представляет этот подход в области машинного обучения. Vim, разработанный с использованием моделей пространства состояний (SSM) и эффективных аппаратных средств, представляет собой значительный шаг вперед в обучении визуальному представлению.

Vim решает критическую задачу эффективного представления визуальных данных — задачу, которая традиционно зависела от механизмов самообслуживания в Vision Transformers (ViT). ViT, несмотря на свой успех, сталкиваются с ограничениями при обработке изображений с высоким разрешением из-за ограничений скорости и использования памяти. Vim, напротив, использует двунаправленные блоки Mamba, которые не только обеспечивают зависящий от данных глобальный визуальный контекст, но также включают встраивание позиций для более детального визуального понимания с учетом местоположения. Этот подход позволяет Vim достичь более высокой производительности при выполнении ключевых задач, таких как классификация ImageNet, обнаружение объектов COCO и семантическая сегментация ADE20K, по сравнению с признанными преобразователями машинного зрения, такими как DeiT.

Эксперименты, проведенные с Vim на наборе данных ImageNet-1K, который содержит 1.28 миллиона обучающих изображений по 1000 категориям, демонстрируют его превосходство с точки зрения эффективности вычислений и памяти. В частности, сообщается, что Vim в 2.8 раза быстрее, чем DeiT, экономя до 86.8% памяти графического процессора во время пакетного вывода для изображений с высоким разрешением. В задачах семантической сегментации набора данных ADE20K Vim постоянно превосходит DeiT в разных масштабах, достигая производительности, аналогичной базовой сети ResNet-101, с почти половиной меньших параметров.

Кроме того, в задачах обнаружения объектов и сегментации экземпляров в наборе данных COCO 2017 Vim превосходит DeiT со значительным отрывом, демонстрируя свои лучшие возможности долгосрочного контекстного обучения. Эта производительность особенно примечательна, поскольку Vim работает в чистом виде последовательного моделирования без необходимости использования 2D-априорных данных в своей магистрали, что является общим требованием в традиционных подходах на основе преобразователей.

Двунаправленное моделирование пространства состояний и аппаратно-ориентированный дизайн Vim не только повышают его вычислительную эффективность, но и открывают новые возможности для его применения в различных задачах машинного зрения с высоким разрешением. Будущие перспективы Vim включают его применение в неконтролируемых задачах, таких как предварительное обучение моделированию изображения маски, мультимодальные задачи, такие как предварительное обучение в стиле CLIP, а также анализ медицинских изображений высокого разрешения, изображений дистанционного зондирования и длинных видеороликов.

В заключение отметим, что инновационный подход Vision Mamba знаменует собой важнейшее достижение в технологии машинного зрения на базе искусственного интеллекта. Преодолевая ограничения традиционных преобразователей машинного зрения, Vim готов стать основой следующего поколения для широкого спектра приложений искусственного интеллекта на основе машинного зрения.

Источник изображения: Shutterstock

Отметка времени:

Больше от Новости блочной цепи