Vision Mamba: новая парадигма в AI Vision с двунаправленными моделями пространства состояний

Переиздано Платоном

Читают: 0

Vision Mamba: новая парадигма в AI Vision с двунаправленными моделями пространства состояний PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Область искусственного интеллекта (ИИ) и машинного обучения продолжает развиваться, и Vision Mamba (Vim) стал новаторским проектом в области видения ИИ. Недавно академик бумаги «Vision Mamba — эффективное двунаправленное обучение визуальному представлению» представляет этот подход в области машинного обучения. Vim, разработанный с использованием моделей пространства состояний (SSM) и эффективных аппаратных средств, представляет собой значительный шаг вперед в обучении визуальному представлению.

Vim решает критическую задачу эффективного представления визуальных данных — задачу, которая традиционно зависела от механизмов самообслуживания в Vision Transformers (ViT). ViT, несмотря на свой успех, сталкиваются с ограничениями при обработке изображений с высоким разрешением из-за ограничений скорости и использования памяти. Vim, напротив, использует двунаправленные блоки Mamba, которые не только обеспечивают зависящий от данных глобальный визуальный контекст, но также включают встраивание позиций для более детального визуального понимания с учетом местоположения. Этот подход позволяет Vim достичь более высокой производительности при выполнении ключевых задач, таких как классификация ImageNet, обнаружение объектов COCO и семантическая сегментация ADE20K, по сравнению с признанными преобразователями машинного зрения, такими как DeiT.

Эксперименты, проведенные с Vim на наборе данных ImageNet-1K, который содержит 1.28 миллиона обучающих изображений по 1000 категориям, демонстрируют его превосходство с точки зрения эффективности вычислений и памяти. В частности, сообщается, что Vim в 2.8 раза быстрее, чем DeiT, экономя до 86.8% памяти графического процессора во время пакетного вывода для изображений с высоким разрешением. В задачах семантической сегментации набора данных ADE20K Vim постоянно превосходит DeiT в разных масштабах, достигая производительности, аналогичной базовой сети ResNet-101, с почти половиной меньших параметров.

Кроме того, в задачах обнаружения объектов и сегментации экземпляров в наборе данных COCO 2017 Vim превосходит DeiT со значительным отрывом, демонстрируя свои лучшие возможности долгосрочного контекстного обучения. Эта производительность особенно примечательна, поскольку Vim работает в чистом виде последовательного моделирования без необходимости использования 2D-априорных данных в своей магистрали, что является общим требованием в традиционных подходах на основе преобразователей.

Двунаправленное моделирование пространства состояний и аппаратно-ориентированный дизайн Vim не только повышают его вычислительную эффективность, но и открывают новые возможности для его применения в различных задачах машинного зрения с высоким разрешением. Будущие перспективы Vim включают его применение в неконтролируемых задачах, таких как предварительное обучение моделированию изображения маски, мультимодальные задачи, такие как предварительное обучение в стиле CLIP, а также анализ медицинских изображений высокого разрешения, изображений дистанционного зондирования и длинных видеороликов.

В заключение отметим, что инновационный подход Vision Mamba знаменует собой важнейшее достижение в технологии машинного зрения на базе искусственного интеллекта. Преодолевая ограничения традиционных преобразователей машинного зрения, Vim готов стать основой следующего поколения для широкого спектра приложений искусственного интеллекта на основе машинного зрения.

Источник изображения: Shutterstock

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Отметка времени: 19 января 2024

Отметка времени: 5 Марта, 2023

Vision Mamba: новая парадигма в AI Vision с двунаправленными моделями пространства состояний

Переиздано Платоном

Больше от Новости блочной цепи

Предложение Ethereum замедлилось после «слияния», будет ли это стимулировать инвестиции?

Основатель TRON Джастин Сан может стать реальным покупателем Huobi Global: источники

Bank of China Hong Kong завершает испытание цифровой песочницы в юанях

Web3 Foundation утверждает, что DOT — это часть программного обеспечения, а не безопасность

MetaMask Snaps повышает безопасность и совместимость в пространстве Web3

Биткойн снова подменяет визу

BitMEX перечисляет Luna 2.0, маржу ETH и варианты расчетов

Чиновники Министерства финансов Великобритании встретились с крипто- и венчурными компаниями в первом квартале: источники

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись