Vision Mamba：双向状态空间模型的人工智能视觉新范式

由柏拉图重新发布

关注： 0

Vision Mamba：具有双向状态空间模型的 AI 视觉新范式 PlatoBlockchain 数据智能。垂直搜索。人工智能。

人工智能 (AI) 和机器学习领域不断发展，Vision Mamba (Vim) 成为人工智能视觉领域的突破性项目。近日，学术界纸 “Vision Mamba-双向高效视觉表示学习”在机器学习领域介绍了这种方法。 Vim 使用状态空间模型 (SSM) 和高效的硬件感知设计开发，代表了视觉表示学习的重大飞跃。

Vim 解决了有效表示视觉数据的关键挑战，这项任务传统上依赖于 Vision Transformers (ViT) 中的自注意力机制。尽管 ViT 取得了成功，但由于速度和内存使用限制，在处理高分辨率图像方面仍面临限制。相比之下，Vim 采用双向 Mamba 块，不仅提供依赖于数据的全局视觉上下文，还包含位置嵌入，以实现更细致、位置感知的视觉理解。与 DeiT 等成熟的视觉转换器相比，这种方法使 Vim 在 ImageNet 分类、COCO 对象检测和 ADE20K 语义分割等关键任务上实现更高的性能。

使用 Vim 在 ImageNet-1K 数据集（包含 1.28 个类别的 1000 万张训练图像）上进行的实验证明了其在计算和内存效率方面的优越性。具体来说，据报道，Vim 比 DeiT 快 2.8 倍，在高分辨率图像的批量推理过程中节省高达 86.8% 的 GPU 内存。在 ADE20K 数据集上的语义分割任务中，Vim 在不同尺度上始终优于 DeiT，以近一半的参数实现了与 ResNet-101 主干网类似的性能。

此外，在 COCO 2017 数据集上的对象检测和实例分割任务中，Vim 以显着优势超越 DeiT，展示了其更好的远程上下文学习能力。这种性能尤其值得注意，因为 Vim 以纯序列建模方式运行，不需要在其主干中使用 2D 先验，而这是传统基于 Transformer 的方法中的常见要求。

Vim 的双向状态空间建模和硬件感知设计不仅提高了其计算效率，还为其在各种高分辨率视觉任务中的应用开辟了新的可能性。 Vim 的未来前景包括其在掩模图像建模预训练等无监督任务、CLIP 式预训练等多模态任务以及高分辨率医学图像、遥感图像和长视频分析等方面的应用。

总之，Vision Mamba 的创新方法标志着 AI 视觉技术的关键进步。通过克服传统视觉转换器的局限性，Vim 有望成为各种基于视觉的人工智能应用的下一代支柱。

图片来源：Shutterstock

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

时间戳记： 2024 年 1 月 19 日

时间戳记： 2023 年 3 月 5 日

Vision Mamba：双向状态空间模型的人工智能视觉新范式

由柏拉图重新发布

更多来自 Blockchain新闻

“合并”后以太坊供应放缓，会推动投资叙事吗？

TRON的创始人孙宇晨可能是火币全球的真正收购者：来源

中国银行香港完成数字人民币沙盒试验

Web3 基金会声称 DOT 是一种软件，而不是一种安全性

MetaMask 提升 Web3 空间的安全性和互操作性

比特币再次翻转签证

BitMEX 上架 Luna 2.0、ETH 保证金和结算选项

英国财政部官员在第一季度会见了加密和风险投资公司：来源

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理