Vision Mamba:双向状态空间模型的人工智能视觉新范式

Vision Mamba:双向状态空间模型的人工智能视觉新范式

Vision Mamba:具有双向状态空间模型的 AI 视觉新范式 PlatoBlockchain 数据智能。垂直搜索。人工智能。

人工智能 (AI) 和机器学习领域不断发展,Vision Mamba (Vim) 成为人工智能视觉领域的突破性项目。近日,学术界 “Vision Mamba-双向高效视觉表示学习”在机器学习领域介绍了这种方法。 Vim 使用状态空间模型 (SSM) 和高效的硬件感知设计开发,代表了视觉表示学习的重大飞跃。

Vim 解决了有效表示视觉数据的关键挑战,这项任务传统上依赖于 Vision Transformers (ViT) 中的自注意力机制。尽管 ViT 取得了成功,但由于速度和内存使用限制,在处理高分辨率图像方面仍面临限制​​。相比之下,Vim 采用双向 Mamba 块,不仅提供依赖于数据的全局视觉上下文,还包含位置嵌入,以实现更细致、位置感知的视觉理解。与 DeiT 等成熟的视觉转换器相比,这种方法使 Vim 在 ImageNet 分类、​​COCO 对象检测和 ADE20K 语义分割等关键任​​务上实现更高的性能。

使用 Vim 在 ImageNet-1K 数据集(包含 1.28 个类别的 1000 万张训练图像)上进行的实验证明了其在计算和内存效率方面的优越性。具体来说,据报道,Vim 比 DeiT 快 2.8 倍,在高分辨率图像的批量推理过程中节省高达 86.8% 的 GPU 内存​​。在 ADE20K 数据集上的语义分割任务中,Vim 在不同尺度上始终优于 DeiT,以近一半的参数实现了与 ResNet-101 主干网类似的性能​​。

此外,在 COCO 2017 数据集上的对象检测和实例分割任务中,Vim 以显着优势超越 DeiT,展示了其更好的远程上下文学习能力​​。这种性能尤其值得注意,因为 Vim 以纯序列建模方式运行,不需要在其主干中使用 2D 先验,而这是传统基于 Transformer 的方法中的常见要求。

Vim 的双向状态空间建模和硬件感知设计不仅提高了其计算效率,还为其在各种高分辨率视觉任务中的应用开辟了新的可能性。 Vim 的未来前景包括其在掩模图像建模预训练等无监督任务、CLIP 式预训练等多模态任务以及高分辨率医学图像、遥感图像和长视频分析等方面的应用​​。

总之,Vision Mamba 的创新方法标志着 AI 视觉技术的关键进步。通过克服传统视觉转换器的局限性,Vim 有望成为各种基于视觉的人工智能应用的下一代支柱。

图片来源:Shutterstock

时间戳记:

更多来自 Blockchain新闻