人工智能 (AI) 和机器学习领域不断发展,Vision Mamba (Vim) 成为人工智能视觉领域的突破性项目。近日,学术界 纸 “Vision Mamba-双向高效视觉表示学习”在机器学习领域介绍了这种方法。 Vim 使用状态空间模型 (SSM) 和高效的硬件感知设计开发,代表了视觉表示学习的重大飞跃。
Vim 解决了有效表示视觉数据的关键挑战,这项任务传统上依赖于 Vision Transformers (ViT) 中的自注意力机制。尽管 ViT 取得了成功,但由于速度和内存使用限制,在处理高分辨率图像方面仍面临限制。相比之下,Vim 采用双向 Mamba 块,不仅提供依赖于数据的全局视觉上下文,还包含位置嵌入,以实现更细致、位置感知的视觉理解。与 DeiT 等成熟的视觉转换器相比,这种方法使 Vim 在 ImageNet 分类、COCO 对象检测和 ADE20K 语义分割等关键任务上实现更高的性能。
使用 Vim 在 ImageNet-1K 数据集(包含 1.28 个类别的 1000 万张训练图像)上进行的实验证明了其在计算和内存效率方面的优越性。具体来说,据报道,Vim 比 DeiT 快 2.8 倍,在高分辨率图像的批量推理过程中节省高达 86.8% 的 GPU 内存。在 ADE20K 数据集上的语义分割任务中,Vim 在不同尺度上始终优于 DeiT,以近一半的参数实现了与 ResNet-101 主干网类似的性能。
此外,在 COCO 2017 数据集上的对象检测和实例分割任务中,Vim 以显着优势超越 DeiT,展示了其更好的远程上下文学习能力。这种性能尤其值得注意,因为 Vim 以纯序列建模方式运行,不需要在其主干中使用 2D 先验,而这是传统基于 Transformer 的方法中的常见要求。
Vim 的双向状态空间建模和硬件感知设计不仅提高了其计算效率,还为其在各种高分辨率视觉任务中的应用开辟了新的可能性。 Vim 的未来前景包括其在掩模图像建模预训练等无监督任务、CLIP 式预训练等多模态任务以及高分辨率医学图像、遥感图像和长视频分析等方面的应用。
总之,Vision Mamba 的创新方法标志着 AI 视觉技术的关键进步。通过克服传统视觉转换器的局限性,Vim 有望成为各种基于视觉的人工智能应用的下一代支柱。
图片来源:Shutterstock
- :具有
- :是
- :不是
- $UP
- 1
- 2017
- 28
- 2D
- 8
- a
- 学者
- 实现
- 横过
- 地址
- 进步
- AI
- 还
- 分析
- 和
- 应用领域
- 应用领域
- 的途径
- 方法
- 人造的
- 人工智能
- 人工智能(AI)
- AS
- 骨干
- BE
- 成为
- 很
- 更好
- blockchain
- 吹氣梢
- 但是
- by
- 类别
- 挑战
- 分类
- COCO
- 相当常见
- 相比
- 计算
- 结论
- 进行
- 始终如一
- 包含
- 上下文
- 继续
- 对比
- 危急
- data
- 演示
- 示范
- 依赖的
- 设计
- 设计
- 尽管
- 检测
- 不同
- 两
- ,我们将参加
- 效率
- 高效
- 有效
- 新兴经济体的新市场。
- 员工
- 使
- 提高
- 成熟
- 发展
- 实验
- 面部彩妆
- 快
- 部分
- 针对
- 未来
- 全球
- GPU
- 奠基
- 半
- 高分辨率
- 更高
- HTTPS
- 图片
- 图片
- in
- 包括
- 合并
- 创新
- 例
- 实例细分
- 房源搜索
- 推出
- 它的
- JPG
- 键
- 飞跃
- 学习
- 喜欢
- 限制
- 长
- 机
- 机器学习
- 方式
- 利润率
- 面膜
- 机制
- 医生
- 内存
- 百万
- 造型
- 模型
- 更多
- 几乎
- 需求
- 全新
- 消息
- 下一代
- 显着
- 对象
- 物体检测
- of
- on
- 仅由
- 打开
- 运营
- 性能优于
- 克服
- 范例
- 尤其
- 性能
- 关键的
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 准备
- 位置
- 可能性
- 处理
- 项目
- 前途
- 提供
- 范围
- 境界
- 最近
- 远程
- 报道
- 表示
- 代表
- 代表
- 需求
- s
- 保存
- 秤
- 分割
- 语义
- 序列
- 显著
- 类似
- 来源
- 太空
- 特别是
- 速度
- 看台
- 州/领地
- 成功
- 这样
- 超越
- 任务
- 任务
- 专业技术
- 条款
- 比
- 这
- 其
- Free Introduction
- 时
- 至
- 传统
- 传统
- 产品培训
- 变形金刚
- 理解
- 用法
- 运用
- 各个
- 愿景
- 视觉
- 这
- 宽
- 大范围
- 中
- 也完全不需要
- 和风网