Vision Mamba: 双方向状態空間モデルを使用した AI ビジョンの新しいパラダイム

Vision Mamba: 双方向状態空間モデルを使用した AI ビジョンの新しいパラダイム

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

人工知能 (AI) と機械学習の分野は進化を続けており、Vision Mamba (Vim) は AI ビジョンの分野における画期的なプロジェクトとして登場しています。最近、学術的な 「Vision Mamba - 双方向による効率的な視覚表現学習」では、機械学習の領域でこのアプローチを紹介しています。 効率的なハードウェアを意識した設計の状態空間モデル (SSM) を使用して開発された Vim は、視覚表現の学習において大きな飛躍をもたらします。

Vim は、従来、ビジョン トランスフォーマー (ViT) 内のセルフ アテンション メカニズムに依存していたタスクであるビジュアル データを効率的に表現するという重要な課題に取り組みます。 ViT は成功を収めていますが、速度とメモリ使用量の制約により、高解像度画像の処理には限界があります。対照的に、Vim は双方向の Mamba ブロックを採用しており、データに依存するグローバルな視覚コンテキストを提供するだけでなく、位置の埋め込みも組み込んで、より微妙な位置を意識した視覚的な理解を実現します。このアプローチにより、Vim は、DeiT のような確立されたビジョン トランスフォーマーと比較して、ImageNet 分類、COCO オブジェクト検出、ADE20K セマンティック セグメンテーションなどの主要なタスクでより高いパフォーマンスを達成できます。

1 カテゴリにわたる 1.28 万枚のトレーニング画像を含む ImageNet-1000K データセットに対して Vim を使用して行われた実験では、計算効率とメモリ効率の点で Vim の優位性が実証されました。具体的には、Vim は DeiT より 2.8 倍高速で、高解像度画像のバッチ推論中に GPU メモリを最大 86.8% 節約できると報告されています。 ADE20K データセットのセマンティック セグメンテーション タスクでは、Vim はさまざまなスケールにわたって一貫して DeiT を上回り、パラメータのほぼ半分で ResNet-101 バックボーンと同様のパフォーマンスを達成しました。

さらに、COCO 2017 データセットのオブジェクト検出およびインスタンス セグメンテーション タスクにおいて、Vim は DeiT を大幅に上回り、長距離コンテキスト学習能力が優れていることを実証しました。 Vim はバックボーンに 2D 事前分布を必要とせず、純粋なシーケンス モデリング方式で動作するため、このパフォーマンスは特に注目に値します。これは、従来のトランスフォーマー ベースのアプローチでは一般的な要件です。

Vim の双方向状態空間モデリングとハードウェアを意識した設計は、計算効率を向上させるだけでなく、さまざまな高解像度ビジョン タスクにおけるアプリケーションの新たな可能性を切り開きます。 Vim の将来の展望には、マスク画像モデリングの事前トレーニングなどの教師なしタスク、CLIP スタイルの事前トレーニングなどのマルチモーダル タスク、高解像度の医療画像、リモート センシング画像、長時間ビデオの分析などでの応用が含まれます。

結論として、Vision Mamba の革新的なアプローチは、AI ビジョン テクノロジーにおける極めて重要な進歩を示しています。従来のビジョン トランスフォーマーの限界を克服することで、Vim は幅広いビジョンベースの AI アプリケーションの次世代バックボーンとなる準備が整っています。

画像ソース:Shutterstock

タイムスタンプ:

より多くの ブロックチェーンニュース