人工知能 (AI) と機械学習の分野は進化を続けており、Vision Mamba (Vim) は AI ビジョンの分野における画期的なプロジェクトとして登場しています。最近、学術的な 紙 「Vision Mamba - 双方向による効率的な視覚表現学習」では、機械学習の領域でこのアプローチを紹介しています。 効率的なハードウェアを意識した設計の状態空間モデル (SSM) を使用して開発された Vim は、視覚表現の学習において大きな飛躍をもたらします。
Vim は、従来、ビジョン トランスフォーマー (ViT) 内のセルフ アテンション メカニズムに依存していたタスクであるビジュアル データを効率的に表現するという重要な課題に取り組みます。 ViT は成功を収めていますが、速度とメモリ使用量の制約により、高解像度画像の処理には限界があります。対照的に、Vim は双方向の Mamba ブロックを採用しており、データに依存するグローバルな視覚コンテキストを提供するだけでなく、位置の埋め込みも組み込んで、より微妙な位置を意識した視覚的な理解を実現します。このアプローチにより、Vim は、DeiT のような確立されたビジョン トランスフォーマーと比較して、ImageNet 分類、COCO オブジェクト検出、ADE20K セマンティック セグメンテーションなどの主要なタスクでより高いパフォーマンスを達成できます。
1 カテゴリにわたる 1.28 万枚のトレーニング画像を含む ImageNet-1000K データセットに対して Vim を使用して行われた実験では、計算効率とメモリ効率の点で Vim の優位性が実証されました。具体的には、Vim は DeiT より 2.8 倍高速で、高解像度画像のバッチ推論中に GPU メモリを最大 86.8% 節約できると報告されています。 ADE20K データセットのセマンティック セグメンテーション タスクでは、Vim はさまざまなスケールにわたって一貫して DeiT を上回り、パラメータのほぼ半分で ResNet-101 バックボーンと同様のパフォーマンスを達成しました。
さらに、COCO 2017 データセットのオブジェクト検出およびインスタンス セグメンテーション タスクにおいて、Vim は DeiT を大幅に上回り、長距離コンテキスト学習能力が優れていることを実証しました。 Vim はバックボーンに 2D 事前分布を必要とせず、純粋なシーケンス モデリング方式で動作するため、このパフォーマンスは特に注目に値します。これは、従来のトランスフォーマー ベースのアプローチでは一般的な要件です。
Vim の双方向状態空間モデリングとハードウェアを意識した設計は、計算効率を向上させるだけでなく、さまざまな高解像度ビジョン タスクにおけるアプリケーションの新たな可能性を切り開きます。 Vim の将来の展望には、マスク画像モデリングの事前トレーニングなどの教師なしタスク、CLIP スタイルの事前トレーニングなどのマルチモーダル タスク、高解像度の医療画像、リモート センシング画像、長時間ビデオの分析などでの応用が含まれます。
結論として、Vision Mamba の革新的なアプローチは、AI ビジョン テクノロジーにおける極めて重要な進歩を示しています。従来のビジョン トランスフォーマーの限界を克服することで、Vim は幅広いビジョンベースの AI アプリケーションの次世代バックボーンとなる準備が整っています。
画像ソース:Shutterstock
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- :持っている
- :は
- :not
- $UP
- 1
- 2017
- 28
- 2D
- 8
- a
- アカデミック
- 達成する
- 達成する
- 越えて
- アドレス
- アドバンス
- AI
- また
- 分析
- および
- 申し込み
- アプローチ
- アプローチ
- 人工の
- 人工知能
- 人工知能(AI)
- AS
- バックボーン
- BE
- になる
- き
- より良いです
- ブロックチェーン
- ブロック
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- カテゴリ
- 挑戦する
- 分類
- ココ
- コマンドと
- 比べ
- 計算的
- 結論
- 実施
- 一貫して
- 含まれています
- コンテキスト
- 続ける
- コントラスト
- 重大な
- データ
- 実証します
- デモ
- 依存
- 設計
- デザイン
- にもかかわらず
- 検出
- 異なります
- 原因
- 間に
- 効率
- 効率的な
- 効率良く
- 新興の
- 従業員
- 可能
- 高めます
- 設立
- 進化
- 実験
- 顔
- 速いです
- フィールド
- 未来
- グローバル
- GPU
- 画期的な
- 半分
- 高解像度の
- より高い
- HTTPS
- 画像
- 画像
- in
- include
- 組み込む
- 革新的な
- インスタンスのセグメンテーション
- インテリジェンス
- 紹介します
- ITS
- JPG
- キー
- 跳躍
- 学習
- ような
- 制限
- 長い
- 機械
- 機械学習
- 方法
- 余白
- mask
- メカニズム
- 医療の
- メモリ
- 百万
- モデリング
- モデル
- 他には?
- ほぼ
- 必要
- 新作
- ニュース
- 次世代
- 注目すべき
- オブジェクト
- オブジェクト検出
- of
- on
- の
- 開いた
- 動作
- 優れた性能
- 克服する
- パラダイム
- 特に
- パフォーマンス
- 極めて重要な
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 態勢を整えた
- 位置
- の可能性
- 処理
- プロジェクト
- 見込み客
- 提供します
- 範囲
- realm
- 最近
- リモート
- 報告
- 表現
- 表します
- 表し
- 要件
- s
- 節約
- 秤
- セグメンテーション
- セマンティック
- シーケンス
- 重要
- 同様の
- ソース
- スペース
- 特に
- スピード
- スタンド
- 都道府県
- 成功
- そのような
- 凌駕する
- 仕事
- タスク
- テクノロジー
- 条件
- より
- それ
- アプリ環境に合わせて
- この
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 伝統的な
- 伝統的に
- トレーニング
- トランスフォーマー
- 理解する
- 使用法
- さまざまな
- ビジョン
- ビジュアル
- which
- ワイド
- 広い範囲
- 以内
- 無し
- ゼファーネット