Vision Mamba: 双方向状態空間モデルを使用した AI ビジョンの新しいパラダイム

プラトン再発行

フォロワー： 0

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

人工知能 (AI) と機械学習の分野は進化を続けており、Vision Mamba (Vim) は AI ビジョンの分野における画期的なプロジェクトとして登場しています。最近、学術的な紙「Vision Mamba - 双方向による効率的な視覚表現学習」では、機械学習の領域でこのアプローチを紹介しています。効率的なハードウェアを意識した設計の状態空間モデル (SSM) を使用して開発された Vim は、視覚表現の学習において大きな飛躍をもたらします。

Vim は、従来、ビジョントランスフォーマー (ViT) 内のセルフアテンションメカニズムに依存していたタスクであるビジュアルデータを効率的に表現するという重要な課題に取り組みます。 ViT は成功を収めていますが、速度とメモリ使用量の制約により、高解像度画像の処理には限界があります。対照的に、Vim は双方向の Mamba ブロックを採用しており、データに依存するグローバルな視覚コンテキストを提供するだけでなく、位置の埋め込みも組み込んで、より微妙な位置を意識した視覚的な理解を実現します。このアプローチにより、Vim は、DeiT のような確立されたビジョントランスフォーマーと比較して、ImageNet 分類、COCO オブジェクト検出、ADE20K セマンティックセグメンテーションなどの主要なタスクでより高いパフォーマンスを達成できます。

1 カテゴリにわたる 1.28 万枚のトレーニング画像を含む ImageNet-1000K データセットに対して Vim を使用して行われた実験では、計算効率とメモリ効率の点で Vim の優位性が実証されました。具体的には、Vim は DeiT より 2.8 倍高速で、高解像度画像のバッチ推論中に GPU メモリを最大 86.8% 節約できると報告されています。 ADE20K データセットのセマンティックセグメンテーションタスクでは、Vim はさまざまなスケールにわたって一貫して DeiT を上回り、パラメータのほぼ半分で ResNet-101 バックボーンと同様のパフォーマンスを達成しました。

さらに、COCO 2017 データセットのオブジェクト検出およびインスタンスセグメンテーションタスクにおいて、Vim は DeiT を大幅に上回り、長距離コンテキスト学習能力が優れていることを実証しました。 Vim はバックボーンに 2D 事前分布を必要とせず、純粋なシーケンスモデリング方式で動作するため、このパフォーマンスは特に注目に値します。これは、従来のトランスフォーマーベースのアプローチでは一般的な要件です。

Vim の双方向状態空間モデリングとハードウェアを意識した設計は、計算効率を向上させるだけでなく、さまざまな高解像度ビジョンタスクにおけるアプリケーションの新たな可能性を切り開きます。 Vim の将来の展望には、マスク画像モデリングの事前トレーニングなどの教師なしタスク、CLIP スタイルの事前トレーニングなどのマルチモーダルタスク、高解像度の医療画像、リモートセンシング画像、長時間ビデオの分析などでの応用が含まれます。

結論として、Vision Mamba の革新的なアプローチは、AI ビジョンテクノロジーにおける極めて重要な進歩を示しています。従来のビジョントランスフォーマーの限界を克服することで、Vim は幅広いビジョンベースの AI アプリケーションの次世代バックボーンとなる準備が整っています。

画像ソース：Shutterstock

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

タイムスタンプ： 2024 年 1 月 19 日

タイムスタンプ： 2023 年 3 月 5 日

Vision Mamba: 双方向状態空間モデルを使用した AI ビジョンの新しいパラダイム

プラトン再発行

より多くのブロックチェーンニュース

「合併」後にイーサリアムの供給が鈍化、それは投資の物語を推進するか?

TRONの創設者Justin Sunは、Huobi Globalの本当の買収者になる可能性があります：情報源

中国香港銀行、デジタル人民元サンドボックス試験を完了

Web3 Foundation は、DOT はソフトウェアの一部であり、セキュリティではないと主張しています

MetaMask スナップにより Web3 スペースのセキュリティと相互運用性が向上

ビットコインが再びビザをひっくり返す

BitMEXはLuna2.0、ETHマージンおよび決済オプションをリストします

英国財務省当局者は第1四半期に暗号通貨およびベンチャーキャピタル会社と会いました：情報源

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの ブロックチェーンニュース

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くのブロックチェーンニュース