Vision Mamba : un nouveau paradigme de vision de l'IA avec des modèles spatiaux d'états bidirectionnels

Vision Mamba : un nouveau paradigme de vision de l'IA avec des modèles spatiaux d'états bidirectionnels

Vision Mamba : un nouveau paradigme dans la vision de l'IA avec des modèles spatiaux d'états bidirectionnels PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique continue d'évoluer, avec Vision Mamba (Vim) émergeant comme un projet révolutionnaire dans le domaine de la vision de l'IA. Récemment, l'universitaire papier « Vision Mamba - Efficient Visual Representation Learning with Bidirectionnel » introduit cette approche dans le domaine de l'apprentissage automatique. Développé à l'aide de modèles d'espace d'état (SSM) avec des conceptions efficaces tenant compte du matériel, Vim représente une avancée significative dans l'apprentissage des représentations visuelles.

Vim relève le défi critique de la représentation efficace des données visuelles, une tâche qui dépend traditionnellement des mécanismes d'auto-attention au sein des Vision Transformers (ViT). Les ViT, malgré leur succès, sont confrontés à des limitations dans le traitement des images haute résolution en raison de contraintes de vitesse et d'utilisation de la mémoire. Vim, en revanche, utilise des blocs Mamba bidirectionnels qui fournissent non seulement un contexte visuel global dépendant des données, mais intègrent également des intégrations de position pour une compréhension visuelle plus nuancée et tenant compte de l'emplacement. Cette approche permet à Vim d'atteindre des performances supérieures sur des tâches clés telles que la classification ImageNet, la détection d'objets COCO et la segmentation sémantique ADE20K, par rapport aux transformateurs de vision établis comme DeiT​​.

Les expériences menées avec Vim sur l'ensemble de données ImageNet-1K, qui contient 1.28 million d'images d'entraînement réparties dans 1000 2.8 catégories, démontrent sa supériorité en termes d'efficacité de calcul et de mémoire. Plus précisément, Vim serait 86.8 fois plus rapide que DeiT, économisant jusqu'à 20 % de mémoire GPU lors de l'inférence par lots pour les images haute résolution. Dans les tâches de segmentation sémantique sur l'ensemble de données ADE101K, Vim surpasse systématiquement DeiT à différentes échelles, atteignant des performances similaires à celles du backbone ResNet-XNUMX avec près de la moitié des paramètres.

De plus, dans les tâches de détection d'objets et de segmentation d'instances sur l'ensemble de données COCO 2017, Vim surpasse DeiT avec des marges significatives, démontrant sa meilleure capacité d'apprentissage de contexte à long terme. Cette performance est particulièrement remarquable dans la mesure où Vim fonctionne de manière purement modélisée par séquence, sans avoir besoin de priors 2D dans son squelette, ce qui est une exigence courante dans les approches traditionnelles basées sur des transformateurs.

La modélisation bidirectionnelle de l'espace d'état et la conception sensible au matériel de Vim améliorent non seulement son efficacité informatique, mais ouvrent également de nouvelles possibilités pour son application dans diverses tâches de vision haute résolution. Les perspectives d'avenir de Vim incluent son application dans des tâches non supervisées telles que le pré-entraînement à la modélisation d'images de masques, des tâches multimodales telles que le pré-entraînement de style CLIP et l'analyse d'images médicales haute résolution, d'images de télédétection et de longues vidéos.

En conclusion, l’approche innovante de Vision Mamba marque une avancée cruciale dans la technologie de vision de l’IA. En surmontant les limites des transformateurs de vision traditionnels, Vim est en passe de devenir l'épine dorsale de nouvelle génération pour une large gamme d'applications d'IA basées sur la vision.

Source de l'image: Shutterstock

Horodatage:

Plus de Blockchain Nouvelles