Vision Mamba : un nouveau paradigme dans la vision de l'IA avec des modèles spatiaux d'états bidirectionnels

Republié par Platon

Suiveurs: 0

Vision Mamba : un nouveau paradigme dans la vision de l'IA avec des modèles spatiaux d'états bidirectionnels PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique continue d'évoluer, avec Vision Mamba (Vim) émergeant comme un projet révolutionnaire dans le domaine de la vision de l'IA. Récemment, l'universitaire papier « Vision Mamba - Efficient Visual Representation Learning with Bidirectionnel » introduit cette approche dans le domaine de l'apprentissage automatique. Développé à l'aide de modèles d'espace d'état (SSM) avec des conceptions efficaces tenant compte du matériel, Vim représente une avancée significative dans l'apprentissage des représentations visuelles.

Vim relève le défi critique de la représentation efficace des données visuelles, une tâche qui dépend traditionnellement des mécanismes d'auto-attention au sein des Vision Transformers (ViT). Les ViT, malgré leur succès, sont confrontés à des limitations dans le traitement des images haute résolution en raison de contraintes de vitesse et d'utilisation de la mémoire. Vim, en revanche, utilise des blocs Mamba bidirectionnels qui fournissent non seulement un contexte visuel global dépendant des données, mais intègrent également des intégrations de position pour une compréhension visuelle plus nuancée et tenant compte de l'emplacement. Cette approche permet à Vim d'atteindre des performances supérieures sur des tâches clés telles que la classification ImageNet, la détection d'objets COCO et la segmentation sémantique ADE20K, par rapport aux transformateurs de vision établis comme DeiT.

Les expériences menées avec Vim sur l'ensemble de données ImageNet-1K, qui contient 1.28 million d'images d'entraînement réparties dans 1000 2.8 catégories, démontrent sa supériorité en termes d'efficacité de calcul et de mémoire. Plus précisément, Vim serait 86.8 fois plus rapide que DeiT, économisant jusqu'à 20 % de mémoire GPU lors de l'inférence par lots pour les images haute résolution. Dans les tâches de segmentation sémantique sur l'ensemble de données ADE101K, Vim surpasse systématiquement DeiT à différentes échelles, atteignant des performances similaires à celles du backbone ResNet-XNUMX avec près de la moitié des paramètres.

De plus, dans les tâches de détection d'objets et de segmentation d'instances sur l'ensemble de données COCO 2017, Vim surpasse DeiT avec des marges significatives, démontrant sa meilleure capacité d'apprentissage de contexte à long terme. Cette performance est particulièrement remarquable dans la mesure où Vim fonctionne de manière purement modélisée par séquence, sans avoir besoin de priors 2D dans son squelette, ce qui est une exigence courante dans les approches traditionnelles basées sur des transformateurs.

La modélisation bidirectionnelle de l'espace d'état et la conception sensible au matériel de Vim améliorent non seulement son efficacité informatique, mais ouvrent également de nouvelles possibilités pour son application dans diverses tâches de vision haute résolution. Les perspectives d'avenir de Vim incluent son application dans des tâches non supervisées telles que le pré-entraînement à la modélisation d'images de masques, des tâches multimodales telles que le pré-entraînement de style CLIP et l'analyse d'images médicales haute résolution, d'images de télédétection et de longues vidéos.

En conclusion, l’approche innovante de Vision Mamba marque une avancée cruciale dans la technologie de vision de l’IA. En surmontant les limites des transformateurs de vision traditionnels, Vim est en passe de devenir l'épine dorsale de nouvelle génération pour une large gamme d'applications d'IA basées sur la vision.

Source de l'image: Shutterstock

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Horodatage: 19 janvier 2024

Horodatage: 5 Mar 2023

Vision Mamba : un nouveau paradigme de vision de l'IA avec des modèles spatiaux d'états bidirectionnels

Republié par Platon

Plus de Blockchain Nouvelles

L'offre d'Ethereum ralentie après la «fusion», stimulera-t-elle le récit d'investissement?

Le fondateur de TRON, Justin Sun, pourrait être le véritable acquéreur de Huobi Global : sources

Bank of China Hong Kong achève l'essai du bac à sable numérique RMB

Web3 Foundation affirme que DOT est un logiciel et non une sécurité

MetaMask Snaps élève la sécurité et l'interopérabilité dans l'espace Web3

Bitcoin renverse à nouveau Visa

BitMEX répertorie Luna 2.0, marge ETH et options de règlement

Des responsables du Trésor britannique ont rencontré des sociétés de cryptographie et de capital-risque au premier trimestre : sources

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte