Vision Mamba: un nuovo paradigma nella visione AI con modelli spaziali a stati bidirezionali

Vision Mamba: un nuovo paradigma nella visione AI con modelli spaziali a stati bidirezionali

Vision Mamba: un nuovo paradigma nella visione dell'intelligenza artificiale con modelli spaziali a stati bidirezionali PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il campo dell’intelligenza artificiale (AI) e dell’apprendimento automatico continua ad evolversi, con Vision Mamba (Vim) che emerge come un progetto rivoluzionario nel regno della visione dell’IA. Recentemente, l'accademico carta "Vision Mamba - Efficient Visual Representation Learning with Bidirection" introduce questo approccio nel campo dell'apprendimento automatico. Sviluppato utilizzando modelli dello spazio degli stati (SSM) con progetti efficienti che riconoscono l'hardware, Vim rappresenta un passo avanti significativo nell'apprendimento della rappresentazione visiva.

Vim affronta la sfida critica di rappresentare in modo efficiente i dati visivi, un compito che è stato tradizionalmente dipendente dai meccanismi di auto-attenzione all'interno dei Vision Transformers (ViT). I ViT, nonostante il loro successo, devono affrontare limitazioni nell'elaborazione di immagini ad alta risoluzione a causa dei limiti di velocità e di utilizzo della memoria. Vim, al contrario, utilizza blocchi Mamba bidirezionali che non solo forniscono un contesto visivo globale dipendente dai dati, ma incorporano anche incorporamenti di posizione per una comprensione visiva più sfumata e consapevole della posizione. Questo approccio consente a Vim di ottenere prestazioni più elevate su attività chiave come la classificazione ImageNet, il rilevamento di oggetti COCO e la segmentazione semantica ADE20K, rispetto ai trasformatori di visione consolidati come DeiT​​.

Gli esperimenti condotti con Vim sul set di dati ImageNet-1K, che contiene 1.28 milioni di immagini di addestramento in 1000 categorie, dimostrano la sua superiorità in termini di efficienza computazionale e di memoria. Nello specifico, Vim risulta essere 2.8 volte più veloce di DeiT, risparmiando fino all'86.8% di memoria GPU durante l'inferenza batch per immagini ad alta risoluzione. Nelle attività di segmentazione semantica sul set di dati ADE20K, Vim supera costantemente DeiT su scale diverse, ottenendo prestazioni simili al backbone ResNet-101 con quasi la metà dei parametri.

Inoltre, nelle attività di rilevamento degli oggetti e segmentazione delle istanze sul set di dati COCO 2017, Vim supera DeiT con margini significativi, dimostrando la sua migliore capacità di apprendimento del contesto a lungo raggio. Questa prestazione è particolarmente notevole in quanto Vim opera in modalità di modellazione di sequenze pure, senza la necessità di priori 2D nella sua struttura portante, che è un requisito comune negli approcci tradizionali basati su trasformatori.

La modellazione bidirezionale dello spazio degli stati e la progettazione consapevole dell’hardware di Vim non solo migliorano la sua efficienza computazionale, ma aprono anche nuove possibilità per la sua applicazione in vari compiti di visione ad alta risoluzione. Le prospettive future per Vim includono la sua applicazione in attività non supervisionate come il preaddestramento alla modellazione di immagini con maschera, attività multimodali come il preaddestramento in stile CLIP e l'analisi di immagini mediche ad alta risoluzione, immagini di telerilevamento e video lunghi.

In conclusione, l’approccio innovativo di Vision Mamba segna un progresso fondamentale nella tecnologia di visione AI. Superando i limiti dei tradizionali trasformatori di visione, Vim è pronto a diventare la spina dorsale di prossima generazione per un’ampia gamma di applicazioni IA basate sulla visione.

Fonte immagine: Shutterstock

Timestamp:

Di più da News di Blockchain