Vision Mamba: un nuovo paradigma nella visione AI con modelli spaziali a stati bidirezionali

Ripubblicato da Platone

Seguaci: 0

Vision Mamba: un nuovo paradigma nella visione dell'intelligenza artificiale con modelli spaziali a stati bidirezionali PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il campo dell’intelligenza artificiale (AI) e dell’apprendimento automatico continua ad evolversi, con Vision Mamba (Vim) che emerge come un progetto rivoluzionario nel regno della visione dell’IA. Recentemente, l'accademico carta "Vision Mamba - Efficient Visual Representation Learning with Bidirection" introduce questo approccio nel campo dell'apprendimento automatico. Sviluppato utilizzando modelli dello spazio degli stati (SSM) con progetti efficienti che riconoscono l'hardware, Vim rappresenta un passo avanti significativo nell'apprendimento della rappresentazione visiva.

Vim affronta la sfida critica di rappresentare in modo efficiente i dati visivi, un compito che è stato tradizionalmente dipendente dai meccanismi di auto-attenzione all'interno dei Vision Transformers (ViT). I ViT, nonostante il loro successo, devono affrontare limitazioni nell'elaborazione di immagini ad alta risoluzione a causa dei limiti di velocità e di utilizzo della memoria. Vim, al contrario, utilizza blocchi Mamba bidirezionali che non solo forniscono un contesto visivo globale dipendente dai dati, ma incorporano anche incorporamenti di posizione per una comprensione visiva più sfumata e consapevole della posizione. Questo approccio consente a Vim di ottenere prestazioni più elevate su attività chiave come la classificazione ImageNet, il rilevamento di oggetti COCO e la segmentazione semantica ADE20K, rispetto ai trasformatori di visione consolidati come DeiT.

Gli esperimenti condotti con Vim sul set di dati ImageNet-1K, che contiene 1.28 milioni di immagini di addestramento in 1000 categorie, dimostrano la sua superiorità in termini di efficienza computazionale e di memoria. Nello specifico, Vim risulta essere 2.8 volte più veloce di DeiT, risparmiando fino all'86.8% di memoria GPU durante l'inferenza batch per immagini ad alta risoluzione. Nelle attività di segmentazione semantica sul set di dati ADE20K, Vim supera costantemente DeiT su scale diverse, ottenendo prestazioni simili al backbone ResNet-101 con quasi la metà dei parametri.

Inoltre, nelle attività di rilevamento degli oggetti e segmentazione delle istanze sul set di dati COCO 2017, Vim supera DeiT con margini significativi, dimostrando la sua migliore capacità di apprendimento del contesto a lungo raggio. Questa prestazione è particolarmente notevole in quanto Vim opera in modalità di modellazione di sequenze pure, senza la necessità di priori 2D nella sua struttura portante, che è un requisito comune negli approcci tradizionali basati su trasformatori.

La modellazione bidirezionale dello spazio degli stati e la progettazione consapevole dell’hardware di Vim non solo migliorano la sua efficienza computazionale, ma aprono anche nuove possibilità per la sua applicazione in vari compiti di visione ad alta risoluzione. Le prospettive future per Vim includono la sua applicazione in attività non supervisionate come il preaddestramento alla modellazione di immagini con maschera, attività multimodali come il preaddestramento in stile CLIP e l'analisi di immagini mediche ad alta risoluzione, immagini di telerilevamento e video lunghi.

In conclusione, l’approccio innovativo di Vision Mamba segna un progresso fondamentale nella tecnologia di visione AI. Superando i limiti dei tradizionali trasformatori di visione, Vim è pronto a diventare la spina dorsale di prossima generazione per un’ampia gamma di applicazioni IA basate sulla visione.

Fonte immagine: Shutterstock

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Timestamp: Gennaio 19, 2024

Timestamp: Ottobre 2, 2022

Vision Mamba: un nuovo paradigma nella visione AI con modelli spaziali a stati bidirezionali

Ripubblicato da Platone

Di più da News di Blockchain

Il CEO di Binance discute dell'ecosistema Crypto con funzionari turchi

Il WEF lancia la coalizione per affrontare i cambiamenti climatici attraverso il Web3.0

La polizia nigeriana arresta il politico Wilfred Bonse per coinvolgimento nella frode finanziaria di Patricia Technologies

Elon Musk va avanti con i piani AI per Twitter

Il MIT vede il PoS di Ethereum come una tecnologia che cambia il gioco

Coinbase collabora con Chainlink Labs per lanciare il servizio NFT Floor Price

Il fondo Decima si assicura 4.5 miliardi di yen per sostenere le iniziative Web3 in Giappone

Coltivatore di cannabis californiano che utilizza Blockchain per il monitoraggio

Rapporto Ripple: pagamenti crittografici per risparmiare $ 10 miliardi, velocizzare le transazioni entro il 2030

OpenSea ha brevemente rimosso diversi NFT Azuki a causa di un errore tecnico

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account