Vision Mamba: A New Paradigm In AI Vision With Bidirectional State Space Models

Återutgiven av Platon

anhängare: 0

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Området artificiell intelligens (AI) och maskininlärning fortsätter att utvecklas, med Vision Mamba (Vim) som framstår som ett banbrytande projekt inom området för AI-vision. Nyligen den akademiska papper "Vision Mamba - Effektiv visuell representationsinlärning med dubbelriktad" introducerar detta tillvägagångssätt inom området för maskininlärning. Vim har utvecklats med hjälp av state space-modeller (SSM) med effektiva hårdvarumedvetna konstruktioner och representerar ett betydande steg i inlärning av visuell representation.

Vim tar itu med den kritiska utmaningen att effektivt representera visuell data, en uppgift som traditionellt har varit beroende av självuppmärksamhetsmekanismer inom Vision Transformers (ViTs). ViTs, trots sin framgång, möter begränsningar när det gäller att bearbeta högupplösta bilder på grund av hastighets- och minnesanvändningsbegränsningar. Vim, däremot, använder dubbelriktade Mamba-block som inte bara ger ett databeroende globalt visuellt sammanhang utan också innehåller positionsinbäddningar för en mer nyanserad, platsmedveten visuell förståelse. Detta tillvägagångssätt gör det möjligt för Vim att uppnå högre prestanda på nyckeluppgifter som ImageNet-klassificering, COCO-objektdetektering och ADE20K semantisk segmentering, jämfört med etablerade visiontransformatorer som DeiT.

Experimenten som utfördes med Vim på ImageNet-1K-datauppsättningen, som innehåller 1.28 miljoner träningsbilder i 1000 kategorier, visar dess överlägsenhet när det gäller beräknings- och minneseffektivitet. Specifikt rapporteras Vim vara 2.8 gånger snabbare än DeiT, vilket sparar upp till 86.8 % GPU-minne under batch-inferens för högupplösta bilder. I semantiska segmenteringsuppgifter på ADE20K-datauppsättningen överträffar Vim konsekvent DeiT över olika skalor och uppnår liknande prestanda som ResNet-101-ryggraden med nästan hälften av parametrarna.

Vidare, i objektdetekterings- och instanssegmenteringsuppgifter på COCO 2017-datauppsättningen, överträffar Vim DeiT med betydande marginaler, vilket visar sin bättre långsiktiga kontextinlärningsförmåga. Denna prestanda är särskilt anmärkningsvärd eftersom Vim arbetar på ett rent sekvensmodelleringssätt, utan behov av 2D-prioriteringar i dess ryggrad, vilket är ett vanligt krav i traditionella transformatorbaserade tillvägagångssätt.

Vims dubbelriktade tillståndsmodellering och hårdvarumedvetna design förbättrar inte bara dess beräkningseffektivitet utan öppnar också upp nya möjligheter för dess tillämpning i olika högupplösta visionuppgifter. Framtidsutsikter för Vim inkluderar dess tillämpning i oövervakade uppgifter som förträning av maskbildsmodellering, multimodala uppgifter som förträning i CLIP-stil och analys av högupplösta medicinska bilder, bilder från fjärranalys och långa videor.

Sammanfattningsvis markerar Vision Mambas innovativa tillvägagångssätt ett avgörande framsteg inom AI-visionsteknologi. Genom att övervinna begränsningarna hos traditionella vision-transformatorer står Vim redo att bli nästa generations ryggrad för ett brett utbud av vision-baserade AI-applikationer.

Bildkälla: Shutterstock

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Tidsstämpel: Januari 19, 2024

Tidsstämpel: Mar 5, 2023

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models

Återutgiven av Platon

Mer från Blockchain News

Ethereum-utbudet avtog efter "sammanslagningen", kommer det att driva investeringsberättelsen?

TRONs grundare Justin Sun kan vara verklig förvärvare av Huobi Global: Sources

Bank of China Hong Kong slutför testversionen av digital RMB-sandlåda

Web3 Foundation hävdar att DOT är en mjukvara och inte en säkerhet

MetaMask Snaps höjer säkerhet och interoperabilitet i Web3 Space

Bitcoin Flips Visa igen

BitMEX listar Luna 2.0, ETH-marginal och avvecklingsalternativ

Storbritanniens finanstjänstemän träffade krypto- och riskkapitalföretag under Q1: Källor

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto