Vision Mamba: A New Paradigm In AI Vision With Todirectional State Space Models

Publisert av Platon

Følgere: 0

Vision Mamba: A New Paradigm in AI Vision with Todirectional State Space Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Feltet kunstig intelligens (AI) og maskinlæring fortsetter å utvikle seg, med Vision Mamba (Vim) som fremstår som et banebrytende prosjekt innen AI-visjonen. Nylig den akademiske papir "Vision Mamba-Effektiv visuell representasjonslæring med toveis" introduserer denne tilnærmingen innen maskinlæringsområdet. Vim er utviklet ved bruk av state space-modeller (SSM) med effektive maskinvarebevisste design, og representerer et betydelig sprang i visuell representasjonslæring.

Vim adresserer den kritiske utfordringen med å effektivt representere visuelle data, en oppgave som tradisjonelt har vært avhengig av selvoppmerksomhetsmekanismer innen Vision Transformers (ViTs). ViTs, til tross for deres suksess, møter begrensninger i behandlingen av høyoppløselige bilder på grunn av hastighet og minnebruksbegrensninger. Vim, i motsetning, bruker toveis Mamba-blokker som ikke bare gir en dataavhengig global visuell kontekst, men som også inkluderer posisjonsinnbygging for en mer nyansert, stedsbevisst visuell forståelse. Denne tilnærmingen gjør det mulig for Vim å oppnå høyere ytelse på nøkkeloppgaver som ImageNet-klassifisering, COCO-objektdeteksjon og ADE20K semantisk segmentering, sammenlignet med etablerte synstransformatorer som DeiT.

Eksperimentene utført med Vim på ImageNet-1K-datasettet, som inneholder 1.28 millioner treningsbilder over 1000 kategorier, viser dens overlegenhet når det gjelder beregnings- og minneeffektivitet. Spesifikt rapporteres Vim å være 2.8 ganger raskere enn DeiT, og sparer opptil 86.8 % GPU-minne under batch-slutning for bilder med høy oppløsning. I semantiske segmenteringsoppgaver på ADE20K-datasettet, overgår Vim konsekvent DeiT på tvers av forskjellige skalaer, og oppnår lignende ytelse som ResNet-101-ryggraden med nesten halvparten av parameterne.

I tillegg, i objektdeteksjons- og instanssegmenteringsoppgaver på COCO 2017-datasettet, overgår Vim DeiT med betydelige marginer, og demonstrerer dens bedre langdistansekontekstlæringsevne. Denne ytelsen er spesielt bemerkelsesverdig ettersom Vim opererer på en ren sekvensmodelleringsmåte, uten behov for 2D-priorer i ryggraden, som er et vanlig krav i tradisjonelle transformatorbaserte tilnærminger.

Vims toveis tilstandsmodellering og maskinvarebevisste design forbedrer ikke bare beregningseffektiviteten, men åpner også for nye muligheter for bruk i forskjellige høyoppløselige synsoppgaver. Fremtidsutsikter for Vim inkluderer bruken av det i uovervåkede oppgaver som fortrening av maskebildemodellering, multimodale oppgaver som fortrening i CLIP-stil, og analyse av høyoppløselige medisinske bilder, fjernmålingsbilder og lange videoer.

Avslutningsvis markerer Vision Mambas innovative tilnærming et sentralt fremskritt innen AI-synsteknologi. Ved å overvinne begrensningene til tradisjonelle synstransformatorer, står Vim klar til å bli neste generasjons ryggrad for et bredt spekter av visjonsbaserte AI-applikasjoner.

Bildekilde: Shutterstock

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Tidstempel: Januar 19, 2024

Tidstempel: April 19, 2024

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models

Publisert av Platon

Mer fra Blockchain Nyheter

Canadian Central Bank samarbeider med MIT for CBDC Research

Gjensidig innsats med Europa, amerikansk nøkkel for CBDC-utstedelse: Bank of Japans guvernør

SEC anser Filecoin som en sikkerhet, gråtoner er ikke enig

Base Layer-2 Protocol knuser DEX-handelsvolumrekord med $1.21B stigning

Kinesisk versjon CBDC (Digital Yuan) brukt på Guangzhou Housing Provident Fund-lån

Binance Pay og Credencial Payments slår seg sammen for å aktivere sanntids kryptobetalinger i Latin-Amerika

Honduras tilbaketrekning fra ICSID Støttet av økonomer midt i kryptofirmatvist

Bullish sentiment gjenoppretter seg i kryptoderivatmarkeder, økte til 3.12 billioner dollar i juli

Bitfarms registrerer $40 millioner i total omsetning og 900 BTC utvunnet i Q1 2022

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn