Vision Mamba: A New Paradigm In AI Vision With Todirectional State Space Models

Publisert av Platon

Følgere: 0

Vision Mamba: A New Paradigm in AI Vision with Todirectional State Space Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Feltet kunstig intelligens (AI) og maskinlæring fortsetter å utvikle seg, med Vision Mamba (Vim) som fremstår som et banebrytende prosjekt innen AI-visjonen. Nylig den akademiske papir "Vision Mamba-Effektiv visuell representasjonslæring med toveis" introduserer denne tilnærmingen innen maskinlæringsområdet. Vim er utviklet ved bruk av state space-modeller (SSM) med effektive maskinvarebevisste design, og representerer et betydelig sprang i visuell representasjonslæring.

Vim adresserer den kritiske utfordringen med å effektivt representere visuelle data, en oppgave som tradisjonelt har vært avhengig av selvoppmerksomhetsmekanismer innen Vision Transformers (ViTs). ViTs, til tross for deres suksess, møter begrensninger i behandlingen av høyoppløselige bilder på grunn av hastighet og minnebruksbegrensninger. Vim, i motsetning, bruker toveis Mamba-blokker som ikke bare gir en dataavhengig global visuell kontekst, men som også inkluderer posisjonsinnbygging for en mer nyansert, stedsbevisst visuell forståelse. Denne tilnærmingen gjør det mulig for Vim å oppnå høyere ytelse på nøkkeloppgaver som ImageNet-klassifisering, COCO-objektdeteksjon og ADE20K semantisk segmentering, sammenlignet med etablerte synstransformatorer som DeiT.

Eksperimentene utført med Vim på ImageNet-1K-datasettet, som inneholder 1.28 millioner treningsbilder over 1000 kategorier, viser dens overlegenhet når det gjelder beregnings- og minneeffektivitet. Spesifikt rapporteres Vim å være 2.8 ganger raskere enn DeiT, og sparer opptil 86.8 % GPU-minne under batch-slutning for bilder med høy oppløsning. I semantiske segmenteringsoppgaver på ADE20K-datasettet, overgår Vim konsekvent DeiT på tvers av forskjellige skalaer, og oppnår lignende ytelse som ResNet-101-ryggraden med nesten halvparten av parameterne.

I tillegg, i objektdeteksjons- og instanssegmenteringsoppgaver på COCO 2017-datasettet, overgår Vim DeiT med betydelige marginer, og demonstrerer dens bedre langdistansekontekstlæringsevne. Denne ytelsen er spesielt bemerkelsesverdig ettersom Vim opererer på en ren sekvensmodelleringsmåte, uten behov for 2D-priorer i ryggraden, som er et vanlig krav i tradisjonelle transformatorbaserte tilnærminger.

Vims toveis tilstandsmodellering og maskinvarebevisste design forbedrer ikke bare beregningseffektiviteten, men åpner også for nye muligheter for bruk i forskjellige høyoppløselige synsoppgaver. Fremtidsutsikter for Vim inkluderer bruken av det i uovervåkede oppgaver som fortrening av maskebildemodellering, multimodale oppgaver som fortrening i CLIP-stil, og analyse av høyoppløselige medisinske bilder, fjernmålingsbilder og lange videoer.

Avslutningsvis markerer Vision Mambas innovative tilnærming et sentralt fremskritt innen AI-synsteknologi. Ved å overvinne begrensningene til tradisjonelle synstransformatorer, står Vim klar til å bli neste generasjons ryggrad for et bredt spekter av visjonsbaserte AI-applikasjoner.

Bildekilde: Shutterstock

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Tidstempel: Januar 19, 2024

Tidstempel: Mar 5, 2023

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models

Publisert av Platon

Mer fra Blockchain Nyheter

Ethereum-tilførselen avtok etter 'sammenslåingen', vil det drive investeringsfortellingen?

TRONs grunnlegger Justin Sun kan være den virkelige kjøperen av Huobi Global: Kilder

Bank of China Hong Kong fullfører prøveversjonen av digital RMB Sandbox

Web3 Foundation hevder DOT er et stykke programvare og ikke en sikkerhet

MetaMask Snaps øker sikkerhet og interoperabilitet i Web3 Space

Bitcoin snur visum igjen

BitMEX viser Luna 2.0, ETH-margin og oppgjørsalternativer

Treasury-tjenestemenn møtte krypto- og venturekapitalfirmaer i Q1: Kilder

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn