Feltet kunstig intelligens (AI) og maskinlæring fortsetter å utvikle seg, med Vision Mamba (Vim) som fremstår som et banebrytende prosjekt innen AI-visjonen. Nylig den akademiske papir "Vision Mamba-Effektiv visuell representasjonslæring med toveis" introduserer denne tilnærmingen innen maskinlæringsområdet. Vim er utviklet ved bruk av state space-modeller (SSM) med effektive maskinvarebevisste design, og representerer et betydelig sprang i visuell representasjonslæring.
Vim adresserer den kritiske utfordringen med å effektivt representere visuelle data, en oppgave som tradisjonelt har vært avhengig av selvoppmerksomhetsmekanismer innen Vision Transformers (ViTs). ViTs, til tross for deres suksess, møter begrensninger i behandlingen av høyoppløselige bilder på grunn av hastighet og minnebruksbegrensninger. Vim, i motsetning, bruker toveis Mamba-blokker som ikke bare gir en dataavhengig global visuell kontekst, men som også inkluderer posisjonsinnbygging for en mer nyansert, stedsbevisst visuell forståelse. Denne tilnærmingen gjør det mulig for Vim å oppnå høyere ytelse på nøkkeloppgaver som ImageNet-klassifisering, COCO-objektdeteksjon og ADE20K semantisk segmentering, sammenlignet med etablerte synstransformatorer som DeiT.
Eksperimentene utført med Vim på ImageNet-1K-datasettet, som inneholder 1.28 millioner treningsbilder over 1000 kategorier, viser dens overlegenhet når det gjelder beregnings- og minneeffektivitet. Spesifikt rapporteres Vim å være 2.8 ganger raskere enn DeiT, og sparer opptil 86.8 % GPU-minne under batch-slutning for bilder med høy oppløsning. I semantiske segmenteringsoppgaver på ADE20K-datasettet, overgår Vim konsekvent DeiT på tvers av forskjellige skalaer, og oppnår lignende ytelse som ResNet-101-ryggraden med nesten halvparten av parameterne.
I tillegg, i objektdeteksjons- og instanssegmenteringsoppgaver på COCO 2017-datasettet, overgår Vim DeiT med betydelige marginer, og demonstrerer dens bedre langdistansekontekstlæringsevne. Denne ytelsen er spesielt bemerkelsesverdig ettersom Vim opererer på en ren sekvensmodelleringsmåte, uten behov for 2D-priorer i ryggraden, som er et vanlig krav i tradisjonelle transformatorbaserte tilnærminger.
Vims toveis tilstandsmodellering og maskinvarebevisste design forbedrer ikke bare beregningseffektiviteten, men åpner også for nye muligheter for bruk i forskjellige høyoppløselige synsoppgaver. Fremtidsutsikter for Vim inkluderer bruken av det i uovervåkede oppgaver som fortrening av maskebildemodellering, multimodale oppgaver som fortrening i CLIP-stil, og analyse av høyoppløselige medisinske bilder, fjernmålingsbilder og lange videoer.
Avslutningsvis markerer Vision Mambas innovative tilnærming et sentralt fremskritt innen AI-synsteknologi. Ved å overvinne begrensningene til tradisjonelle synstransformatorer, står Vim klar til å bli neste generasjons ryggrad for et bredt spekter av visjonsbaserte AI-applikasjoner.
Bildekilde: Shutterstock
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- : har
- :er
- :ikke
- $OPP
- 1
- 2017
- 28
- 2D
- 8
- a
- akademisk
- Oppnå
- oppnå
- tvers
- adresser
- forfremmelse
- AI
- også
- analyse
- og
- Søknad
- søknader
- tilnærming
- tilnærminger
- kunstig
- kunstig intelligens
- Kunstig intelligens (AI)
- AS
- Backbone
- BE
- bli
- vært
- Bedre
- blockchain
- Blocks
- men
- by
- kategorier
- utfordre
- klassifisering
- coco
- Felles
- sammenlignet
- beregnings
- konklusjon
- gjennomført
- konsekvent
- inneholder
- kontekst
- fortsetter
- kontrast
- kritisk
- dato
- demonstrere
- demonstrere
- avhengig
- utforming
- design
- Til tross for
- Gjenkjenning
- forskjellig
- to
- under
- effektivitet
- effektiv
- effektivt
- Emery
- anvender
- muliggjør
- forbedre
- etablert
- utvikle seg
- eksperimenter
- Face
- raskere
- felt
- Til
- framtid
- Global
- GPU
- banebrytende
- Halvparten
- høy oppløsning
- høyere
- HTTPS
- bilde
- bilder
- in
- inkludere
- innlemme
- innovative
- f.eks
- Instanssegmentering
- Intelligens
- Introduserer
- DET ER
- jpg
- nøkkel
- Hoppe
- læring
- i likhet med
- begrensninger
- Lang
- maskin
- maskinlæring
- måte
- marginer
- maske
- mekanismer
- medisinsk
- Minne
- millioner
- modellering
- modeller
- mer
- nesten
- Trenger
- Ny
- nyheter
- neste generasjon
- bemerkelsesverdig
- objekt
- Objektdeteksjon
- of
- on
- bare
- åpen
- opererer
- utkonkurrerer
- overvinne
- paradigmet
- spesielt
- ytelse
- sentral
- plato
- Platon Data Intelligence
- PlatonData
- klar
- posisjon
- muligheter
- prosessering
- prosjekt
- prospekter
- gi
- område
- riket
- nylig
- fjernkontroll
- rapportert
- representasjon
- representerer
- representerer
- behov
- s
- besparende
- vekter
- segmentering
- semantisk
- Sequence
- signifikant
- lignende
- kilde
- Rom
- spesielt
- fart
- står
- Tilstand
- suksess
- slik
- overgår
- Oppgave
- oppgaver
- Teknologi
- vilkår
- enn
- Det
- De
- deres
- denne
- ganger
- til
- tradisjonelle
- tradisjonelt
- Kurs
- transformers
- forståelse
- bruk
- ved hjelp av
- ulike
- syn
- visuell
- hvilken
- bred
- Bred rekkevidde
- med
- innenfor
- uten
- zephyrnet