Vision Mamba: Et nyt paradigme i AI-vision med tovejstilstandsmodeller

Genudgivet af Platon

Abonnenter: 0

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Området kunstig intelligens (AI) og maskinlæring fortsætter med at udvikle sig, hvor Vision Mamba (Vim) fremstår som et banebrydende projekt inden for AI-vision. For nylig den akademiske papir "Vision Mamba - Effektiv visuel repræsentationslæring med tovejs" introducerer denne tilgang inden for maskinlæringsområdet. Vim, der er udviklet ved hjælp af state space-modeller (SSM'er) med effektive hardware-bevidste designs, repræsenterer et betydeligt spring inden for visuel repræsentationslæring.

Vim adresserer den kritiske udfordring ved effektivt at repræsentere visuelle data, en opgave der traditionelt har været afhængig af selvopmærksomhedsmekanismer inden for Vision Transformers (ViTs). ViT'er, på trods af deres succes, står over for begrænsninger i behandlingen af billeder i høj opløsning på grund af hastigheds- og hukommelsesbrugsbegrænsninger. Vim, derimod, anvender tovejs Mamba-blokke, der ikke kun giver en dataafhængig global visuel kontekst, men også inkorporerer positionsindlejringer for en mere nuanceret, stedsbevidst visuel forståelse. Denne tilgang gør det muligt for Vim at opnå højere ydeevne på nøgleopgaver såsom ImageNet-klassificering, COCO-objektdetektion og ADE20K semantisk segmentering sammenlignet med etablerede vision-transformere som DeiT.

Eksperimenterne udført med Vim på ImageNet-1K-datasættet, som indeholder 1.28 millioner træningsbilleder på tværs af 1000 kategorier, demonstrerer dets overlegenhed med hensyn til beregnings- og hukommelseseffektivitet. Specifikt rapporteres Vim at være 2.8 gange hurtigere end DeiT, hvilket sparer op til 86.8 % GPU-hukommelse under batch-inferens til billeder i høj opløsning. I semantiske segmenteringsopgaver på ADE20K-datasættet udkonkurrerer Vim DeiT på tværs af forskellige skalaer, og opnår lignende ydeevne som ResNet-101-rygraden med næsten halvdelen af parametrene.

Ydermere overgår Vim DeiT med betydelige marginer i objektdetektering og instanssegmenteringsopgaver på COCO 2017-datasættet, hvilket demonstrerer dets bedre langrækkende kontekstindlæringsevne. Denne ydeevne er især bemærkelsesværdig, da Vim opererer på en ren sekvensmodelleringsmåde uden behov for 2D-prioriteringer i dens rygrad, hvilket er et almindeligt krav i traditionelle transformerbaserede tilgange.

Vims tovejstilstandsmodellering og hardwarebevidste design forbedrer ikke kun dens beregningseffektivitet, men åbner også op for nye muligheder for dens anvendelse i forskellige højopløselige visionopgaver. Fremtidige udsigter for Vim inkluderer dets anvendelse i uovervågede opgaver som maskebilledmodellering fortræning, multimodale opgaver såsom CLIP-stil fortræning og analyse af højopløselige medicinske billeder, fjernmålingsbilleder og lange videoer.

Som konklusion markerer Vision Mambas innovative tilgang et afgørende fremskridt inden for AI-visionsteknologi. Ved at overvinde begrænsningerne ved traditionelle vision-transformatorer står Vim klar til at blive næste generations rygrad for en bred vifte af vision-baserede AI-applikationer.

Billedkilde: Shutterstock

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Tidsstempel: Januar 19, 2024

Tidsstempel: Oktober 2, 2022

Vision Mamba: Et nyt paradigme i AI Vision med tovejstilstandsmodeller

Genudgivet af Platon

Mere fra Blockchain News

Binance CEO diskuterer kryptoøkosystem med tyrkiske embedsmænd

WEF lancerer koalition til at håndtere klimaændringer gennem Web3.0

Det nigerianske politi arresterer politikeren Wilfred Bonse for involvering i Patricia Technologies økonomisk bedrageri

Elon Musk går videre med AI-planer for Twitter

MIT ser Ethereums PoS som Game Changing Tech

Coinbase samarbejder med Chainlink Labs for at lancere NFT Floor Price Service

Decima Fund sikrer 4.5 milliarder yen for at styrke Web3-ventures i Japan

Californisk cannabisdyrker bruger blockchain til sporing

Ripple-rapport: Krypto-betalinger for at spare $10 milliarder, fremskynde transaktioner inden 2030

OpenSea fjernede kort adskillige Azuki NFT'er på grund af teknisk fejl

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto