Vision Mamba: Nova paradigma v AI Vision z dvosmernimi modeli stanja prostora

Ponovno objavil Platon

Spremljevalci: 0

Vision Mamba: Nova paradigma v AI Vision z dvosmernimi modeli državnega prostora PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Področje umetne inteligence (AI) in strojnega učenja se še naprej razvija, pri čemer se Vision Mamba (Vim) pojavlja kot prelomen projekt na področju vizije AI. Pred kratkim je akademik papirja »Vision Mamba – Učinkovito učenje vizualne predstavitve z dvosmernostjo« uvaja ta pristop na področju strojnega učenja. Vim, razvit z uporabo modelov prostora stanja (SSM) z učinkovitimi zasnovami, ki upoštevajo strojno opremo, predstavlja pomemben preskok pri učenju vizualnega predstavljanja.

Vim se ukvarja s kritičnim izzivom učinkovitega predstavljanja vizualnih podatkov, naloga, ki je bila tradicionalno odvisna od mehanizmov samopozornosti znotraj Vision Transformers (ViTs). ViT se kljub uspehu soočajo z omejitvami pri obdelavi slik visoke ločljivosti zaradi omejitev glede hitrosti in uporabe pomnilnika. V nasprotju s tem Vim uporablja dvosmerne bloke Mamba, ki ne zagotavljajo samo globalnega vizualnega konteksta, odvisnega od podatkov, ampak vključujejo tudi vdelave položaja za bolj niansirano vizualno razumevanje, ki se zaveda lokacije. Ta pristop omogoča Vimu, da doseže višjo zmogljivost pri ključnih nalogah, kot so klasifikacija ImageNet, zaznavanje objektov COCO in semantična segmentacija ADE20K, v primerjavi z uveljavljenimi transformatorji vida, kot je DeiT.

Poskusi, izvedeni z Vimom na podatkovnem nizu ImageNet-1K, ki vsebuje 1.28 milijona slik za usposabljanje v 1000 kategorijah, dokazujejo njegovo superiornost v smislu računalniške in pomnilniške učinkovitosti. Natančneje, poroča se, da je Vim 2.8-krat hitrejši od DeiT, pri čemer prihrani do 86.8 % pomnilnika GPU med paketnim sklepanjem za slike visoke ločljivosti. Pri nalogah semantične segmentacije na naboru podatkov ADE20K Vim dosledno prekaša DeiT na različnih lestvicah in dosega podobno zmogljivost kot hrbtenica ResNet-101 s skoraj polovico manjšimi parametri.

Poleg tega Vim pri nalogah za odkrivanje objektov in segmentacijo primerkov na naboru podatkov COCO 2017 prekaša DeiT z znatnimi rezervami, kar dokazuje njegovo boljšo zmožnost učenja konteksta na dolge razdalje. Ta zmogljivost je še posebej opazna, saj Vim deluje na način čistega zaporednega modeliranja, brez potrebe po 2D predhodnih delih v svoji hrbtenici, kar je pogosta zahteva pri tradicionalnih pristopih, ki temeljijo na transformatorjih.

Vimovo dvosmerno modeliranje prostora stanj in zasnova, ki upošteva strojno opremo, ne izboljšata samo njegove računalniške učinkovitosti, ampak tudi odpirata nove možnosti za njegovo uporabo pri različnih nalogah vida z visoko ločljivostjo. Prihodnji obeti za Vim vključujejo njegovo uporabo pri nenadzorovanih nalogah, kot je predusposabljanje za modeliranje slike z masko, multimodalne naloge, kot je predusposabljanje v slogu CLIP, in analiza medicinskih slik visoke ločljivosti, slik z daljinskim zaznavanjem in dolgih videoposnetkov.

Za zaključek, inovativni pristop Vision Mamba označuje ključni napredek v tehnologiji vida AI. S premagovanjem omejitev tradicionalnih transformatorjev vida je Vim pripravljen postati hrbtenica naslednje generacije za široko paleto aplikacij umetne inteligence, ki temeljijo na vidu.

Vir slik: Shutterstock

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Časovni žig: Januar 19, 2024

Časovni žig: Marec 5, 2023

Vision Mamba: Nova paradigma v AI Vision z dvosmernimi modeli stanja prostora

Ponovno objavil Platon

Več od Blockchain novice

Ponudba Ethereuma se je po 'združitvi' upočasnila, bo to spodbudilo pripoved o naložbah?

Ustanovitelj TRON-a Justin Sun bi lahko bil pravi prevzemnik Huobi Global: Viri

Bank of China Hong Kong je zaključila preskus digitalnega peskovnika RMB

Web3 Foundation trdi, da je DOT del programske opreme in ne vrednostni papir

MetaMask Snaps dviguje varnost in interoperabilnost v prostoru Web3

Bitcoin spet obrne Visa

BitMEX navaja Luna 2.0, ETH marže in možnosti poravnave

Uradniki ministrstva za finance Združenega kraljestva so se v prvem četrtletju srečali s podjetji kripto in tveganega kapitala: Viri

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun