Vision Mamba: Nova paradigma v AI Vision z dvosmernimi modeli stanja prostora

Vision Mamba: Nova paradigma v AI Vision z dvosmernimi modeli stanja prostora

Vision Mamba: Nova paradigma v AI Vision z dvosmernimi modeli državnega prostora PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Področje umetne inteligence (AI) in strojnega učenja se še naprej razvija, pri čemer se Vision Mamba (Vim) pojavlja kot prelomen projekt na področju vizije AI. Pred kratkim je akademik papirja »Vision Mamba – Učinkovito učenje vizualne predstavitve z dvosmernostjo« uvaja ta pristop na področju strojnega učenja. Vim, razvit z uporabo modelov prostora stanja (SSM) z učinkovitimi zasnovami, ki upoštevajo strojno opremo, predstavlja pomemben preskok pri učenju vizualnega predstavljanja.

Vim se ukvarja s kritičnim izzivom učinkovitega predstavljanja vizualnih podatkov, naloga, ki je bila tradicionalno odvisna od mehanizmov samopozornosti znotraj Vision Transformers (ViTs). ViT se kljub uspehu soočajo z omejitvami pri obdelavi slik visoke ločljivosti zaradi omejitev glede hitrosti in uporabe pomnilnika. V nasprotju s tem Vim uporablja dvosmerne bloke Mamba, ki ne zagotavljajo samo globalnega vizualnega konteksta, odvisnega od podatkov, ampak vključujejo tudi vdelave položaja za bolj niansirano vizualno razumevanje, ki se zaveda lokacije. Ta pristop omogoča Vimu, da doseže višjo zmogljivost pri ključnih nalogah, kot so klasifikacija ImageNet, zaznavanje objektov COCO in semantična segmentacija ADE20K, v primerjavi z uveljavljenimi transformatorji vida, kot je DeiT​​.

Poskusi, izvedeni z Vimom na podatkovnem nizu ImageNet-1K, ki vsebuje 1.28 milijona slik za usposabljanje v 1000 kategorijah, dokazujejo njegovo superiornost v smislu računalniške in pomnilniške učinkovitosti. Natančneje, poroča se, da je Vim 2.8-krat hitrejši od DeiT, pri čemer prihrani do 86.8 % pomnilnika GPU med paketnim sklepanjem za slike visoke ločljivosti. Pri nalogah semantične segmentacije na naboru podatkov ADE20K Vim dosledno prekaša DeiT na različnih lestvicah in dosega podobno zmogljivost kot hrbtenica ResNet-101 s skoraj polovico manjšimi parametri.

Poleg tega Vim pri nalogah za odkrivanje objektov in segmentacijo primerkov na naboru podatkov COCO 2017 prekaša DeiT z znatnimi rezervami, kar dokazuje njegovo boljšo zmožnost učenja konteksta na dolge razdalje​​. Ta zmogljivost je še posebej opazna, saj Vim deluje na način čistega zaporednega modeliranja, brez potrebe po 2D predhodnih delih v svoji hrbtenici, kar je pogosta zahteva pri tradicionalnih pristopih, ki temeljijo na transformatorjih.

Vimovo dvosmerno modeliranje prostora stanj in zasnova, ki upošteva strojno opremo, ne izboljšata samo njegove računalniške učinkovitosti, ampak tudi odpirata nove možnosti za njegovo uporabo pri različnih nalogah vida z visoko ločljivostjo. Prihodnji obeti za Vim vključujejo njegovo uporabo pri nenadzorovanih nalogah, kot je predusposabljanje za modeliranje slike z masko, multimodalne naloge, kot je predusposabljanje v slogu CLIP, in analiza medicinskih slik visoke ločljivosti, slik z daljinskim zaznavanjem in dolgih videoposnetkov.

Za zaključek, inovativni pristop Vision Mamba označuje ključni napredek v tehnologiji vida AI. S premagovanjem omejitev tradicionalnih transformatorjev vida je Vim pripravljen postati hrbtenica naslednje generacije za široko paleto aplikacij umetne inteligence, ki temeljijo na vidu.

Vir slik: Shutterstock

Časovni žig:

Več od Blockchain novice