Vision Mamba: uus paradigma tehisintellekti visioonis kahesuunaliste olekuruumi mudelitega

Vision Mamba: uus paradigma tehisintellekti visioonis kahesuunaliste olekuruumi mudelitega

Vision Mamba: uus paradigma tehisintellekti visioonis koos kahesuunaliste olekuruumi mudelitega PlatoBlockchain andmeluure. Vertikaalne otsing. Ai.

Tehisintellekti (AI) ja masinõppe valdkond areneb jätkuvalt ning Vision Mamba (Vim) on AI-nägemise valdkonnas murranguline projekt. Hiljuti akadeemik paber „Vision Mamba – tõhus visuaalne esitusõpe kahesuunalisega” tutvustab seda lähenemist masinõppe valdkonnas. Vim, mis on välja töötatud olekuruumi mudelite (SSM) abil koos tõhusa riistvaratundliku disainiga, kujutab endast olulist hüpet visuaalse esituse õppimisel.

Vim tegeleb visuaalsete andmete tõhusa esitamise kriitilise väljakutsega – ülesanne, mis on traditsiooniliselt sõltunud Vision Transformers (ViTs) enesetähelepanu mehhanismidest. Vaatamata oma edule seisavad ViT-d kõrge eraldusvõimega piltide töötlemisel kiiruse ja mälukasutuse piirangute tõttu ette piirangutega. Vim seevastu kasutab kahesuunalisi Mamba plokke, mis mitte ainult ei paku andmetest sõltuvat globaalset visuaalset konteksti, vaid sisaldavad ka positsioonide manustusi nüansirikkama ja asukohateadlikuma visuaalse mõistmise jaoks. See lähenemisviis võimaldab Vimil saavutada suuremat jõudlust põhiülesannete puhul, nagu ImageNeti klassifikatsioon, COCO objektide tuvastamine ja ADE20K semantiline segmenteerimine, võrreldes väljakujunenud nägemistrafodega, nagu DeiT​.

Vimiga tehtud katsed ImageNet-1K andmekogul, mis sisaldab 1.28 miljonit treeningpilti 1000 kategoorias, näitavad selle paremust arvutus- ja mälutõhususe osas. Täpsemalt on Vim väidetavalt 2.8 korda kiirem kui DeiT, säästes kuni 86.8% GPU-mälu kõrglahutusega piltide partii järeldamise käigus. Andmestiku ADE20K semantilise segmenteerimise ülesannetes ületab Vim järjekindlalt DeiT-i erinevates skaalades, saavutades peaaegu poolte parameetritega sarnase jõudluse ResNet-101 magistraalsüsteemiga.

Lisaks ületab Vim COCO 2017 andmestiku objektide tuvastamise ja eksemplari segmenteerimise ülesannetes DeiT märkimisväärse varuga, näidates oma paremat pikamaa konteksti õppimisvõimet. See jõudlus on eriti tähelepanuväärne, kuna Vim töötab puhtal järjestusmodelleerimisel, ilma et oleks vaja 2D-priore oma põhisüsteemis, mis on tavapärastes trafopõhistes lähenemisviisides tavaline nõue.

Vimi kahesuunaline olekuruumi modelleerimine ja riistvarateadlik disain mitte ainult ei suurenda selle arvutuslikku efektiivsust, vaid avab ka uusi võimalusi selle kasutamiseks mitmesugustes kõrge eraldusvõimega nägemisülesannetes. Vimi tulevikuväljavaated hõlmavad selle kasutamist järelevalveta ülesannetes, nagu maskikujutise modelleerimise eeltreening, multimodaalsed ülesanded, nagu CLIP-stiilis eeltreening, ning kõrge eraldusvõimega meditsiinipiltide, kaugseirepiltide ja pikkade videote analüüs.

Kokkuvõtteks võib öelda, et Vision Mamba uuenduslik lähenemine tähistab AI-nägemistehnoloogia pöördelist edasiminekut. Ületades traditsiooniliste nägemistrafode piirangud, on Vim valmis saama järgmise põlvkonna tugisambaks paljudele nägemispõhistele AI-rakendustele.

Kujutise allikas: Shutterstock

Ajatempel:

Veel alates Blockchaini uudised