Vision Mamba: uus paradigma tehisintellekti visioonis kahesuunaliste olekuruumi mudelitega

Taasavaldanud Platon

järgijaid: 0

Vision Mamba: uus paradigma tehisintellekti visioonis koos kahesuunaliste olekuruumi mudelitega PlatoBlockchain andmeluure. Vertikaalne otsing. Ai.

Tehisintellekti (AI) ja masinõppe valdkond areneb jätkuvalt ning Vision Mamba (Vim) on AI-nägemise valdkonnas murranguline projekt. Hiljuti akadeemik paber „Vision Mamba – tõhus visuaalne esitusõpe kahesuunalisega” tutvustab seda lähenemist masinõppe valdkonnas. Vim, mis on välja töötatud olekuruumi mudelite (SSM) abil koos tõhusa riistvaratundliku disainiga, kujutab endast olulist hüpet visuaalse esituse õppimisel.

Vim tegeleb visuaalsete andmete tõhusa esitamise kriitilise väljakutsega – ülesanne, mis on traditsiooniliselt sõltunud Vision Transformers (ViTs) enesetähelepanu mehhanismidest. Vaatamata oma edule seisavad ViT-d kõrge eraldusvõimega piltide töötlemisel kiiruse ja mälukasutuse piirangute tõttu ette piirangutega. Vim seevastu kasutab kahesuunalisi Mamba plokke, mis mitte ainult ei paku andmetest sõltuvat globaalset visuaalset konteksti, vaid sisaldavad ka positsioonide manustusi nüansirikkama ja asukohateadlikuma visuaalse mõistmise jaoks. See lähenemisviis võimaldab Vimil saavutada suuremat jõudlust põhiülesannete puhul, nagu ImageNeti klassifikatsioon, COCO objektide tuvastamine ja ADE20K semantiline segmenteerimine, võrreldes väljakujunenud nägemistrafodega, nagu DeiT.

Vimiga tehtud katsed ImageNet-1K andmekogul, mis sisaldab 1.28 miljonit treeningpilti 1000 kategoorias, näitavad selle paremust arvutus- ja mälutõhususe osas. Täpsemalt on Vim väidetavalt 2.8 korda kiirem kui DeiT, säästes kuni 86.8% GPU-mälu kõrglahutusega piltide partii järeldamise käigus. Andmestiku ADE20K semantilise segmenteerimise ülesannetes ületab Vim järjekindlalt DeiT-i erinevates skaalades, saavutades peaaegu poolte parameetritega sarnase jõudluse ResNet-101 magistraalsüsteemiga.

Lisaks ületab Vim COCO 2017 andmestiku objektide tuvastamise ja eksemplari segmenteerimise ülesannetes DeiT märkimisväärse varuga, näidates oma paremat pikamaa konteksti õppimisvõimet. See jõudlus on eriti tähelepanuväärne, kuna Vim töötab puhtal järjestusmodelleerimisel, ilma et oleks vaja 2D-priore oma põhisüsteemis, mis on tavapärastes trafopõhistes lähenemisviisides tavaline nõue.

Vimi kahesuunaline olekuruumi modelleerimine ja riistvarateadlik disain mitte ainult ei suurenda selle arvutuslikku efektiivsust, vaid avab ka uusi võimalusi selle kasutamiseks mitmesugustes kõrge eraldusvõimega nägemisülesannetes. Vimi tulevikuväljavaated hõlmavad selle kasutamist järelevalveta ülesannetes, nagu maskikujutise modelleerimise eeltreening, multimodaalsed ülesanded, nagu CLIP-stiilis eeltreening, ning kõrge eraldusvõimega meditsiinipiltide, kaugseirepiltide ja pikkade videote analüüs.

Kokkuvõtteks võib öelda, et Vision Mamba uuenduslik lähenemine tähistab AI-nägemistehnoloogia pöördelist edasiminekut. Ületades traditsiooniliste nägemistrafode piirangud, on Vim valmis saama järgmise põlvkonna tugisambaks paljudele nägemispõhistele AI-rakendustele.

Kujutise allikas: Shutterstock

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Ajatempel: Jaanuar 19, 2024

Ajatempel: Mar 5, 2023

Vision Mamba: uus paradigma tehisintellekti visioonis kahesuunaliste olekuruumi mudelitega

Taasavaldanud Platon

Veel alates Blockchaini uudised

Ethereumi tarne aeglustus pärast ühinemist, kas see juhib investeeringute narratiivi?

TRONi asutaja Justin Sun võiks olla Huobi Globali tõeline omandaja: allikad

Bank of China Hong Kong lõpetas digitaalse RMB liivakasti prooviversiooni

Web3 Foundation väidab, et DOT on tarkvara, mitte turvalisus

MetaMask Snaps tõstab veebi3 ruumi turvalisust ja koostalitlusvõimet

Bitcoin pöörab uuesti viisa

BitMEX loetleb Luna 2.0, ETH marginaali ja arveldusvalikud

Ühendkuningriigi riigikassa ametnikud kohtusid esimeses kvartalis krüpto- ja riskikapitaliettevõtetega: allikad

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto