Vision Mamba: Uusi paradigma tekoälyn visiossa kaksisuuntaisilla tila-avaruusmalleilla

Julkaissut Platon

seuraajia: 0

Vision Mamba: Uusi paradigma AI Visionissa kaksisuuntaisilla tila-avaruusmalleilla PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tekoälyn (AI) ja koneoppimisen kenttä kehittyy edelleen, ja Vision Mamba (Vim) on nousemassa uraauurtavaksi projektiksi tekoälynäön alalla. Äskettäin akateeminen paperi "Vision Mamba - Tehokas visuaalinen esitysoppiminen kaksisuuntaisella" esittelee tämän lähestymistavan koneoppimisen alalla. Vim, joka on kehitetty käyttämällä tila-avaruusmalleja (SSM) ja tehokkaita laitteistotietoisia suunnitelmia, edustaa merkittävää harppausta visuaalisen esityksen oppimisessa.

Vim vastaa visuaalisen datan tehokkaan esittämisen kriittiseen haasteeseen, joka on perinteisesti ollut riippuvainen Vision Transformersin (ViTs) itsetarkkailumekanismeista. Menestyksestään huolimatta ViT:t kohtaavat rajoituksia korkearesoluutioisten kuvien käsittelyssä nopeuden ja muistin käytön rajoitusten vuoksi. Vim sitä vastoin käyttää kaksisuuntaisia Mamba-lohkoja, jotka eivät ainoastaan tarjoa tiedoista riippuvaa globaalia visuaalista kontekstia, vaan sisältävät myös paikan upotuksia vivahteikkaamman, sijaintitietoisemman visuaalisen ymmärryksen saavuttamiseksi. Tämä lähestymistapa antaa Vimille paremman suorituskyvyn avaintehtävissä, kuten ImageNet-luokittelussa, COCO-objektien havaitsemisessa ja ADE20K-semanttisessa segmentoinnissa, verrattuna vakiintuneisiin näkömuuntajiin, kuten DeiT.

Vimillä suoritetut kokeet ImageNet-1K-tietojoukossa, joka sisältää 1.28 miljoonaa harjoituskuvaa 1000 kategoriassa, osoittavat sen paremmuuden laskennan ja muistin tehokkuuden suhteen. Tarkemmin sanottuna Vimin kerrotaan olevan 2.8 kertaa nopeampi kuin DeiT, mikä säästää jopa 86.8 % GPU-muistia korkearesoluutioisten kuvien eräpäättelyn aikana. ADE20K-tietojoukon semanttisissa segmentointitehtävissä Vim ylittää jatkuvasti DeiT:n eri mittakaavassa ja saavuttaa samanlaisen suorituskyvyn kuin ResNet-101-runkoverkossa lähes puolet parametreista.

Lisäksi COCO 2017 -tietojoukon objektien tunnistus- ja ilmentymien segmentointitehtävissä Vim ylittää DeiT:n merkittävillä marginaaleilla, mikä osoittaa sen paremman pitkän kantaman kontekstin oppimiskyvyn. Tämä suorituskyky on erityisen merkittävä, koska Vim toimii puhtaalla sekvenssimallinnustavalla ilman, että sen rungossa tarvitaan 2D-prioreja, mikä on yleinen vaatimus perinteisissä muuntajapohjaisissa lähestymistavoissa.

Vimin kaksisuuntainen tila-avaruusmallinnus ja laitteistotietoinen suunnittelu paitsi lisää sen laskennallista tehokkuutta, myös avaa uusia mahdollisuuksia sen soveltamiseen erilaisissa korkearesoluutioisissa visiotehtävissä. Vimin tulevaisuudennäkymiin kuuluu sen käyttö valvomattomissa tehtävissä, kuten maskikuvamallinnuksen esikoulutus, multimodaaliset tehtävät, kuten CLIP-tyylinen esikoulutus, sekä korkearesoluutioisten lääketieteellisten kuvien, kaukokartoituskuvien ja pitkien videoiden analysointi.

Yhteenvetona voidaan todeta, että Vision Mamban innovatiivinen lähestymistapa merkitsee keskeistä edistystä tekoälynäkötekniikassa. Ylittämällä perinteisten näkömuuntajien rajoitukset, Vim on valmis tulemaan seuraavan sukupolven rungoksi monenlaisille näköpohjaisille tekoälysovelluksille.

Kuvalähde: Shutterstock

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Aikaleima: Tammikuu 19, 2024

Aikaleima: Mar 5, 2023

Vision Mamba: Uusi paradigma AI Visionissa kaksisuuntaisilla tila-avaruusmalleilla

Julkaissut Platon

Lisää aiheesta Blockchain-uutiset

Ethereumin tarjonta hidastui "fuusion" jälkeen, edistääkö se investointikertomusta?

TRONin perustaja Justin Sun voisi olla Huobi Globalin todellinen ostaja: Lähteet

Bank of China Hong Kong saa päätökseen digitaalisen RMB-hiekkalaatikon kokeilun

Web3 Foundation väittää, että DOT on ohjelmisto, ei tietoturva

MetaMask Snaps parantaa tietoturvaa ja yhteentoimivuutta Web3-tilassa

Bitcoin kääntää Visan jälleen

BitMEX listaa Luna 2.0:n, ETH-marginaalin ja selvitysvaihtoehdot

Ison-Britannian valtiovarainministeriön virkamiehet tapasivat krypto- ja riskipääomayritysten kanssa Q1: Sources

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili