Vision Mamba: Uusi paradigma AI Visionissa kaksisuuntaisilla tila-avaruusmalleilla

Vision Mamba: Uusi paradigma AI Visionissa kaksisuuntaisilla tila-avaruusmalleilla

Vision Mamba: Uusi paradigma AI Visionissa kaksisuuntaisilla tila-avaruusmalleilla PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tekoälyn (AI) ja koneoppimisen kenttä kehittyy edelleen, ja Vision Mamba (Vim) on nousemassa uraauurtavaksi projektiksi tekoälynäön alalla. Äskettäin akateeminen paperi "Vision Mamba - Tehokas visuaalinen esitysoppiminen kaksisuuntaisella" esittelee tämän lähestymistavan koneoppimisen alalla. Vim, joka on kehitetty käyttämällä tila-avaruusmalleja (SSM) ja tehokkaita laitteistotietoisia suunnitelmia, edustaa merkittävää harppausta visuaalisen esityksen oppimisessa.

Vim vastaa visuaalisen datan tehokkaan esittämisen kriittiseen haasteeseen, joka on perinteisesti ollut riippuvainen Vision Transformersin (ViTs) itsetarkkailumekanismeista. Menestyksestään huolimatta ViT:t kohtaavat rajoituksia korkearesoluutioisten kuvien käsittelyssä nopeuden ja muistin käytön rajoitusten vuoksi. Vim sitä vastoin käyttää kaksisuuntaisia ​​Mamba-lohkoja, jotka eivät ainoastaan ​​tarjoa tiedoista riippuvaa globaalia visuaalista kontekstia, vaan sisältävät myös paikan upotuksia vivahteikkaamman, sijaintitietoisemman visuaalisen ymmärryksen saavuttamiseksi. Tämä lähestymistapa antaa Vimille paremman suorituskyvyn avaintehtävissä, kuten ImageNet-luokittelussa, COCO-objektien havaitsemisessa ja ADE20K-semanttisessa segmentoinnissa, verrattuna vakiintuneisiin näkömuuntajiin, kuten DeiT​​.

Vimillä suoritetut kokeet ImageNet-1K-tietojoukossa, joka sisältää 1.28 miljoonaa harjoituskuvaa 1000 kategoriassa, osoittavat sen paremmuuden laskennan ja muistin tehokkuuden suhteen. Tarkemmin sanottuna Vimin kerrotaan olevan 2.8 kertaa nopeampi kuin DeiT, mikä säästää jopa 86.8 % GPU-muistia korkearesoluutioisten kuvien eräpäättelyn aikana. ADE20K-tietojoukon semanttisissa segmentointitehtävissä Vim ylittää jatkuvasti DeiT:n eri mittakaavassa ja saavuttaa samanlaisen suorituskyvyn kuin ResNet-101-runkoverkossa lähes puolet parametreista​.

Lisäksi COCO 2017 -tietojoukon objektien tunnistus- ja ilmentymien segmentointitehtävissä Vim ylittää DeiT:n merkittävillä marginaaleilla, mikä osoittaa sen paremman pitkän kantaman kontekstin oppimiskyvyn​. Tämä suorituskyky on erityisen merkittävä, koska Vim toimii puhtaalla sekvenssimallinnustavalla ilman, että sen rungossa tarvitaan 2D-prioreja, mikä on yleinen vaatimus perinteisissä muuntajapohjaisissa lähestymistavoissa.

Vimin kaksisuuntainen tila-avaruusmallinnus ja laitteistotietoinen suunnittelu paitsi lisää sen laskennallista tehokkuutta, myös avaa uusia mahdollisuuksia sen soveltamiseen erilaisissa korkearesoluutioisissa visiotehtävissä. Vimin tulevaisuudennäkymiin kuuluu sen käyttö valvomattomissa tehtävissä, kuten maskikuvamallinnuksen esikoulutus, multimodaaliset tehtävät, kuten CLIP-tyylinen esikoulutus, sekä korkearesoluutioisten lääketieteellisten kuvien, kaukokartoituskuvien ja pitkien videoiden analysointi​.

Yhteenvetona voidaan todeta, että Vision Mamban innovatiivinen lähestymistapa merkitsee keskeistä edistystä tekoälynäkötekniikassa. Ylittämällä perinteisten näkömuuntajien rajoitukset, Vim on valmis tulemaan seuraavan sukupolven rungoksi monenlaisille näköpohjaisille tekoälysovelluksille.

Kuvalähde: Shutterstock

Aikaleima:

Lisää aiheesta Blockchain-uutiset