Vision Mamba: A New Paradigm In AI Vision With Bidirectional State Space Models

Újra kiadta Platón

Követő: 0

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

The field of artificial intelligence (AI) and machine learning continues to evolve, with Vision Mamba (Vim) emerging as a groundbreaking project in the realm of AI vision. Recently, the academic papír “Vision Mamba- Efficient Visual Representation Learning with Bidirectional” introduces this approach in the realm of machine learning. Az állapottér-modellek (SSM) és hatékony hardver-tudatos tervezések felhasználásával kifejlesztett Vim jelentős ugrást jelent a vizuális reprezentáció tanulásában.

A Vim a vizuális adatok hatékony megjelenítésének kritikus kihívásával foglalkozik, amely feladat hagyományosan a Vision Transformers (ViTs) önfigyelési mechanizmusaitól függ. Sikerük ellenére a ViT-ek korlátokkal szembesülnek a nagy felbontású képek feldolgozásakor a sebesség és a memóriahasználat korlátai miatt. Ezzel szemben a Vim kétirányú Mamba blokkokat alkalmaz, amelyek nemcsak adatfüggő globális vizuális kontextust biztosítanak, hanem pozícióbeágyazásokat is tartalmaznak az árnyaltabb, helytudatosabb vizuális megértéshez. Ez a megközelítés lehetővé teszi a Vimnek, hogy nagyobb teljesítményt érjen el az olyan kulcsfontosságú feladatokban, mint az ImageNet osztályozás, a COCO objektumészlelés és az ADE20K szemantikai szegmentálás, mint az olyan bevált látástranszformátorok, mint a DeiT.

A Vim-mel az ImageNet-1K adatkészleten végzett kísérletek, amely 1.28 millió edzésképet tartalmaz 1000 kategóriában, bizonyítják, hogy a Vim felülmúlja a számítási és memóriahatékonyságot. Pontosabban, a Vim a jelentések szerint 2.8-szor gyorsabb, mint a DeiT, így akár 86.8% GPU-memóriát takaríthat meg a nagy felbontású képek kötegelt kikövetkeztetése során. Az ADE20K adatkészlet szemantikai szegmentálási feladatai során a Vim folyamatosan felülmúlja a DeiT-t a különböző skálákon, és a ResNet-101 gerincéhez hasonló teljesítményt ér el a paraméterek közel felével.

Ezenkívül a COCO 2017 adatkészlet objektumészlelési és példányszegmentálási feladataiban a Vim jelentős előnnyel felülmúlja a DeiT-t, bizonyítva jobb hosszú távú kontextus tanulási képességét. Ez a teljesítmény különösen figyelemre méltó, mivel a Vim tiszta sorozatmodellezési módon működik, anélkül, hogy a gerincében 2D prioritásokra lenne szükség, ami általános követelmény a hagyományos transzformátor alapú megközelítésekben.

A Vim kétirányú állapottér-modellezése és hardver-tudatos tervezése nemcsak a számítási hatékonyságot növeli, hanem új lehetőségeket is nyit a különféle nagyfelbontású látási feladatokban való alkalmazásához. A Vim jövőbeli kilátásai közé tartozik az olyan felügyelt feladatokban való alkalmazása, mint a maszkos képmodellezés előképzése, a multimodális feladatok, például a CLIP-stílusú előképzés, valamint a nagy felbontású orvosi képek, távérzékelési képek és hosszú videók elemzése.

Összefoglalva, a Vision Mamba innovatív megközelítése kulcsfontosságú előrelépést jelent az AI látástechnológiában. A hagyományos képátalakítók korlátainak leküzdésével a Vim készen áll arra, hogy a látásalapú mesterséges intelligencia alkalmazások széles skálájának következő generációs gerincévé váljon.

Képforrás: Shutterstock

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Időbélyeg: Január 19, 2024

Időbélyeg: 2. október 2022.

Vision Mamba: Új paradigma a mesterséges intelligencia látásmódjában kétirányú állapotűrmodellekkel

Újra kiadta Platón

Még több Blockchain News

A Binance vezérigazgatója a kriptográfiai ökoszisztémáról tárgyal a török tisztviselőkkel

A WEF koalíciót indít az éghajlatváltozás kezelésére a Web3.0 segítségével

A nigériai rendőrség letartóztatta Wilfred Bonse politikust, mert részt vett a Patricia Technologies pénzügyi csalásában

Elon Musk előrelép a Twitter AI-terveivel

Az MIT az Ethereum PoS-ját játékmódosító technológiának tekinti

A Coinbase együttműködik a Chainlink Labs-szal az NFT Floor Price Service elindítása érdekében

A Decima Alap 4.5 milliárd jent biztosít a japán Web3 Ventures támogatására

Kaliforniai kannabisztermesztő blokkláncot használ a követéshez

Ripple jelentés: kriptofizetéssel 10 milliárd dollárt takaríthat meg, felgyorsíthatja a tranzakciókat 2030-ra

Az OpenSea rövid időre eltávolított néhány Azuki NFT-t technikai hiba miatt

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók