Vision Mamba: Új paradigma az AI-vízióban kétirányú állapotűrmodellekkel

Újra kiadta Platón

Követő: 0

Vision Mamba: Új paradigma a mesterséges intelligencia-látásban kétirányú állapotűrmodellekkel, PlatoBlockchain adatintelligenciával. Függőleges keresés. Ai.

A mesterséges intelligencia (AI) és a gépi tanulás területe folyamatosan fejlődik, és a Vision Mamba (Vim) úttörő projektként jelenik meg a mesterséges intelligencia-látás területén. Nemrég az akadémikus papír A „Vision Mamba – Hatékony vizuális ábrázolás tanulása kétirányú tanulással” bemutatja ezt a megközelítést a gépi tanulás területén. Az állapottér-modellek (SSM) és hatékony hardver-tudatos tervezések felhasználásával kifejlesztett Vim jelentős ugrást jelent a vizuális reprezentáció tanulásában.

A Vim a vizuális adatok hatékony megjelenítésének kritikus kihívásával foglalkozik, amely feladat hagyományosan a Vision Transformers (ViTs) önfigyelési mechanizmusaitól függ. Sikerük ellenére a ViT-ek korlátokkal szembesülnek a nagy felbontású képek feldolgozásakor a sebesség és a memóriahasználat korlátai miatt. Ezzel szemben a Vim kétirányú Mamba blokkokat alkalmaz, amelyek nemcsak adatfüggő globális vizuális kontextust biztosítanak, hanem pozícióbeágyazásokat is tartalmaznak az árnyaltabb, helytudatosabb vizuális megértéshez. Ez a megközelítés lehetővé teszi a Vimnek, hogy nagyobb teljesítményt érjen el az olyan kulcsfontosságú feladatokban, mint az ImageNet osztályozás, a COCO objektumészlelés és az ADE20K szemantikai szegmentálás, mint az olyan bevált látástranszformátorok, mint a DeiT.

A Vim-mel az ImageNet-1K adatkészleten végzett kísérletek, amely 1.28 millió edzésképet tartalmaz 1000 kategóriában, bizonyítják, hogy a Vim felülmúlja a számítási és memóriahatékonyságot. Pontosabban, a Vim a jelentések szerint 2.8-szor gyorsabb, mint a DeiT, így akár 86.8% GPU-memóriát takaríthat meg a nagy felbontású képek kötegelt kikövetkeztetése során. Az ADE20K adatkészlet szemantikai szegmentálási feladatai során a Vim folyamatosan felülmúlja a DeiT-t a különböző skálákon, és a ResNet-101 gerincéhez hasonló teljesítményt ér el a paraméterek közel felével.

Ezenkívül a COCO 2017 adatkészlet objektumészlelési és példányszegmentálási feladataiban a Vim jelentős előnnyel felülmúlja a DeiT-t, bizonyítva jobb hosszú távú kontextus tanulási képességét. Ez a teljesítmény különösen figyelemre méltó, mivel a Vim tiszta sorozatmodellezési módon működik, anélkül, hogy a gerincében 2D prioritásokra lenne szükség, ami általános követelmény a hagyományos transzformátor alapú megközelítésekben.

A Vim kétirányú állapottér-modellezése és hardver-tudatos tervezése nemcsak a számítási hatékonyságot növeli, hanem új lehetőségeket is nyit a különféle nagyfelbontású látási feladatokban való alkalmazásához. A Vim jövőbeli kilátásai közé tartozik az olyan felügyelt feladatokban való alkalmazása, mint a maszkos képmodellezés előképzése, a multimodális feladatok, például a CLIP-stílusú előképzés, valamint a nagy felbontású orvosi képek, távérzékelési képek és hosszú videók elemzése.

Összefoglalva, a Vision Mamba innovatív megközelítése kulcsfontosságú előrelépést jelent az AI látástechnológiában. A hagyományos képátalakítók korlátainak leküzdésével a Vim készen áll arra, hogy a látásalapú mesterséges intelligencia alkalmazások széles skálájának következő generációs gerincévé váljon.

Képforrás: Shutterstock

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Időbélyeg: Január 19, 2024

Időbélyeg: 5. március 2023.

Vision Mamba: Új paradigma a mesterséges intelligencia látásmódjában kétirányú állapotűrmodellekkel

Újra kiadta Platón

Még több Blockchain News

Az Ethereum kínálata lelassult az „összevonás” után, ösztönözni fogja a befektetési narratívát?

A TRON alapítója, Justin Sun a Huobi Global igazi felvásárlója lehet: Források

A Bank of China Hong Kong befejezte a digitális RMB Sandbox próbaverzióját

A Web3 Foundation azt állítja, hogy a DOT szoftver, és nem biztonság

A MetaMask Snaps fokozza a biztonságot és az együttműködési képességet a Web3 Space-ben

A Bitcoin újra feldobja a Visat

A BitMEX felsorolja a Luna 2.0-t, az ETH árrést és az elszámolási opciókat

Az Egyesült Királyság pénzügyminisztériuma tisztviselői találkoztak kriptográfiai és kockázatitőke-cégekkel az első negyedévben: Források

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók