Vision Mamba: Új paradigma a mesterséges intelligencia látásmódjában kétirányú állapotűrmodellekkel

Vision Mamba: Új paradigma a mesterséges intelligencia látásmódjában kétirányú állapotűrmodellekkel

Vision Mamba: Új paradigma a mesterséges intelligencia-látásban kétirányú állapotűrmodellekkel, PlatoBlockchain adatintelligenciával. Függőleges keresés. Ai.

A mesterséges intelligencia (AI) és a gépi tanulás területe folyamatosan fejlődik, és a Vision Mamba (Vim) úttörő projektként jelenik meg a mesterséges intelligencia-látás területén. Nemrég az akadémikus papír A „Vision Mamba – Hatékony vizuális ábrázolás tanulása kétirányú tanulással” bemutatja ezt a megközelítést a gépi tanulás területén. Az állapottér-modellek (SSM) és hatékony hardver-tudatos tervezések felhasználásával kifejlesztett Vim jelentős ugrást jelent a vizuális reprezentáció tanulásában.

A Vim a vizuális adatok hatékony megjelenítésének kritikus kihívásával foglalkozik, amely feladat hagyományosan a Vision Transformers (ViTs) önfigyelési mechanizmusaitól függ. Sikerük ellenére a ViT-ek korlátokkal szembesülnek a nagy felbontású képek feldolgozásakor a sebesség és a memóriahasználat korlátai miatt. Ezzel szemben a Vim kétirányú Mamba blokkokat alkalmaz, amelyek nemcsak adatfüggő globális vizuális kontextust biztosítanak, hanem pozícióbeágyazásokat is tartalmaznak az árnyaltabb, helytudatosabb vizuális megértéshez. Ez a megközelítés lehetővé teszi a Vimnek, hogy nagyobb teljesítményt érjen el az olyan kulcsfontosságú feladatokban, mint az ImageNet osztályozás, a COCO objektumészlelés és az ADE20K szemantikai szegmentálás, mint az olyan bevált látástranszformátorok, mint a DeiT.

A Vim-mel az ImageNet-1K adatkészleten végzett kísérletek, amely 1.28 millió edzésképet tartalmaz 1000 kategóriában, bizonyítják, hogy a Vim felülmúlja a számítási és memóriahatékonyságot. Pontosabban, a Vim a jelentések szerint 2.8-szor gyorsabb, mint a DeiT, így akár 86.8% GPU-memóriát takaríthat meg a nagy felbontású képek kötegelt kikövetkeztetése során. Az ADE20K adatkészlet szemantikai szegmentálási feladatai során a Vim folyamatosan felülmúlja a DeiT-t a különböző skálákon, és a ResNet-101 gerincéhez hasonló teljesítményt ér el a paraméterek közel felével.

Ezenkívül a COCO 2017 adatkészlet objektumészlelési és példányszegmentálási feladataiban a Vim jelentős előnnyel felülmúlja a DeiT-t, bizonyítva jobb hosszú távú kontextus tanulási képességét​. Ez a teljesítmény különösen figyelemre méltó, mivel a Vim tiszta sorozatmodellezési módon működik, anélkül, hogy a gerincében 2D prioritásokra lenne szükség, ami általános követelmény a hagyományos transzformátor alapú megközelítésekben.

A Vim kétirányú állapottér-modellezése és hardver-tudatos tervezése nemcsak a számítási hatékonyságot növeli, hanem új lehetőségeket is nyit a különféle nagyfelbontású látási feladatokban való alkalmazásához. A Vim jövőbeli kilátásai közé tartozik az olyan felügyelt feladatokban való alkalmazása, mint a maszkos képmodellezés előképzése, a multimodális feladatok, például a CLIP-stílusú előképzés, valamint a nagy felbontású orvosi képek, távérzékelési képek és hosszú videók elemzése.

Összefoglalva, a Vision Mamba innovatív megközelítése kulcsfontosságú előrelépést jelent az AI látástechnológiában. A hagyományos képátalakítók korlátainak leküzdésével a Vim készen áll arra, hogy a látásalapú mesterséges intelligencia alkalmazások széles skálájának következő generációs gerincévé váljon.

Képforrás: Shutterstock

Időbélyeg:

Még több Blockchain News