Vision Mamba: Új paradigma a mesterséges intelligencia látásmódjában kétirányú állapotűrmodellekkel

Vision Mamba: Új paradigma a mesterséges intelligencia látásmódjában kétirányú állapotűrmodellekkel

Vision Mamba: A New Paradigm in AI Vision with Bidirectional State Space Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

The field of artificial intelligence (AI) and machine learning continues to evolve, with Vision Mamba (Vim) emerging as a groundbreaking project in the realm of AI vision. Recently, the academic papír “Vision Mamba- Efficient Visual Representation Learning with Bidirectional” introduces this approach in the realm of machine learning. Az állapottér-modellek (SSM) és hatékony hardver-tudatos tervezések felhasználásával kifejlesztett Vim jelentős ugrást jelent a vizuális reprezentáció tanulásában.

A Vim a vizuális adatok hatékony megjelenítésének kritikus kihívásával foglalkozik, amely feladat hagyományosan a Vision Transformers (ViTs) önfigyelési mechanizmusaitól függ. Sikerük ellenére a ViT-ek korlátokkal szembesülnek a nagy felbontású képek feldolgozásakor a sebesség és a memóriahasználat korlátai miatt. Ezzel szemben a Vim kétirányú Mamba blokkokat alkalmaz, amelyek nemcsak adatfüggő globális vizuális kontextust biztosítanak, hanem pozícióbeágyazásokat is tartalmaznak az árnyaltabb, helytudatosabb vizuális megértéshez. Ez a megközelítés lehetővé teszi a Vimnek, hogy nagyobb teljesítményt érjen el az olyan kulcsfontosságú feladatokban, mint az ImageNet osztályozás, a COCO objektumészlelés és az ADE20K szemantikai szegmentálás, mint az olyan bevált látástranszformátorok, mint a DeiT.

A Vim-mel az ImageNet-1K adatkészleten végzett kísérletek, amely 1.28 millió edzésképet tartalmaz 1000 kategóriában, bizonyítják, hogy a Vim felülmúlja a számítási és memóriahatékonyságot. Pontosabban, a Vim a jelentések szerint 2.8-szor gyorsabb, mint a DeiT, így akár 86.8% GPU-memóriát takaríthat meg a nagy felbontású képek kötegelt kikövetkeztetése során. Az ADE20K adatkészlet szemantikai szegmentálási feladatai során a Vim folyamatosan felülmúlja a DeiT-t a különböző skálákon, és a ResNet-101 gerincéhez hasonló teljesítményt ér el a paraméterek közel felével.

Ezenkívül a COCO 2017 adatkészlet objektumészlelési és példányszegmentálási feladataiban a Vim jelentős előnnyel felülmúlja a DeiT-t, bizonyítva jobb hosszú távú kontextus tanulási képességét​. Ez a teljesítmény különösen figyelemre méltó, mivel a Vim tiszta sorozatmodellezési módon működik, anélkül, hogy a gerincében 2D prioritásokra lenne szükség, ami általános követelmény a hagyományos transzformátor alapú megközelítésekben.

A Vim kétirányú állapottér-modellezése és hardver-tudatos tervezése nemcsak a számítási hatékonyságot növeli, hanem új lehetőségeket is nyit a különféle nagyfelbontású látási feladatokban való alkalmazásához. A Vim jövőbeli kilátásai közé tartozik az olyan felügyelt feladatokban való alkalmazása, mint a maszkos képmodellezés előképzése, a multimodális feladatok, például a CLIP-stílusú előképzés, valamint a nagy felbontású orvosi képek, távérzékelési képek és hosszú videók elemzése.

Összefoglalva, a Vision Mamba innovatív megközelítése kulcsfontosságú előrelépést jelent az AI látástechnológiában. A hagyományos képátalakítók korlátainak leküzdésével a Vim készen áll arra, hogy a látásalapú mesterséges intelligencia alkalmazások széles skálájának következő generációs gerincévé váljon.

Képforrás: Shutterstock

Időbélyeg:

Még több Blockchain News