A mesterséges intelligencia (AI) és a gépi tanulás területe folyamatosan fejlődik, és a Vision Mamba (Vim) úttörő projektként jelenik meg a mesterséges intelligencia-látás területén. Nemrég az akadémikus papír A „Vision Mamba – Hatékony vizuális ábrázolás tanulása kétirányú tanulással” bemutatja ezt a megközelítést a gépi tanulás területén. Az állapottér-modellek (SSM) és hatékony hardver-tudatos tervezések felhasználásával kifejlesztett Vim jelentős ugrást jelent a vizuális reprezentáció tanulásában.
A Vim a vizuális adatok hatékony megjelenítésének kritikus kihívásával foglalkozik, amely feladat hagyományosan a Vision Transformers (ViTs) önfigyelési mechanizmusaitól függ. Sikerük ellenére a ViT-ek korlátokkal szembesülnek a nagy felbontású képek feldolgozásakor a sebesség és a memóriahasználat korlátai miatt. Ezzel szemben a Vim kétirányú Mamba blokkokat alkalmaz, amelyek nemcsak adatfüggő globális vizuális kontextust biztosítanak, hanem pozícióbeágyazásokat is tartalmaznak az árnyaltabb, helytudatosabb vizuális megértéshez. Ez a megközelítés lehetővé teszi a Vimnek, hogy nagyobb teljesítményt érjen el az olyan kulcsfontosságú feladatokban, mint az ImageNet osztályozás, a COCO objektumészlelés és az ADE20K szemantikai szegmentálás, mint az olyan bevált látástranszformátorok, mint a DeiT.
A Vim-mel az ImageNet-1K adatkészleten végzett kísérletek, amely 1.28 millió edzésképet tartalmaz 1000 kategóriában, bizonyítják, hogy a Vim felülmúlja a számítási és memóriahatékonyságot. Pontosabban, a Vim a jelentések szerint 2.8-szor gyorsabb, mint a DeiT, így akár 86.8% GPU-memóriát takaríthat meg a nagy felbontású képek kötegelt kikövetkeztetése során. Az ADE20K adatkészlet szemantikai szegmentálási feladatai során a Vim folyamatosan felülmúlja a DeiT-t a különböző skálákon, és a ResNet-101 gerincéhez hasonló teljesítményt ér el a paraméterek közel felével.
Ezenkívül a COCO 2017 adatkészlet objektumészlelési és példányszegmentálási feladataiban a Vim jelentős előnnyel felülmúlja a DeiT-t, bizonyítva jobb hosszú távú kontextus tanulási képességét. Ez a teljesítmény különösen figyelemre méltó, mivel a Vim tiszta sorozatmodellezési módon működik, anélkül, hogy a gerincében 2D prioritásokra lenne szükség, ami általános követelmény a hagyományos transzformátor alapú megközelítésekben.
A Vim kétirányú állapottér-modellezése és hardver-tudatos tervezése nemcsak a számítási hatékonyságot növeli, hanem új lehetőségeket is nyit a különféle nagyfelbontású látási feladatokban való alkalmazásához. A Vim jövőbeli kilátásai közé tartozik az olyan felügyelt feladatokban való alkalmazása, mint a maszkos képmodellezés előképzése, a multimodális feladatok, például a CLIP-stílusú előképzés, valamint a nagy felbontású orvosi képek, távérzékelési képek és hosszú videók elemzése.
Összefoglalva, a Vision Mamba innovatív megközelítése kulcsfontosságú előrelépést jelent az AI látástechnológiában. A hagyományos képátalakítók korlátainak leküzdésével a Vim készen áll arra, hogy a látásalapú mesterséges intelligencia alkalmazások széles skálájának következő generációs gerincévé váljon.
Képforrás: Shutterstock
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- :van
- :is
- :nem
- $ UP
- 1
- 2017
- 28
- 2D
- 8
- a
- egyetemi
- Elérése
- elérése
- át
- címek
- haladás
- AI
- Is
- elemzés
- és a
- Alkalmazás
- alkalmazások
- megközelítés
- megközelít
- mesterséges
- mesterséges intelligencia
- Mesterséges intelligencia (AI)
- AS
- Hátgerinc
- BE
- válik
- óta
- Jobb
- blockchain
- Blocks
- de
- by
- kategóriák
- kihívás
- besorolás
- kókuszdió
- Közös
- képest
- számítási
- következtetés
- lefolytatott
- következetesen
- tartalmaz
- kontextus
- tovább
- kontraszt
- kritikai
- dátum
- bizonyítani
- bemutatását,
- függő
- Design
- tervek
- Ellenére
- Érzékelés
- különböző
- két
- alatt
- hatékonyság
- hatékony
- eredményesen
- csiszolókő
- alkalmaz
- lehetővé teszi
- növelése
- megalapozott
- fejlődik
- kísérletek
- Arc
- gyorsabb
- mező
- A
- jövő
- Globális
- GPU
- úttörő
- fél
- nagy felbontású
- <p></p>
- HTTPS
- kép
- képek
- in
- tartalmaz
- bele
- újító
- példa
- Példányszegmentálás
- Intelligencia
- Bemutatja
- ITS
- jpg
- Kulcs
- Ugrás
- tanulás
- mint
- korlátozások
- Hosszú
- gép
- gépi tanulás
- mód
- margók
- maszk
- mechanizmusok
- orvosi
- Memory design
- millió
- modellezés
- modellek
- több
- közel
- Szükség
- Új
- hír
- következő generációs
- figyelemre méltó
- tárgy
- Objektumfelismerés
- of
- on
- csak
- nyitva
- működik
- felülmúlja
- leküzdése
- paradigma
- különösen
- teljesítmény
- döntő
- Plató
- Platón adatintelligencia
- PlatoData
- lebeg
- pozíció
- lehetőségek
- feldolgozás
- program
- kilátások
- ad
- hatótávolság
- birodalom
- nemrég
- távoli
- Számolt
- képviselet
- képviselő
- jelentése
- követelmény
- s
- megtakarítás
- Mérleg
- szegmentáció
- szemantikus
- Sorozat
- jelentős
- hasonló
- forrás
- Hely
- kifejezetten
- sebesség
- állványok
- Állami
- siker
- ilyen
- felülmúlja
- Feladat
- feladatok
- Technológia
- feltételek
- mint
- hogy
- A
- azok
- ezt
- alkalommal
- nak nek
- hagyományos
- hagyományosan
- Képzések
- transzformerek
- megértés
- Használat
- segítségével
- különféle
- látomás
- vizuális
- ami
- széles
- Széleskörű
- val vel
- belül
- nélkül
- zephyrnet