Vision Mamba: Çift Yönlü Durum Uzayı Modelleriyle Yapay Zeka Vizyonunda Yeni Bir Paradigma

Vision Mamba: Çift Yönlü Durum Uzayı Modelleriyle Yapay Zeka Vizyonunda Yeni Bir Paradigma

Vision Mamba: Çift Yönlü Durum Uzay Modelleriyle Yapay Zeka Vizyonunda Yeni Bir Paradigma PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yapay zeka (AI) ve makine öğrenimi alanı, AI vizyonu alanında çığır açan bir proje olarak ortaya çıkan Vision Mamba (Vim) ile gelişmeye devam ediyor. Son zamanlarda akademik kâğıt "Vision Mamba - Çift Yönlü Verimli Görsel Temsil Öğrenme", bu yaklaşımı makine öğrenimi alanına tanıtıyor. Verimli, donanıma duyarlı tasarımlarla durum alanı modelleri (SSM'ler) kullanılarak geliştirilen Vim, görsel temsil öğreniminde önemli bir sıçramayı temsil ediyor.

Vim, geleneksel olarak Vizyon Dönüştürücüleri (ViT'ler) içindeki kişisel dikkat mekanizmalarına bağlı olan bir görev olan görsel verileri verimli bir şekilde temsil etme konusundaki kritik zorluğu ele alıyor. ViT'ler, başarılarına rağmen hız ve bellek kullanımı kısıtlamaları nedeniyle yüksek çözünürlüklü görüntüleri işlemede sınırlamalarla karşı karşıyadır. Bunun aksine Vim, yalnızca veriye bağlı küresel bir görsel bağlam sağlamakla kalmayıp aynı zamanda daha incelikli, konuma duyarlı bir görsel anlayış için konum yerleştirmeleri de içeren çift yönlü Mamba bloklarını kullanır. Bu yaklaşım, Vim'in ImageNet sınıflandırması, COCO nesne algılaması ve ADE20K semantik segmentasyonu gibi önemli görevlerde DeiT gibi yerleşik görüntü transformatörlerine kıyasla daha yüksek performans elde etmesini sağlar.

Vim ile 1 kategoride 1.28 milyon eğitim görüntüsü içeren ImageNet-1000K veri seti üzerinde gerçekleştirilen deneyler, hesaplama ve bellek verimliliği açısından üstünlüğünü ortaya koyuyor. Spesifik olarak, Vim'in DeiT'den 2.8 kat daha hızlı olduğu ve yüksek çözünürlüklü görüntüler için toplu çıkarım sırasında %86.8'e kadar GPU belleği tasarrufu sağladığı bildiriliyor. ADE20K veri kümesindeki semantik segmentasyon görevlerinde Vim, farklı ölçeklerde sürekli olarak DeiT'den daha iyi performans göstererek, parametrelerin neredeyse yarısıyla ResNet-101 omurgasına benzer performans elde ediyor.

Ayrıca, COCO 2017 veri kümesindeki nesne algılama ve örnek bölümleme görevlerinde Vim, DeiT'i önemli farklarla geride bırakarak daha iyi uzun vadeli bağlam öğrenme yeteneğini ortaya koyuyor. Bu performans, Vim'in geleneksel transformatör tabanlı yaklaşımlarda ortak bir gereklilik olan omurgasında 2 boyutlu önceliklere ihtiyaç duymadan saf dizi modelleme tarzında çalıştığı için özellikle dikkat çekicidir.

Vim'in çift yönlü durum uzayı modellemesi ve donanıma duyarlı tasarımı, yalnızca hesaplama verimliliğini artırmakla kalmaz, aynı zamanda çeşitli yüksek çözünürlüklü görme görevlerinde uygulanması için yeni olanaklar da açar. Vim'in gelecekteki beklentileri arasında maske görüntü modelleme ön eğitimi gibi denetimsiz görevlerde uygulanması, CLIP tarzı ön eğitim gibi çok modlu görevler ve yüksek çözünürlüklü tıbbi görüntülerin, uzaktan algılama görüntülerinin ve uzun videoların analizi yer alıyor.

Sonuç olarak Vision Mamba'nın yenilikçi yaklaşımı, yapay zeka görüş teknolojisinde önemli bir ilerlemeye işaret ediyor. Geleneksel görüntü transformatörlerinin sınırlamalarının üstesinden gelen Vim, çok çeşitli görüntü tabanlı yapay zeka uygulamalarının yeni nesil omurgası olmaya hazırlanıyor.

Görüntü kaynağı: Shutterstock

Zaman Damgası:

Den fazla Blockchain Haberleri