Vision Mamba: Çift Yönlü Durum Uzayı Modelleriyle Yapay Zeka Vizyonunda Yeni Bir Paradigma

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Vision Mamba: Çift Yönlü Durum Uzay Modelleriyle Yapay Zeka Vizyonunda Yeni Bir Paradigma PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yapay zeka (AI) ve makine öğrenimi alanı, AI vizyonu alanında çığır açan bir proje olarak ortaya çıkan Vision Mamba (Vim) ile gelişmeye devam ediyor. Son zamanlarda akademik kâğıt "Vision Mamba - Çift Yönlü Verimli Görsel Temsil Öğrenme", bu yaklaşımı makine öğrenimi alanına tanıtıyor. Verimli, donanıma duyarlı tasarımlarla durum alanı modelleri (SSM'ler) kullanılarak geliştirilen Vim, görsel temsil öğreniminde önemli bir sıçramayı temsil ediyor.

Vim, geleneksel olarak Vizyon Dönüştürücüleri (ViT'ler) içindeki kişisel dikkat mekanizmalarına bağlı olan bir görev olan görsel verileri verimli bir şekilde temsil etme konusundaki kritik zorluğu ele alıyor. ViT'ler, başarılarına rağmen hız ve bellek kullanımı kısıtlamaları nedeniyle yüksek çözünürlüklü görüntüleri işlemede sınırlamalarla karşı karşıyadır. Bunun aksine Vim, yalnızca veriye bağlı küresel bir görsel bağlam sağlamakla kalmayıp aynı zamanda daha incelikli, konuma duyarlı bir görsel anlayış için konum yerleştirmeleri de içeren çift yönlü Mamba bloklarını kullanır. Bu yaklaşım, Vim'in ImageNet sınıflandırması, COCO nesne algılaması ve ADE20K semantik segmentasyonu gibi önemli görevlerde DeiT gibi yerleşik görüntü transformatörlerine kıyasla daha yüksek performans elde etmesini sağlar.

Vim ile 1 kategoride 1.28 milyon eğitim görüntüsü içeren ImageNet-1000K veri seti üzerinde gerçekleştirilen deneyler, hesaplama ve bellek verimliliği açısından üstünlüğünü ortaya koyuyor. Spesifik olarak, Vim'in DeiT'den 2.8 kat daha hızlı olduğu ve yüksek çözünürlüklü görüntüler için toplu çıkarım sırasında %86.8'e kadar GPU belleği tasarrufu sağladığı bildiriliyor. ADE20K veri kümesindeki semantik segmentasyon görevlerinde Vim, farklı ölçeklerde sürekli olarak DeiT'den daha iyi performans göstererek, parametrelerin neredeyse yarısıyla ResNet-101 omurgasına benzer performans elde ediyor.

Ayrıca, COCO 2017 veri kümesindeki nesne algılama ve örnek bölümleme görevlerinde Vim, DeiT'i önemli farklarla geride bırakarak daha iyi uzun vadeli bağlam öğrenme yeteneğini ortaya koyuyor. Bu performans, Vim'in geleneksel transformatör tabanlı yaklaşımlarda ortak bir gereklilik olan omurgasında 2 boyutlu önceliklere ihtiyaç duymadan saf dizi modelleme tarzında çalıştığı için özellikle dikkat çekicidir.

Vim'in çift yönlü durum uzayı modellemesi ve donanıma duyarlı tasarımı, yalnızca hesaplama verimliliğini artırmakla kalmaz, aynı zamanda çeşitli yüksek çözünürlüklü görme görevlerinde uygulanması için yeni olanaklar da açar. Vim'in gelecekteki beklentileri arasında maske görüntü modelleme ön eğitimi gibi denetimsiz görevlerde uygulanması, CLIP tarzı ön eğitim gibi çok modlu görevler ve yüksek çözünürlüklü tıbbi görüntülerin, uzaktan algılama görüntülerinin ve uzun videoların analizi yer alıyor.

Sonuç olarak Vision Mamba'nın yenilikçi yaklaşımı, yapay zeka görüş teknolojisinde önemli bir ilerlemeye işaret ediyor. Geleneksel görüntü transformatörlerinin sınırlamalarının üstesinden gelen Vim, çok çeşitli görüntü tabanlı yapay zeka uygulamalarının yeni nesil omurgası olmaya hazırlanıyor.

Görüntü kaynağı: Shutterstock

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Zaman Damgası: Ocak 19, 2024

Zaman Damgası: Mar 5, 2023

Vision Mamba: Çift Yönlü Durum Uzayı Modelleriyle Yapay Zeka Vizyonunda Yeni Bir Paradigma

Plato tarafından yeniden yayınlandı

Den fazla Blockchain Haberleri

Ethereum Arzı 'Birleşmeden' Sonra Yavaşladı, Yatırım Anlatısını Sürdürecek mi?

TRON'un Kurucusu Justin Sun, Huobi Global'in Gerçek Alıcısı Olabilir: Kaynaklar

Bank of China Hong Kong, Digital RMB Sandbox Denemesini Tamamladı

Web3 Vakfı, DOT'un bir Güvenlik Değil, Bir Yazılım Parçası Olduğunu İddia Ediyor

MetaMask Snaps, Web3 Alanında Güvenliği ve Birlikte Çalışabilirliği Artırıyor

Bitcoin Visa'yı Tekrar Ters Çeviriyor

BitMEX Luna 2.0, ETH Marjı ve Ödeme Seçeneklerini Listeliyor

İngiltere Hazine Yetkilileri 1. Çeyrekte Kripto ve Girişim Sermayesi Şirketleriyle Buluştu: Kaynaklar

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap