Vision Mamba: Paradigma Baru Dalam Visi AI Dengan Model Ruang Negara Dua Arah

Diterbitkan Ulang Oleh Plato

Followers: 0

Vision Mamba: Paradigma Baru dalam Visi AI dengan Model Ruang Negara Dua Arah Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Bidang kecerdasan buatan (AI) dan pembelajaran mesin terus berkembang, dengan Vision Mamba (Vim) muncul sebagai proyek terobosan dalam bidang visi AI. Baru-baru ini, akademisi kertas “Vision Mamba- Pembelajaran Representasi Visual yang Efisien dengan Dua Arah” memperkenalkan pendekatan ini dalam bidang pembelajaran mesin. Dikembangkan menggunakan model ruang negara (SSM) dengan desain sadar perangkat keras yang efisien, Vim mewakili lompatan signifikan dalam pembelajaran representasi visual.

Vim mengatasi tantangan penting dalam merepresentasikan data visual secara efisien, sebuah tugas yang secara tradisional bergantung pada mekanisme perhatian diri dalam Vision Transformers (ViTs). ViT, meskipun sukses, menghadapi keterbatasan dalam memproses gambar resolusi tinggi karena keterbatasan kecepatan dan penggunaan memori. Sebaliknya, Vim menggunakan blok Mamba dua arah yang tidak hanya menyediakan konteks visual global yang bergantung pada data tetapi juga menggabungkan penyematan posisi untuk pemahaman visual yang lebih bernuansa dan sadar lokasi. Pendekatan ini memungkinkan Vim mencapai kinerja yang lebih tinggi pada tugas-tugas utama seperti klasifikasi ImageNet, deteksi objek COCO, dan segmentasi semantik ADE20K, dibandingkan dengan transformator visi yang sudah ada seperti DeiT.

Eksperimen yang dilakukan dengan Vim pada kumpulan data ImageNet-1K, yang berisi 1.28 juta gambar pelatihan di 1000 kategori, menunjukkan keunggulannya dalam hal efisiensi komputasi dan memori. Secara khusus, Vim dilaporkan 2.8 kali lebih cepat dibandingkan DeiT, menghemat hingga 86.8% memori GPU selama inferensi batch untuk gambar resolusi tinggi. Dalam tugas segmentasi semantik pada kumpulan data ADE20K, Vim secara konsisten mengungguli DeiT di berbagai skala, mencapai kinerja serupa dengan tulang punggung ResNet-101 dengan hampir setengah parameter.

Selain itu, dalam tugas deteksi objek dan segmentasi instans pada dataset COCO 2017, Vim melampaui DeiT dengan margin yang signifikan, menunjukkan kemampuan pembelajaran konteks jangka panjang yang lebih baik. Kinerja ini sangat penting karena Vim beroperasi dengan cara pemodelan urutan murni, tanpa memerlukan prior 2D di tulang punggungnya, yang merupakan persyaratan umum dalam pendekatan berbasis transformator tradisional.

Pemodelan ruang keadaan dua arah dan desain perangkat keras Vim tidak hanya meningkatkan efisiensi komputasi tetapi juga membuka kemungkinan baru untuk penerapannya dalam berbagai tugas visi resolusi tinggi. Prospek masa depan untuk Vim mencakup penerapannya dalam tugas-tugas tanpa pengawasan seperti pra-pelatihan pemodelan gambar topeng, tugas multimodal seperti pra-pelatihan gaya CLIP, dan analisis gambar medis resolusi tinggi, gambar penginderaan jauh, dan video panjang.

Kesimpulannya, pendekatan inovatif Vision Mamba menandai kemajuan penting dalam teknologi visi AI. Dengan mengatasi keterbatasan transformator visi tradisional, Vim siap menjadi tulang punggung generasi berikutnya untuk berbagai aplikasi AI berbasis visi.

Sumber gambar: Shutterstock

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Stempel Waktu: Januari 19, 2024

Stempel Waktu: Oktober 2, 2022

Vision Mamba: Paradigma Baru dalam Visi AI dengan Model Ruang Negara Dua Arah

Diterbitkan Ulang Oleh Plato

Lebih dari Berita Blockchain

CEO Binance Membahas Ekosistem Crypto dengan Pejabat Turki

WEF Luncurkan Koalisi Hadapi Perubahan Iklim melalui Web3.0

Polisi Nigeria Menangkap Politisi Wilfred Bonse karena Terlibat dalam Penipuan Keuangan Patricia Technologies

Elon Musk Maju dengan Rencana AI untuk Twitter

MIT Melihat PoS Ethereum sebagai Teknologi Pengubah Game

Coinbase Bermitra dengan Chainlink Labs untuk Meluncurkan Layanan NFT Floor Price

Decima Fund Mendapatkan 4.5 Miliar Yen untuk Mendukung Usaha Web3 di Jepang

California Cannabis Grower Menggunakan Blockchain Untuk Pelacakan

Laporan Ripple: Pembayaran Kripto untuk Menghemat $10 Miliar, Mempercepat Transaksi pada tahun 2030

OpenSea Secara Singkat Menghapus Beberapa NFT Azuki Karena Kesalahan Teknis

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun