Vision Mamba: Paradigma Baru dalam Visi AI dengan Model Ruang Negara Dua Arah

Vision Mamba: Paradigma Baru dalam Visi AI dengan Model Ruang Negara Dua Arah

Vision Mamba: Paradigma Baru dalam Visi AI dengan Model Ruang Negara Dua Arah Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Bidang kecerdasan buatan (AI) dan pembelajaran mesin terus berkembang, dengan Vision Mamba (Vim) muncul sebagai proyek terobosan dalam bidang visi AI. Baru-baru ini, akademisi kertas โ€œVision Mamba- Pembelajaran Representasi Visual yang Efisien dengan Dua Arahโ€ memperkenalkan pendekatan ini dalam bidang pembelajaran mesin. Dikembangkan menggunakan model ruang negara (SSM) dengan desain sadar perangkat keras yang efisien, Vim mewakili lompatan signifikan dalam pembelajaran representasi visual.

Vim mengatasi tantangan penting dalam merepresentasikan data visual secara efisien, sebuah tugas yang secara tradisional bergantung pada mekanisme perhatian diri dalam Vision Transformers (ViTs). ViT, meskipun sukses, menghadapi keterbatasan dalam memproses gambar resolusi tinggi karena keterbatasan kecepatan dan penggunaan memori. Sebaliknya, Vim menggunakan blok Mamba dua arah yang tidak hanya menyediakan konteks visual global yang bergantung pada data tetapi juga menggabungkan penyematan posisi untuk pemahaman visual yang lebih bernuansa dan sadar lokasi. Pendekatan ini memungkinkan Vim mencapai kinerja yang lebih tinggi pada tugas-tugas utama seperti klasifikasi ImageNet, deteksi objek COCO, dan segmentasi semantik ADE20K, dibandingkan dengan transformator visi yang sudah ada seperti DeiTโ€‹โ€‹.

Eksperimen yang dilakukan dengan Vim pada kumpulan data ImageNet-1K, yang berisi 1.28 juta gambar pelatihan di 1000 kategori, menunjukkan keunggulannya dalam hal efisiensi komputasi dan memori. Secara khusus, Vim dilaporkan 2.8 kali lebih cepat dibandingkan DeiT, menghemat hingga 86.8% memori GPU selama inferensi batch untuk gambar resolusi tinggi. Dalam tugas segmentasi semantik pada kumpulan data ADE20K, Vim secara konsisten mengungguli DeiT di berbagai skala, mencapai kinerja serupa dengan tulang punggung ResNet-101 dengan hampir setengah parameter.

Selain itu, dalam tugas deteksi objek dan segmentasi instans pada dataset COCO 2017, Vim melampaui DeiT dengan margin yang signifikan, menunjukkan kemampuan pembelajaran konteks jangka panjang yang lebih baik. Kinerja ini sangat penting karena Vim beroperasi dengan cara pemodelan urutan murni, tanpa memerlukan prior 2D di tulang punggungnya, yang merupakan persyaratan umum dalam pendekatan berbasis transformator tradisional.

Pemodelan ruang keadaan dua arah dan desain perangkat keras Vim tidak hanya meningkatkan efisiensi komputasi tetapi juga membuka kemungkinan baru untuk penerapannya dalam berbagai tugas visi resolusi tinggi. Prospek masa depan untuk Vim mencakup penerapannya dalam tugas-tugas tanpa pengawasan seperti pra-pelatihan pemodelan gambar topeng, tugas multimodal seperti pra-pelatihan gaya CLIP, dan analisis gambar medis resolusi tinggi, gambar penginderaan jauh, dan video panjang.

Kesimpulannya, pendekatan inovatif Vision Mamba menandai kemajuan penting dalam teknologi visi AI. Dengan mengatasi keterbatasan transformator visi tradisional, Vim siap menjadi tulang punggung generasi berikutnya untuk berbagai aplikasi AI berbasis visi.

Sumber gambar: Shutterstock

Stempel Waktu:

Lebih dari Berita Blockchain