Vision Mamba: O nouă paradigmă în AI Vision cu modele spațiale de stat bidirecționale

Vision Mamba: O nouă paradigmă în AI Vision cu modele spațiale de stat bidirecționale

Vision Mamba: O nouă paradigmă în AI Vision cu modele spațiale bidirecționale PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Domeniul inteligenței artificiale (AI) și al învățării automate continuă să evolueze, Vision Mamba (Vim) devenind un proiect revoluționar în domeniul viziunii AI. Recent, academicul hârtie „Vision Mamba- Învățarea eficientă a reprezentării vizuale cu bidirecțională” introduce această abordare în domeniul învățării automate. Dezvoltat utilizând modele spațiale de stat (SSM) cu design-uri eficiente de hardware, Vim reprezintă un salt semnificativ în învățarea reprezentării vizuale.

Vim abordează provocarea critică de a reprezenta eficient datele vizuale, o sarcină care a fost în mod tradițional dependentă de mecanismele de auto-atenție din cadrul Vision Transformers (ViTs). ViTs, în ciuda succesului lor, se confruntă cu limitări în procesarea imaginilor de înaltă rezoluție din cauza constrângerilor de viteză și de utilizare a memoriei. Vim, în schimb, folosește blocuri Mamba bidirecționale care nu numai că oferă un context vizual global dependent de date, ci și încorporează încorporarea poziției pentru o înțelegere vizuală mai nuanțată, conștientă de locație. Această abordare îi permite lui Vim să obțină performanțe mai mari în sarcinile cheie, cum ar fi clasificarea ImageNet, detectarea obiectelor COCO și segmentarea semantică ADE20K, în comparație cu transformatoarele de vedere consacrate precum DeiT.

Experimentele efectuate cu Vim pe setul de date ImageNet-1K, care conține 1.28 milioane de imagini de antrenament din 1000 de categorii, demonstrează superioritatea sa în ceea ce privește eficiența computațională și a memoriei. Mai exact, se raportează că Vim este de 2.8 ori mai rapid decât DeiT, economisind până la 86.8% memorie GPU în timpul inferenței în lot pentru imagini de înaltă rezoluție. În sarcinile de segmentare semantică pe setul de date ADE20K, Vim depășește în mod constant DeiT la diferite scale, realizând performanțe similare cu coloana vertebrală ResNet-101 cu aproape jumătate din parametri.

În plus, în sarcinile de detectare a obiectelor și de segmentare a instanțelor pe setul de date COCO 2017, Vim depășește DeiT cu marje semnificative, demonstrând capacitatea sa mai bună de învățare context pe termen lung. Această performanță este deosebit de notabilă deoarece Vim funcționează într-o manieră de modelare a secvenței pure, fără a fi nevoie de priorități 2D în coloana vertebrală, ceea ce este o cerință comună în abordările tradiționale bazate pe transformator.

Modelarea bidirecțională a spațiului de stare Vim și designul conștient de hardware nu numai că îi sporesc eficiența computațională, dar deschid și noi posibilități pentru aplicarea sa în diferite sarcini de viziune de înaltă rezoluție. Perspectivele viitoare pentru Vim includ aplicarea sa în sarcini nesupravegheate, cum ar fi preinstruirea pentru modelarea imaginilor cu măști, sarcini multimodale, cum ar fi preinstruirea în stil CLIP și analiza imaginilor medicale de înaltă rezoluție, imaginilor de teledetecție și videoclipuri lungi.

În concluzie, abordarea inovatoare a Vision Mamba marchează un progres esențial în tehnologia AI viziune. Depășind limitările transformatoarelor de viziune tradiționale, Vim este gata să devină coloana vertebrală de generație următoare pentru o gamă largă de aplicații AI bazate pe viziune.

Sursa imaginii: Shutterstock

Timestamp-ul:

Mai mult de la Știri Blockchain