Vision Mamba: Ένα νέο παράδειγμα στο AI Vision με διαστημικά μοντέλα αμφίδρομης κατάστασης

Vision Mamba: Ένα νέο παράδειγμα στο AI Vision με διαστημικά μοντέλα αμφίδρομης κατάστασης

Vision Mamba: Ένα νέο παράδειγμα στο AI Vision με Διαστημικά Μοντέλα Αμφίδρομης Κατάστασης PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ο τομέας της τεχνητής νοημοσύνης (AI) και της μηχανικής μάθησης συνεχίζει να εξελίσσεται, με το Vision Mamba (Vim) να αναδεικνύεται ως ένα πρωτοποριακό έργο στον τομέα της όρασης AI. Πρόσφατα ο ακαδημαϊκός χαρτί Το «Vision Mamba- Efficient Visual Representation Learning with Bidirectional» εισάγει αυτήν την προσέγγιση στον τομέα της μηχανικής μάθησης. Αναπτύχθηκε με χρήση μοντέλων χώρου κατάστασης (SSM) με αποτελεσματικούς σχεδιασμούς με επίγνωση του υλικού, το Vim αντιπροσωπεύει ένα σημαντικό άλμα στην εκμάθηση οπτικής αναπαράστασης.

Το Vim αντιμετωπίζει την κρίσιμη πρόκληση της αποτελεσματικής αναπαράστασης οπτικών δεδομένων, μια εργασία που παραδοσιακά εξαρτιόταν από μηχανισμούς αυτοπροσοχής εντός των Vision Transformers (ViTs). Τα ViT, παρά την επιτυχία τους, αντιμετωπίζουν περιορισμούς στην επεξεργασία εικόνων υψηλής ανάλυσης λόγω περιορισμών ταχύτητας και χρήσης μνήμης​​. Το Vim, αντίθετα, χρησιμοποιεί αμφίδρομα μπλοκ Mamba που όχι μόνο παρέχουν ένα παγκόσμιο οπτικό πλαίσιο που εξαρτάται από δεδομένα αλλά επίσης ενσωματώνουν ενσωματώσεις θέσης για μια πιο λεπτή οπτική κατανόηση με επίγνωση της τοποθεσίας. Αυτή η προσέγγιση επιτρέπει στο Vim να επιτύχει υψηλότερη απόδοση σε βασικές εργασίες όπως η ταξινόμηση ImageNet, η ανίχνευση αντικειμένων COCO και η σημασιολογική τμηματοποίηση ADE20K, σε σύγκριση με καθιερωμένους μετασχηματιστές όρασης όπως ο DeiT​​.

Τα πειράματα που πραγματοποιήθηκαν με το Vim στο σύνολο δεδομένων ImageNet-1K, το οποίο περιέχει 1.28 εκατομμύρια εικόνες εκπαίδευσης σε 1000 κατηγορίες, καταδεικνύουν την υπεροχή του όσον αφορά την αποδοτικότητα υπολογισμού και μνήμης. Συγκεκριμένα, το Vim αναφέρεται ότι είναι 2.8 φορές ταχύτερο από το DeiT, εξοικονομώντας έως και 86.8% μνήμη GPU κατά την εξαγωγή συμπερασμάτων παρτίδας για εικόνες υψηλής ανάλυσης​​. Στις εργασίες σημασιολογικής τμηματοποίησης στο σύνολο δεδομένων ADE20K, το Vim ξεπερνά σταθερά το DeiT σε διαφορετικές κλίμακες, επιτυγχάνοντας παρόμοιες επιδόσεις με τον κορμό του ResNet-101 με σχεδόν τις μισές παραμέτρους​.

Επιπλέον, στις εργασίες ανίχνευσης αντικειμένων και τμηματοποίησης στιγμιότυπων στο σύνολο δεδομένων COCO 2017, το Vim ξεπερνά το DeiT με σημαντικά περιθώρια, επιδεικνύοντας την καλύτερη ικανότητα εκμάθησης περιβάλλοντος μακράς εμβέλειας​​. Αυτή η απόδοση είναι ιδιαίτερα αξιοσημείωτη καθώς το Vim λειτουργεί με έναν καθαρό τρόπο μοντελοποίησης ακολουθίας, χωρίς την ανάγκη για 2D priors στη ραχοκοκαλιά του, κάτι που είναι κοινή απαίτηση στις παραδοσιακές προσεγγίσεις που βασίζονται σε μετασχηματιστές.

Η αμφίδρομη μοντελοποίηση χώρου κατάστασης του Vim και ο σχεδιασμός με επίγνωση υλικού όχι μόνο ενισχύουν την υπολογιστική του απόδοση, αλλά ανοίγουν επίσης νέες δυνατότητες για την εφαρμογή του σε διάφορες εργασίες όρασης υψηλής ανάλυσης. Οι μελλοντικές προοπτικές για το Vim περιλαμβάνουν την εφαρμογή του σε εργασίες χωρίς επίβλεψη, όπως η προεκπαίδευση μοντελοποίησης εικόνων μάσκας, οι πολυτροπικές εργασίες όπως η προεκπαίδευση σε στυλ CLIP και η ανάλυση ιατρικών εικόνων υψηλής ανάλυσης, εικόνων τηλεπισκόπησης και βίντεο μεγάλης διάρκειας​​.

Συμπερασματικά, η καινοτόμος προσέγγιση του Vision Mamba σηματοδοτεί μια κομβική πρόοδο στην τεχνολογία όρασης AI. Ξεπερνώντας τους περιορισμούς των παραδοσιακών μετασχηματιστών όρασης, η Vim είναι έτοιμη να γίνει η ραχοκοκαλιά επόμενης γενιάς για ένα ευρύ φάσμα εφαρμογών τεχνητής νοημοσύνης που βασίζονται στην όραση.

Πηγή εικόνας: Shutterstock

Σφραγίδα ώρας:

Περισσότερα από Blockchain News