Ο τομέας της τεχνητής νοημοσύνης (AI) και της μηχανικής μάθησης συνεχίζει να εξελίσσεται, με το Vision Mamba (Vim) να αναδεικνύεται ως ένα πρωτοποριακό έργο στον τομέα της όρασης AI. Πρόσφατα ο ακαδημαϊκός χαρτί Το «Vision Mamba- Efficient Visual Representation Learning with Bidirectional» εισάγει αυτήν την προσέγγιση στον τομέα της μηχανικής μάθησης. Αναπτύχθηκε με χρήση μοντέλων χώρου κατάστασης (SSM) με αποτελεσματικούς σχεδιασμούς με επίγνωση του υλικού, το Vim αντιπροσωπεύει ένα σημαντικό άλμα στην εκμάθηση οπτικής αναπαράστασης.
Το Vim αντιμετωπίζει την κρίσιμη πρόκληση της αποτελεσματικής αναπαράστασης οπτικών δεδομένων, μια εργασία που παραδοσιακά εξαρτιόταν από μηχανισμούς αυτοπροσοχής εντός των Vision Transformers (ViTs). Τα ViT, παρά την επιτυχία τους, αντιμετωπίζουν περιορισμούς στην επεξεργασία εικόνων υψηλής ανάλυσης λόγω περιορισμών ταχύτητας και χρήσης μνήμης. Το Vim, αντίθετα, χρησιμοποιεί αμφίδρομα μπλοκ Mamba που όχι μόνο παρέχουν ένα παγκόσμιο οπτικό πλαίσιο που εξαρτάται από δεδομένα αλλά επίσης ενσωματώνουν ενσωματώσεις θέσης για μια πιο λεπτή οπτική κατανόηση με επίγνωση της τοποθεσίας. Αυτή η προσέγγιση επιτρέπει στο Vim να επιτύχει υψηλότερη απόδοση σε βασικές εργασίες όπως η ταξινόμηση ImageNet, η ανίχνευση αντικειμένων COCO και η σημασιολογική τμηματοποίηση ADE20K, σε σύγκριση με καθιερωμένους μετασχηματιστές όρασης όπως ο DeiT.
Τα πειράματα που πραγματοποιήθηκαν με το Vim στο σύνολο δεδομένων ImageNet-1K, το οποίο περιέχει 1.28 εκατομμύρια εικόνες εκπαίδευσης σε 1000 κατηγορίες, καταδεικνύουν την υπεροχή του όσον αφορά την αποδοτικότητα υπολογισμού και μνήμης. Συγκεκριμένα, το Vim αναφέρεται ότι είναι 2.8 φορές ταχύτερο από το DeiT, εξοικονομώντας έως και 86.8% μνήμη GPU κατά την εξαγωγή συμπερασμάτων παρτίδας για εικόνες υψηλής ανάλυσης. Στις εργασίες σημασιολογικής τμηματοποίησης στο σύνολο δεδομένων ADE20K, το Vim ξεπερνά σταθερά το DeiT σε διαφορετικές κλίμακες, επιτυγχάνοντας παρόμοιες επιδόσεις με τον κορμό του ResNet-101 με σχεδόν τις μισές παραμέτρους.
Επιπλέον, στις εργασίες ανίχνευσης αντικειμένων και τμηματοποίησης στιγμιότυπων στο σύνολο δεδομένων COCO 2017, το Vim ξεπερνά το DeiT με σημαντικά περιθώρια, επιδεικνύοντας την καλύτερη ικανότητα εκμάθησης περιβάλλοντος μακράς εμβέλειας. Αυτή η απόδοση είναι ιδιαίτερα αξιοσημείωτη καθώς το Vim λειτουργεί με έναν καθαρό τρόπο μοντελοποίησης ακολουθίας, χωρίς την ανάγκη για 2D priors στη ραχοκοκαλιά του, κάτι που είναι κοινή απαίτηση στις παραδοσιακές προσεγγίσεις που βασίζονται σε μετασχηματιστές.
Η αμφίδρομη μοντελοποίηση χώρου κατάστασης του Vim και ο σχεδιασμός με επίγνωση υλικού όχι μόνο ενισχύουν την υπολογιστική του απόδοση, αλλά ανοίγουν επίσης νέες δυνατότητες για την εφαρμογή του σε διάφορες εργασίες όρασης υψηλής ανάλυσης. Οι μελλοντικές προοπτικές για το Vim περιλαμβάνουν την εφαρμογή του σε εργασίες χωρίς επίβλεψη, όπως η προεκπαίδευση μοντελοποίησης εικόνων μάσκας, οι πολυτροπικές εργασίες όπως η προεκπαίδευση σε στυλ CLIP και η ανάλυση ιατρικών εικόνων υψηλής ανάλυσης, εικόνων τηλεπισκόπησης και βίντεο μεγάλης διάρκειας.
Συμπερασματικά, η καινοτόμος προσέγγιση του Vision Mamba σηματοδοτεί μια κομβική πρόοδο στην τεχνολογία όρασης AI. Ξεπερνώντας τους περιορισμούς των παραδοσιακών μετασχηματιστών όρασης, η Vim είναι έτοιμη να γίνει η ραχοκοκαλιά επόμενης γενιάς για ένα ευρύ φάσμα εφαρμογών τεχνητής νοημοσύνης που βασίζονται στην όραση.
Πηγή εικόνας: Shutterstock
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- :έχει
- :είναι
- :δεν
- $UP
- 1
- 2017
- 28
- 2D
- 8
- a
- ακαδημαϊκής
- Κατορθώνω
- την επίτευξη
- απέναντι
- διευθύνσεις
- προαγωγή
- AI
- Επίσης
- ανάλυση
- και
- Εφαρμογή
- εφαρμογές
- πλησιάζω
- προσεγγίσεις
- τεχνητός
- τεχνητή νοημοσύνη
- Τεχνητή νοημοσύνη (AI)
- AS
- Σπονδυλική στήλη
- BE
- γίνονται
- ήταν
- Καλύτερα
- blockchain
- Μπλοκ
- αλλά
- by
- κατηγορίες
- πρόκληση
- ταξινόμηση
- κακάο
- Κοινός
- σύγκριση
- υπολογιστική
- συμπέρασμα
- διενεργούνται
- με συνέπεια
- Περιέχει
- συμφραζόμενα
- συνεχίζεται
- αντίθεση
- κρίσιμης
- ημερομηνία
- αποδεικνύουν
- αποδεικνύοντας
- εξαρτώμενος
- Υπηρεσίες
- σχέδια
- Παρά
- Ανίχνευση
- διαφορετικές
- δυο
- κατά την διάρκεια
- αποδοτικότητα
- αποτελεσματικός
- αποτελεσματικά
- σμυριδόπετρα
- απασχολεί
- δίνει τη δυνατότητα
- ενίσχυση
- εγκατεστημένος
- εξελίσσονται
- πειράματα
- Πρόσωπο
- γρηγορότερα
- πεδίο
- Για
- μελλοντικός
- Παγκόσμιο
- GPU
- πρωτοποριακή
- Ήμισυ
- υψηλής ανάλυσης
- υψηλότερο
- HTTPS
- εικόνα
- εικόνες
- in
- περιλαμβάνουν
- ενσωματώνω
- καινοτόμες
- παράδειγμα
- Τμήμα κατάτμησης
- Νοημοσύνη
- Εισάγει
- ΤΟΥ
- jpg
- Κλειδί
- Πήδημα
- μάθηση
- Μου αρέσει
- περιορισμούς
- Μακριά
- μηχανή
- μάθηση μηχανής
- τρόπος
- περιθώρια
- μάσκα
- μηχανισμούς
- ιατρικών
- Μνήμη
- εκατομμύριο
- μοντελοποίηση
- μοντέλα
- περισσότερο
- σχεδόν
- Ανάγκη
- Νέα
- νέα
- επόμενη γενιά
- αξιοσημείωτο
- αντικείμενο
- Ανίχνευση αντικειμένων
- of
- on
- αποκλειστικά
- ανοίξτε
- λειτουργεί
- Υπερβαίνει
- υπέρβαση
- παράδειγμα
- ιδιαίτερα
- επίδοση
- πιλοτικές
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- έτοιμη
- θέση
- δυνατότητες
- μεταποίηση
- σχέδιο
- προοπτικές
- παρέχουν
- σειρά
- βασίλειο
- πρόσφατα
- μακρινός
- αναφέρθηκαν
- αντιπροσώπευση
- εκπροσωπούν
- αντιπροσωπεύει
- απαίτηση
- s
- οικονομία
- Ζυγός
- κατάτμηση
- σημασιολογικός
- Ακολουθία
- σημαντικός
- παρόμοιες
- Πηγή
- Χώρος
- ειδικά
- ταχύτητα
- στέκεται
- Κατάσταση
- επιτυχία
- τέτοιος
- ξεπερνάει
- Έργο
- εργασίες
- Τεχνολογία
- όροι
- από
- ότι
- Η
- τους
- αυτό
- φορές
- προς την
- παραδοσιακός
- παραδοσιακά
- Εκπαίδευση
- μετασχηματιστές
- κατανόηση
- Χρήση
- χρησιμοποιώντας
- διάφορα
- όραμα
- οπτικές
- Ποιό
- ευρύς
- Ευρύ φάσμα
- με
- εντός
- χωρίς
- zephyrnet