Vision Mamba: Ένα νέο παράδειγμα στο όραμα AI με διαστημικά μοντέλα αμφίδρομης κατάστασης

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Vision Mamba: Ένα νέο παράδειγμα στο AI Vision με Διαστημικά Μοντέλα Αμφίδρομης Κατάστασης PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ο τομέας της τεχνητής νοημοσύνης (AI) και της μηχανικής μάθησης συνεχίζει να εξελίσσεται, με το Vision Mamba (Vim) να αναδεικνύεται ως ένα πρωτοποριακό έργο στον τομέα της όρασης AI. Πρόσφατα ο ακαδημαϊκός χαρτί Το «Vision Mamba- Efficient Visual Representation Learning with Bidirectional» εισάγει αυτήν την προσέγγιση στον τομέα της μηχανικής μάθησης. Αναπτύχθηκε με χρήση μοντέλων χώρου κατάστασης (SSM) με αποτελεσματικούς σχεδιασμούς με επίγνωση του υλικού, το Vim αντιπροσωπεύει ένα σημαντικό άλμα στην εκμάθηση οπτικής αναπαράστασης.

Το Vim αντιμετωπίζει την κρίσιμη πρόκληση της αποτελεσματικής αναπαράστασης οπτικών δεδομένων, μια εργασία που παραδοσιακά εξαρτιόταν από μηχανισμούς αυτοπροσοχής εντός των Vision Transformers (ViTs). Τα ViT, παρά την επιτυχία τους, αντιμετωπίζουν περιορισμούς στην επεξεργασία εικόνων υψηλής ανάλυσης λόγω περιορισμών ταχύτητας και χρήσης μνήμης. Το Vim, αντίθετα, χρησιμοποιεί αμφίδρομα μπλοκ Mamba που όχι μόνο παρέχουν ένα παγκόσμιο οπτικό πλαίσιο που εξαρτάται από δεδομένα αλλά επίσης ενσωματώνουν ενσωματώσεις θέσης για μια πιο λεπτή οπτική κατανόηση με επίγνωση της τοποθεσίας. Αυτή η προσέγγιση επιτρέπει στο Vim να επιτύχει υψηλότερη απόδοση σε βασικές εργασίες όπως η ταξινόμηση ImageNet, η ανίχνευση αντικειμένων COCO και η σημασιολογική τμηματοποίηση ADE20K, σε σύγκριση με καθιερωμένους μετασχηματιστές όρασης όπως ο DeiT.

Τα πειράματα που πραγματοποιήθηκαν με το Vim στο σύνολο δεδομένων ImageNet-1K, το οποίο περιέχει 1.28 εκατομμύρια εικόνες εκπαίδευσης σε 1000 κατηγορίες, καταδεικνύουν την υπεροχή του όσον αφορά την αποδοτικότητα υπολογισμού και μνήμης. Συγκεκριμένα, το Vim αναφέρεται ότι είναι 2.8 φορές ταχύτερο από το DeiT, εξοικονομώντας έως και 86.8% μνήμη GPU κατά την εξαγωγή συμπερασμάτων παρτίδας για εικόνες υψηλής ανάλυσης. Στις εργασίες σημασιολογικής τμηματοποίησης στο σύνολο δεδομένων ADE20K, το Vim ξεπερνά σταθερά το DeiT σε διαφορετικές κλίμακες, επιτυγχάνοντας παρόμοιες επιδόσεις με τον κορμό του ResNet-101 με σχεδόν τις μισές παραμέτρους.

Επιπλέον, στις εργασίες ανίχνευσης αντικειμένων και τμηματοποίησης στιγμιότυπων στο σύνολο δεδομένων COCO 2017, το Vim ξεπερνά το DeiT με σημαντικά περιθώρια, επιδεικνύοντας την καλύτερη ικανότητα εκμάθησης περιβάλλοντος μακράς εμβέλειας. Αυτή η απόδοση είναι ιδιαίτερα αξιοσημείωτη καθώς το Vim λειτουργεί με έναν καθαρό τρόπο μοντελοποίησης ακολουθίας, χωρίς την ανάγκη για 2D priors στη ραχοκοκαλιά του, κάτι που είναι κοινή απαίτηση στις παραδοσιακές προσεγγίσεις που βασίζονται σε μετασχηματιστές.

Η αμφίδρομη μοντελοποίηση χώρου κατάστασης του Vim και ο σχεδιασμός με επίγνωση υλικού όχι μόνο ενισχύουν την υπολογιστική του απόδοση, αλλά ανοίγουν επίσης νέες δυνατότητες για την εφαρμογή του σε διάφορες εργασίες όρασης υψηλής ανάλυσης. Οι μελλοντικές προοπτικές για το Vim περιλαμβάνουν την εφαρμογή του σε εργασίες χωρίς επίβλεψη, όπως η προεκπαίδευση μοντελοποίησης εικόνων μάσκας, οι πολυτροπικές εργασίες όπως η προεκπαίδευση σε στυλ CLIP και η ανάλυση ιατρικών εικόνων υψηλής ανάλυσης, εικόνων τηλεπισκόπησης και βίντεο μεγάλης διάρκειας.

Συμπερασματικά, η καινοτόμος προσέγγιση του Vision Mamba σηματοδοτεί μια κομβική πρόοδο στην τεχνολογία όρασης AI. Ξεπερνώντας τους περιορισμούς των παραδοσιακών μετασχηματιστών όρασης, η Vim είναι έτοιμη να γίνει η ραχοκοκαλιά επόμενης γενιάς για ένα ευρύ φάσμα εφαρμογών τεχνητής νοημοσύνης που βασίζονται στην όραση.

Πηγή εικόνας: Shutterstock

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Σφραγίδα ώρας: Ιανουάριος 19, 2024

Σφραγίδα ώρας: 5 Μαρτίου, 2023

Vision Mamba: Ένα νέο παράδειγμα στο AI Vision με διαστημικά μοντέλα αμφίδρομης κατάστασης

Αναδημοσίευση από τον Πλάτωνα

Περισσότερα από Blockchain News

Η προσφορά Ethereum επιβραδύνθηκε μετά τη «συγχώνευση», θα οδηγήσει την επενδυτική αφήγηση;

Ο ιδρυτής της TRON, Justin Sun, θα μπορούσε να είναι πραγματικός αγοραστής της Huobi Global: Πηγές

Η Bank of China Hong Kong ολοκληρώνει τη δοκιμή Digital RMB Sandbox

Το Web3 Foundation ισχυρίζεται ότι το DOT είναι ένα κομμάτι λογισμικού και όχι μια ασφάλεια

Το MetaMask Snaps αυξάνει την ασφάλεια και τη διαλειτουργικότητα στον χώρο Web3

Το Bitcoin ανατρέπει ξανά τη Visa

Το BitMEX παραθέτει τις επιλογές Luna 2.0, ETH Margin και Settlement

Αξιωματούχοι του Υπουργείου Οικονομικών του Ηνωμένου Βασιλείου συναντήθηκαν με εταιρείες κρυπτογράφησης και επιχειρηματικών κεφαλαίων το 1ο τρίμηνο: Πηγές

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός