Το να διαλέγουμε ξεχωριστά αντικείμενα σε μια οπτική σκηνή μας φαίνεται διαισθητικό, αλλά οι μηχανές παλεύουν με αυτό το έργο. Τώρα ένα νέο μοντέλο AI από τη Meta έχει αναπτύξει μια ευρεία ιδέα για το τι είναι ένα αντικείμενο, επιτρέποντάς του να διαχωρίζει αντικείμενα ακόμα κι αν δεν τα έχει δει ποτέ πριν.
Μπορεί να φαίνεται σαν μια αρκετά πεζή εργασία όρασης υπολογιστή, αλλά το να μπορείς να αναλύσεις μια εικόνα και να βρεις πού τελειώνει ένα αντικείμενο και ξεκινά ένα άλλο είναι μια αρκετά θεμελιώδης δεξιότητα, χωρίς την οποία μια σειρά από πιο περίπλοκες εργασίες θα ήταν άλυτες.
Η "τμηματοποίηση αντικειμένων" δεν είναι κάτι νέο. Οι ερευνητές της τεχνητής νοημοσύνης εργάζονται πάνω σε αυτό εδώ και χρόνια. Αλλά συνήθως, η κατασκευή αυτών των μοντέλων ήταν μια χρονοβόρα διαδικασία που απαιτεί πολλούς ανθρώπινους σχολιασμούς εικόνων και σημαντικούς υπολογιστικούς πόρους. Και συνήθως τα μοντέλα που προέκυψαν ήταν εξαιρετικά εξειδικευμένα σε συγκεκριμένες περιπτώσεις χρήσης.
Τώρα όμως, οι ερευνητές στο Meta αποκάλυψαν το Segment Anything Model (SAM), το οποίο είναι σε θέση να κόψει οποιοδήποτε αντικείμενο σε οποιαδήποτε σκηνή, ανεξάρτητα από το αν έχει δει κάτι παρόμοιο στο παρελθόν. Το μοντέλο μπορεί επίσης να το κάνει αυτό ως απόκριση σε μια ποικιλία διαφορετικών προτροπών, από την περιγραφή κειμένου έως τα κλικ του ποντικιού ή ακόμα και τα δεδομένα παρακολούθησης ματιών.
«Η SAM έχει μάθει μια γενική ιδέα του τι είναι τα αντικείμενα και μπορεί να δημιουργήσει μάσκες για οποιοδήποτε αντικείμενο σε οποιαδήποτε εικόνα ή βίντεο», έγραψαν οι ερευνητές στο ένα blog θέση. «Πιστεύουμε ότι οι δυνατότητες είναι ευρείες και είμαστε ενθουσιασμένοι από τις πολλές πιθανές περιπτώσεις χρήσης που δεν έχουμε καν φανταστεί ακόμα».
Το κλειδί για την ανάπτυξη του μοντέλου ήταν ένα τεράστιο νέο σύνολο δεδομένων από 1.1 δισεκατομμύρια μάσκες τμηματοποίησης, το οποίο αναφέρεται σε περιοχές μιας εικόνας που έχουν απομονωθεί και σημειωθεί για να υποδηλώσει ότι περιέχουν ένα συγκεκριμένο αντικείμενο. Δημιουργήθηκε μέσω ενός συνδυασμού χειροκίνητου ανθρώπινου σχολιασμού εικόνων και αυτοματοποιημένων διαδικασιών και είναι μακράν η μεγαλύτερη συλλογή αυτού του τύπου που έχει συγκεντρωθεί μέχρι σήμερα.
Με την εκπαίδευση σε ένα τόσο τεράστιο σύνολο δεδομένων, οι ερευνητές της Meta λένε ότι έχει αναπτύξει μια γενική ιδέα για το τι είναι ένα αντικείμενο, η οποία του επιτρέπει να τμηματοποιήσει πράγματα που δεν είχε καν δει πριν. Αυτή η ικανότητα γενίκευσης οδήγησε τους ερευνητές να ονομάσουν το SAM «μοντέλο θεμελίωσης», α αμφιλεγόμενος όρος χρησιμοποιείται για να περιγράψει άλλα τεράστια προεκπαιδευμένα μοντέλα όπως π.χ Το GPT του OpenAI σειρές, των οποίων οι δυνατότητες υποτίθεται ότι είναι τόσο γενικές που μπορούν να χρησιμοποιηθούν ως τα θεμέλια για μια σειρά από εφαρμογές.
Η κατάτμηση εικόνας είναι σίγουρα ένα βασικό συστατικό σε ένα ευρύ φάσμα εργασιών όρασης υπολογιστή. Εάν δεν μπορείτε να διαχωρίσετε τα διαφορετικά στοιχεία μιας σκηνής, είναι δύσκολο να κάνετε κάτι πιο περίπλοκο με αυτήν. Στο ιστολόγιό τους, οι ερευνητές λένε ότι θα μπορούσε να αποδειχθεί ανεκτίμητο στην επεξεργασία βίντεο και εικόνας ή να βοηθήσει στην ανάλυση επιστημονικών εικόνων.
Ίσως πιο συναφείς για τις φιλοδοξίες της εταιρείας για τη μεταστροφή, παρέχουν μια επίδειξη για το πώς θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με ένα ακουστικό εικονικής πραγματικότητας για την επιλογή συγκεκριμένων αντικειμένων με βάση το βλέμμα του χρήστη. Λένε επίσης ότι θα μπορούσε ενδεχομένως να συνδυαστεί με ένα μεγάλο γλωσσικό μοντέλο για να δημιουργηθεί ένα πολυτροπικό σύστημα ικανό να κατανοεί τόσο το οπτικό όσο και το κειμενικό περιεχόμενο μιας ιστοσελίδας.
Η ικανότητα αντιμετώπισης ενός ευρέος φάσματος προτροπών καθιστά το σύστημα ιδιαίτερα ευέλικτο. Σε ένα ιστοσελίδα κάνοντας επίδειξη του νέου μοντέλου, η εταιρεία δείχνει ότι μετά την ανάλυση μιας εικόνας μπορεί να ζητηθεί να διαχωρίσει συγκεκριμένα αντικείμενα κάνοντας απλά κλικ πάνω τους με έναν δρομέα του ποντικιού, πληκτρολογώντας αυτό που θέλετε να τμηματοποιήσετε ή απλώς χωρίζοντας ολόκληρη την εικόνα σε ξεχωριστά αντικείμενα.
Και το πιο σημαντικό, η εταιρεία χρησιμοποιεί ανοιχτού κώδικα τόσο το μοντέλο όσο και το σύνολο δεδομένων για ερευνητικούς σκοπούς, ώστε άλλοι να μπορούν να αξιοποιήσουν τη δουλειά τους. Αυτή είναι η ίδια προσέγγιση που ακολούθησε η εταιρεία με το μοντέλο της μεγάλης γλώσσας LLaMA, το οποίο οδήγησε στο να διαρρεύσει online και ώθηση α κύμα πειραματισμών από χομπίστες και χάκερ.
Το αν θα συμβεί το ίδιο με το SAM μένει να φανεί, αλλά σε κάθε περίπτωση είναι ένα δώρο στην ερευνητική κοινότητα της τεχνητής νοημοσύνης που θα μπορούσε να επιταχύνει την πρόοδο σε μια σειρά από σημαντικά προβλήματα όρασης υπολογιστή.
Image Credit: Meta AI
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/
- :είναι
- $UP
- 1
- a
- ικανότητα
- Ικανός
- επιταχύνουν
- Μετά το
- AI
- ai έρευνα
- Επιτρέποντας
- επιτρέπει
- φιλοδοξίες
- ανάλυση
- αναλύοντας
- και
- Άλλος
- εφαρμογές
- πλησιάζω
- ΕΙΝΑΙ
- AS
- συναρμολογούνται
- At
- Αυτοματοποιημένη
- βασίζονται
- BE
- πριν
- είναι
- Πιστεύω
- Δισεκατομμύριο
- Μπλοκ
- Σπάζοντας
- ευρύς
- χτίζω
- Κτίριο
- by
- CAN
- δυνατότητες
- περιπτώσεις
- συλλογή
- συνδυασμός
- κοινότητα
- εταίρα
- Εταιρεία
- περίπλοκος
- εξαρτήματα
- υπολογιστή
- Computer Vision
- χρήση υπολογιστή
- έννοια
- σημαντικός
- περιέχουν
- περιεχόμενο
- θα μπορούσε να
- δημιουργία
- δημιουργήθηκε
- μονάδες
- Τομή
- ημερομηνία
- Ημερομηνία
- συμφωνία
- οπωσδηποτε
- περιγράφουν
- περιγραφή
- αναπτύχθηκε
- Ανάπτυξη
- διαφορετικές
- είτε
- τελειώνει
- Ολόκληρος
- Even
- ενθουσιασμένοι
- αρκετά
- εύκαμπτος
- Για
- Ιδρύματα
- από
- θεμελιώδης
- General
- παράγουν
- δώρο
- χάκερ
- συμβαίνω
- Σκληρά
- Έχω
- ακουστικό
- βοήθεια
- υψηλά
- οικοδεσπότης
- Πως
- HTTPS
- ανθρώπινος
- ιδέα
- εικόνα
- εικόνες
- σημαντικό
- in
- διαισθητική
- ανεκτίμητος
- απομονωμένος
- IT
- ΤΟΥ
- Κλειδί
- Γλώσσα
- large
- μεγαλύτερη
- μάθει
- Led
- Μου αρέσει
- Είδος μικρής καμήλας
- μηχανήματα
- ΚΑΝΕΙ
- Ταχύτητες
- πολοί
- Masks
- μαζική
- Meta
- metaverse
- ενδέχεται να
- μοντέλο
- μοντέλα
- περισσότερο
- πλέον
- Νέα
- Εννοια
- αντικείμενο
- αντικειμένων
- of
- on
- ONE
- ΑΛΛΑ
- Άλλα
- σελίδα
- ζεύγη
- Ειδικότερα
- ιδιαίτερα
- επιλέξτε
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- δυνατότητες
- δυναμικού
- ενδεχομένως
- αρκετά
- προβλήματα
- διαδικασια μας
- Διεργασίες
- Πρόοδος
- Αποδείξτε
- παρέχουν
- σκοποί
- σειρά
- ταχέως
- Πραγματικότητα
- αναφέρεται
- Ανεξάρτητα
- περιοχές
- λείψανα
- έρευνα
- ερευνητές
- Υποστηρικτικό υλικό
- απάντησης
- με αποτέλεσμα
- Sam
- ίδιο
- σκηνή
- επιστημονικός
- φαίνεται
- τμήμα
- κατάτμηση
- ξεχωριστό
- Σειρές
- Δείχνει
- απλά
- επιδεξιότητα
- So
- ειδικευμένος
- συγκεκριμένες
- Πάλη
- τέτοιος
- σύστημα
- Έργο
- εργασίες
- ότι
- Η
- τους
- Τους
- Αυτοί
- πράγματα
- Μέσω
- χρονοβόρος
- προς την
- Εκπαίδευση
- συνήθως
- καταλαβαίνω
- αποκαλυπτήρια
- us
- χρήση
- ποικιλία
- Βίντεο
- Πραγματικός
- Εικονική πραγματικότητα
- όραμα
- Τρόπος..
- ιστός
- Τι
- αν
- Ποιό
- ευρύς
- Ευρύ φάσμα
- θα
- με
- χωρίς
- Εργασία
- επεξεργάζομαι
- εργάστηκαν
- θα
- χρόνια
- Εσείς
- zephyrnet