Το νέο AI της Meta μπορεί να διαλέξει και να κόψει οποιοδήποτε αντικείμενο σε μια εικόνα—ακόμα και αυτά που δεν έχουν δει ποτέ πριν

Το νέο AI της Meta μπορεί να διαλέξει και να κόψει οποιοδήποτε αντικείμενο σε μια εικόνα—ακόμα και αυτά που δεν έχουν δει ποτέ πριν

Το νέο AI της Meta μπορεί να διαλέξει και να κόψει οποιοδήποτε αντικείμενο σε μια εικόνα—ακόμα και αυτά που δεν έχουν δει ποτέ πριν από το PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το να διαλέγουμε ξεχωριστά αντικείμενα σε μια οπτική σκηνή μας φαίνεται διαισθητικό, αλλά οι μηχανές παλεύουν με αυτό το έργο. Τώρα ένα νέο μοντέλο AI από τη Meta έχει αναπτύξει μια ευρεία ιδέα για το τι είναι ένα αντικείμενο, επιτρέποντάς του να διαχωρίζει αντικείμενα ακόμα κι αν δεν τα έχει δει ποτέ πριν.

Μπορεί να φαίνεται σαν μια αρκετά πεζή εργασία όρασης υπολογιστή, αλλά το να μπορείς να αναλύσεις μια εικόνα και να βρεις πού τελειώνει ένα αντικείμενο και ξεκινά ένα άλλο είναι μια αρκετά θεμελιώδης δεξιότητα, χωρίς την οποία μια σειρά από πιο περίπλοκες εργασίες θα ήταν άλυτες.

Η "τμηματοποίηση αντικειμένων" δεν είναι κάτι νέο. Οι ερευνητές της τεχνητής νοημοσύνης εργάζονται πάνω σε αυτό εδώ και χρόνια. Αλλά συνήθως, η κατασκευή αυτών των μοντέλων ήταν μια χρονοβόρα διαδικασία που απαιτεί πολλούς ανθρώπινους σχολιασμούς εικόνων και σημαντικούς υπολογιστικούς πόρους. Και συνήθως τα μοντέλα που προέκυψαν ήταν εξαιρετικά εξειδικευμένα σε συγκεκριμένες περιπτώσεις χρήσης.

Τώρα όμως, οι ερευνητές στο Meta αποκάλυψαν το Segment Anything Model (SAM), το οποίο είναι σε θέση να κόψει οποιοδήποτε αντικείμενο σε οποιαδήποτε σκηνή, ανεξάρτητα από το αν έχει δει κάτι παρόμοιο στο παρελθόν. Το μοντέλο μπορεί επίσης να το κάνει αυτό ως απόκριση σε μια ποικιλία διαφορετικών προτροπών, από την περιγραφή κειμένου έως τα κλικ του ποντικιού ή ακόμα και τα δεδομένα παρακολούθησης ματιών.

«Η SAM έχει μάθει μια γενική ιδέα του τι είναι τα αντικείμενα και μπορεί να δημιουργήσει μάσκες για οποιοδήποτε αντικείμενο σε οποιαδήποτε εικόνα ή βίντεο», έγραψαν οι ερευνητές στο ένα blog θέση. «Πιστεύουμε ότι οι δυνατότητες είναι ευρείες και είμαστε ενθουσιασμένοι από τις πολλές πιθανές περιπτώσεις χρήσης που δεν έχουμε καν φανταστεί ακόμα».

Το κλειδί για την ανάπτυξη του μοντέλου ήταν ένα τεράστιο νέο σύνολο δεδομένων από 1.1 δισεκατομμύρια μάσκες τμηματοποίησης, το οποίο αναφέρεται σε περιοχές μιας εικόνας που έχουν απομονωθεί και σημειωθεί για να υποδηλώσει ότι περιέχουν ένα συγκεκριμένο αντικείμενο. Δημιουργήθηκε μέσω ενός συνδυασμού χειροκίνητου ανθρώπινου σχολιασμού εικόνων και αυτοματοποιημένων διαδικασιών και είναι μακράν η μεγαλύτερη συλλογή αυτού του τύπου που έχει συγκεντρωθεί μέχρι σήμερα.

Με την εκπαίδευση σε ένα τόσο τεράστιο σύνολο δεδομένων, οι ερευνητές της Meta λένε ότι έχει αναπτύξει μια γενική ιδέα για το τι είναι ένα αντικείμενο, η οποία του επιτρέπει να τμηματοποιήσει πράγματα που δεν είχε καν δει πριν. Αυτή η ικανότητα γενίκευσης οδήγησε τους ερευνητές να ονομάσουν το SAM «μοντέλο θεμελίωσης», α αμφιλεγόμενος όρος χρησιμοποιείται για να περιγράψει άλλα τεράστια προεκπαιδευμένα μοντέλα όπως π.χ Το GPT του OpenAI σειρές, των οποίων οι δυνατότητες υποτίθεται ότι είναι τόσο γενικές που μπορούν να χρησιμοποιηθούν ως τα θεμέλια για μια σειρά από εφαρμογές.

Η κατάτμηση εικόνας είναι σίγουρα ένα βασικό συστατικό σε ένα ευρύ φάσμα εργασιών όρασης υπολογιστή. Εάν δεν μπορείτε να διαχωρίσετε τα διαφορετικά στοιχεία μιας σκηνής, είναι δύσκολο να κάνετε κάτι πιο περίπλοκο με αυτήν. Στο ιστολόγιό τους, οι ερευνητές λένε ότι θα μπορούσε να αποδειχθεί ανεκτίμητο στην επεξεργασία βίντεο και εικόνας ή να βοηθήσει στην ανάλυση επιστημονικών εικόνων.

Ίσως πιο συναφείς για τις φιλοδοξίες της εταιρείας για τη μεταστροφή, παρέχουν μια επίδειξη για το πώς θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με ένα ακουστικό εικονικής πραγματικότητας για την επιλογή συγκεκριμένων αντικειμένων με βάση το βλέμμα του χρήστη. Λένε επίσης ότι θα μπορούσε ενδεχομένως να συνδυαστεί με ένα μεγάλο γλωσσικό μοντέλο για να δημιουργηθεί ένα πολυτροπικό σύστημα ικανό να κατανοεί τόσο το οπτικό όσο και το κειμενικό περιεχόμενο μιας ιστοσελίδας.

Η ικανότητα αντιμετώπισης ενός ευρέος φάσματος προτροπών καθιστά το σύστημα ιδιαίτερα ευέλικτο. Σε ένα ιστοσελίδα κάνοντας επίδειξη του νέου μοντέλου, η εταιρεία δείχνει ότι μετά την ανάλυση μιας εικόνας μπορεί να ζητηθεί να διαχωρίσει συγκεκριμένα αντικείμενα κάνοντας απλά κλικ πάνω τους με έναν δρομέα του ποντικιού, πληκτρολογώντας αυτό που θέλετε να τμηματοποιήσετε ή απλώς χωρίζοντας ολόκληρη την εικόνα σε ξεχωριστά αντικείμενα.

Και το πιο σημαντικό, η εταιρεία χρησιμοποιεί ανοιχτού κώδικα τόσο το μοντέλο όσο και το σύνολο δεδομένων για ερευνητικούς σκοπούς, ώστε άλλοι να μπορούν να αξιοποιήσουν τη δουλειά τους. Αυτή είναι η ίδια προσέγγιση που ακολούθησε η εταιρεία με το μοντέλο της μεγάλης γλώσσας LLaMA, το οποίο οδήγησε στο να διαρρεύσει online και ώθηση α κύμα πειραματισμών από χομπίστες και χάκερ.

Το αν θα συμβεί το ίδιο με το SAM μένει να φανεί, αλλά σε κάθε περίπτωση είναι ένα δώρο στην ερευνητική κοινότητα της τεχνητής νοημοσύνης που θα μπορούσε να επιταχύνει την πρόοδο σε μια σειρά από σημαντικά προβλήματα όρασης υπολογιστή.

Image Credit: Meta AI

Σφραγίδα ώρας:

Περισσότερα από Κέντρο μοναδικότητας