Το νέο AI της Meta μπορεί να διαλέξει και να κόψει οποιοδήποτε αντικείμενο σε μια εικόνα - ακόμα και αυτά που δεν έχουν δει ποτέ πριν

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Το νέο AI της Meta μπορεί να διαλέξει και να κόψει οποιοδήποτε αντικείμενο σε μια εικόνα—ακόμα και αυτά που δεν έχουν δει ποτέ πριν από το PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το να διαλέγουμε ξεχωριστά αντικείμενα σε μια οπτική σκηνή μας φαίνεται διαισθητικό, αλλά οι μηχανές παλεύουν με αυτό το έργο. Τώρα ένα νέο μοντέλο AI από τη Meta έχει αναπτύξει μια ευρεία ιδέα για το τι είναι ένα αντικείμενο, επιτρέποντάς του να διαχωρίζει αντικείμενα ακόμα κι αν δεν τα έχει δει ποτέ πριν.

Μπορεί να φαίνεται σαν μια αρκετά πεζή εργασία όρασης υπολογιστή, αλλά το να μπορείς να αναλύσεις μια εικόνα και να βρεις πού τελειώνει ένα αντικείμενο και ξεκινά ένα άλλο είναι μια αρκετά θεμελιώδης δεξιότητα, χωρίς την οποία μια σειρά από πιο περίπλοκες εργασίες θα ήταν άλυτες.

Η "τμηματοποίηση αντικειμένων" δεν είναι κάτι νέο. Οι ερευνητές της τεχνητής νοημοσύνης εργάζονται πάνω σε αυτό εδώ και χρόνια. Αλλά συνήθως, η κατασκευή αυτών των μοντέλων ήταν μια χρονοβόρα διαδικασία που απαιτεί πολλούς ανθρώπινους σχολιασμούς εικόνων και σημαντικούς υπολογιστικούς πόρους. Και συνήθως τα μοντέλα που προέκυψαν ήταν εξαιρετικά εξειδικευμένα σε συγκεκριμένες περιπτώσεις χρήσης.

Τώρα όμως, οι ερευνητές στο Meta αποκάλυψαν το Segment Anything Model (SAM), το οποίο είναι σε θέση να κόψει οποιοδήποτε αντικείμενο σε οποιαδήποτε σκηνή, ανεξάρτητα από το αν έχει δει κάτι παρόμοιο στο παρελθόν. Το μοντέλο μπορεί επίσης να το κάνει αυτό ως απόκριση σε μια ποικιλία διαφορετικών προτροπών, από την περιγραφή κειμένου έως τα κλικ του ποντικιού ή ακόμα και τα δεδομένα παρακολούθησης ματιών.

«Η SAM έχει μάθει μια γενική ιδέα του τι είναι τα αντικείμενα και μπορεί να δημιουργήσει μάσκες για οποιοδήποτε αντικείμενο σε οποιαδήποτε εικόνα ή βίντεο», έγραψαν οι ερευνητές στο ένα blog θέση. «Πιστεύουμε ότι οι δυνατότητες είναι ευρείες και είμαστε ενθουσιασμένοι από τις πολλές πιθανές περιπτώσεις χρήσης που δεν έχουμε καν φανταστεί ακόμα».

Το κλειδί για την ανάπτυξη του μοντέλου ήταν ένα τεράστιο νέο σύνολο δεδομένων από 1.1 δισεκατομμύρια μάσκες τμηματοποίησης, το οποίο αναφέρεται σε περιοχές μιας εικόνας που έχουν απομονωθεί και σημειωθεί για να υποδηλώσει ότι περιέχουν ένα συγκεκριμένο αντικείμενο. Δημιουργήθηκε μέσω ενός συνδυασμού χειροκίνητου ανθρώπινου σχολιασμού εικόνων και αυτοματοποιημένων διαδικασιών και είναι μακράν η μεγαλύτερη συλλογή αυτού του τύπου που έχει συγκεντρωθεί μέχρι σήμερα.

Με την εκπαίδευση σε ένα τόσο τεράστιο σύνολο δεδομένων, οι ερευνητές της Meta λένε ότι έχει αναπτύξει μια γενική ιδέα για το τι είναι ένα αντικείμενο, η οποία του επιτρέπει να τμηματοποιήσει πράγματα που δεν είχε καν δει πριν. Αυτή η ικανότητα γενίκευσης οδήγησε τους ερευνητές να ονομάσουν το SAM «μοντέλο θεμελίωσης», α αμφιλεγόμενος όρος χρησιμοποιείται για να περιγράψει άλλα τεράστια προεκπαιδευμένα μοντέλα όπως π.χ Το GPT του OpenAI σειρές, των οποίων οι δυνατότητες υποτίθεται ότι είναι τόσο γενικές που μπορούν να χρησιμοποιηθούν ως τα θεμέλια για μια σειρά από εφαρμογές.

Η κατάτμηση εικόνας είναι σίγουρα ένα βασικό συστατικό σε ένα ευρύ φάσμα εργασιών όρασης υπολογιστή. Εάν δεν μπορείτε να διαχωρίσετε τα διαφορετικά στοιχεία μιας σκηνής, είναι δύσκολο να κάνετε κάτι πιο περίπλοκο με αυτήν. Στο ιστολόγιό τους, οι ερευνητές λένε ότι θα μπορούσε να αποδειχθεί ανεκτίμητο στην επεξεργασία βίντεο και εικόνας ή να βοηθήσει στην ανάλυση επιστημονικών εικόνων.

Ίσως πιο συναφείς για τις φιλοδοξίες της εταιρείας για τη μεταστροφή, παρέχουν μια επίδειξη για το πώς θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με ένα ακουστικό εικονικής πραγματικότητας για την επιλογή συγκεκριμένων αντικειμένων με βάση το βλέμμα του χρήστη. Λένε επίσης ότι θα μπορούσε ενδεχομένως να συνδυαστεί με ένα μεγάλο γλωσσικό μοντέλο για να δημιουργηθεί ένα πολυτροπικό σύστημα ικανό να κατανοεί τόσο το οπτικό όσο και το κειμενικό περιεχόμενο μιας ιστοσελίδας.

Η ικανότητα αντιμετώπισης ενός ευρέος φάσματος προτροπών καθιστά το σύστημα ιδιαίτερα ευέλικτο. Σε ένα ιστοσελίδα κάνοντας επίδειξη του νέου μοντέλου, η εταιρεία δείχνει ότι μετά την ανάλυση μιας εικόνας μπορεί να ζητηθεί να διαχωρίσει συγκεκριμένα αντικείμενα κάνοντας απλά κλικ πάνω τους με έναν δρομέα του ποντικιού, πληκτρολογώντας αυτό που θέλετε να τμηματοποιήσετε ή απλώς χωρίζοντας ολόκληρη την εικόνα σε ξεχωριστά αντικείμενα.

Και το πιο σημαντικό, η εταιρεία χρησιμοποιεί ανοιχτού κώδικα τόσο το μοντέλο όσο και το σύνολο δεδομένων για ερευνητικούς σκοπούς, ώστε άλλοι να μπορούν να αξιοποιήσουν τη δουλειά τους. Αυτή είναι η ίδια προσέγγιση που ακολούθησε η εταιρεία με το μοντέλο της μεγάλης γλώσσας LLaMA, το οποίο οδήγησε στο να διαρρεύσει online και ώθηση α κύμα πειραματισμών από χομπίστες και χάκερ.

Το αν θα συμβεί το ίδιο με το SAM μένει να φανεί, αλλά σε κάθε περίπτωση είναι ένα δώρο στην ερευνητική κοινότητα της τεχνητής νοημοσύνης που θα μπορούσε να επιταχύνει την πρόοδο σε μια σειρά από σημαντικά προβλήματα όρασης υπολογιστή.

Image Credit: Meta AI

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
πηγή: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/

Σφραγίδα ώρας: Απρίλιος 10, 2023

Σφραγίδα ώρας: 29 Ιανουαρίου 2024

Η πιο φωτεινή κοσμική έκρηξη όλων των εποχών: Οι επιστήμονες μπορεί να έχουν λύσει το μυστήριο της εμμονής της

Σύμπλεγμα πηγής:

Κέντρο μοναδικότητας

Κόμβος πηγής: 1845408

Σφραγίδα ώρας: 8 Ιουνίου 2023

Φοβερές τεχνολογικές ιστορίες αυτής της εβδομάδας από όλο τον Ιστό (μέχρι τις 30 Ιουλίου) PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Οι φοβερές τεχνολογικές ιστορίες αυτής της εβδομάδας από όλο τον Ιστό (Μέχρι τις 30 Ιουλίου)

Σύμπλεγμα πηγής:

Κέντρο μοναδικότητας

Κόμβος πηγής: 1600178

Σφραγίδα ώρας: 30 Ιουλίου 2022

Οι ΗΠΑ επενδύουν 1.2 δισεκατομμύρια δολάρια σε εγκαταστάσεις δέσμευσης άνθρακα για να απορροφήσουν τόνους CO2 από τον αέρα

Σύμπλεγμα πηγής:

Κέντρο μοναδικότητας

Κόμβος πηγής: 1878327

Σφραγίδα ώρας: 20 Αυγούστου 2023

Το νέο AI της Meta μπορεί να διαλέξει και να κόψει οποιοδήποτε αντικείμενο σε μια εικόνα—ακόμα και αυτά που δεν έχουν δει ποτέ πριν

Αναδημοσίευση από τον Πλάτωνα

Περισσότερα από Κέντρο μοναδικότητας

Σύντομα θα είστε σε θέση να αγοράσετε πετούνιες γενετικά τροποποιημένες Glow-in-the-Dark

Μπορούμε να σταματήσουμε τη γήρανση της καρδιάς; Αυτή η ορόσημο γενετική μελέτη είναι μια αρχή

Η μεγαλύτερη γενετική μελέτη μέχρι σήμερα αποκαλύπτει προφίλ DNA που οδηγούν στον καρκίνο

Νέες «camcorders» DNA μπορούν να ηχογραφήσουν «ταινίες» της εξέλιξης ενός κυττάρου στο πέρασμα του χρόνου

Μια κοινότητα 3D εκτυπωμένων σπιτιών κατασκευάζεται για επιζώντες από τις πυρκαγιές του Όρεγκον

Πειράματα βαρύτητας στο τραπέζι της κουζίνας: Γιατί μια μικροσκοπική, μικροσκοπική μέτρηση μπορεί να είναι ένα μεγάλο άλμα προς τα εμπρός για τη Φυσική

Η πιο φωτεινή κοσμική έκρηξη όλων των εποχών: Οι επιστήμονες μπορεί να έχουν λύσει το μυστήριο της εμμονής της

Οι φοβερές τεχνολογικές ιστορίες αυτής της εβδομάδας από όλο τον Ιστό (Μέχρι τις 30 Ιουλίου)

Οι ΗΠΑ επενδύουν 1.2 δισεκατομμύρια δολάρια σε εγκαταστάσεις δέσμευσης άνθρακα για να απορροφήσουν τόνους CO2 από τον αέρα

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός