Το DeepMind's ChatGPT-Like Brain for Robots τους επιτρέπει να μάθουν από το Διαδίκτυο

Το DeepMind's ChatGPT-Like Brain for Robots τους επιτρέπει να μάθουν από το Διαδίκτυο

Από τότε που το ChatGPT εξερράγη στην τεχνολογική σκηνή τον Νοέμβριο του περασμένου έτους, βοηθά τους ανθρώπους να γράφουν κάθε είδους υλικό, να δημιουργούν κώδικα και να βρίσκουν πληροφορίες. Αυτό και άλλα μοντέλα μεγάλων γλωσσών (LLM) έχουν διευκολύνει εργασίες από την πραγματοποίηση κλήσεων εξυπηρέτησης πελατών έως τη λήψη παραγγελιών γρήγορου φαγητού. Δεδομένου του πόσο χρήσιμα ήταν τα LLM για τους ανθρώπους στο σύντομο χρονικό διάστημα που υπάρχουν, πώς μπορεί ένα ChatGPT για ρομπότ να επηρεάσει την ικανότητά τους να μαθαίνουν και να κάνουν νέα πράγματα; Ερευνητές στο Google DeepMind αποφάσισαν να το ανακαλύψουν και δημοσίευσαν τα ευρήματά τους στο α ανάρτηση και χαρτί που κυκλοφόρησε την περασμένη εβδομάδα.

Ονομάζουν το σύστημά τους RT-2. Είναι συντομογραφία του μετασχηματιστή ρομποτικής 2 και είναι ο διάδοχος του μετασχηματιστής ρομποτικής 1, που κυκλοφόρησε η εταιρεία στα τέλη του περασμένου έτους. Το RT-1 βασίστηκε σε ένα μικρό πρόγραμμα γλώσσας και όρασης και εκπαιδεύτηκε ειδικά για να κάνει πολλές εργασίες. Το λογισμικό χρησιμοποιήθηκε στο Alphabet X Καθημερινά Ρομπότ, δίνοντάς τους τη δυνατότητα να κάνουν πάνω από 700 διαφορετικές εργασίες με ποσοστό επιτυχίας 97 τοις εκατό. Αλλά όταν τους ζητήθηκε να κάνουν νέες εργασίες για τις οποίες δεν είχαν εκπαιδευτεί, τα ρομπότ που χρησιμοποιούσαν το RT-1 είχαν επιτυχία μόνο στο 32 τοις εκατό των περιπτώσεων.

Το RT-2 σχεδόν διπλασιάζει αυτό το ποσοστό, εκτελώντας με επιτυχία νέες εργασίες το 62 τοις εκατό του χρόνου που του ζητείται. Οι ερευνητές αποκαλούν το RT-2 μοντέλο όρασης-γλώσσας-δράσης (VLA). Χρησιμοποιεί κείμενο και εικόνες που βλέπει στο διαδίκτυο για να μάθει νέες δεξιότητες. Αυτό δεν είναι τόσο απλό όσο ακούγεται. Απαιτεί από το λογισμικό να «κατανοήσει» πρώτα μια έννοια, στη συνέχεια να εφαρμόσει αυτήν την κατανόηση σε μια εντολή ή ένα σύνολο εντολών και μετά να εκτελέσει ενέργειες που ικανοποιούν αυτές τις οδηγίες.

Ένα παράδειγμα που δίνουν οι συντάκτες της εφημερίδας είναι η απόρριψη των σκουπιδιών. Σε προηγούμενα μοντέλα, το λογισμικό του ρομπότ θα έπρεπε πρώτα να εκπαιδευτεί ώστε να αναγνωρίζει τα σκουπίδια. Για παράδειγμα, εάν υπάρχει μια ξεφλουδισμένη μπανάνα σε ένα τραπέζι με τη φλούδα δίπλα της, θα φανεί στο bot ότι η φλούδα είναι σκουπίδια ενώ η μπανάνα δεν είναι. Στη συνέχεια θα διδαχθεί πώς να μαζεύει τη φλούδα, να τη μεταφέρει σε έναν κάδο απορριμμάτων και να την αποθέτει εκεί.

Ωστόσο, το RT-2 λειτουργεί λίγο διαφορετικά. Δεδομένου ότι το μοντέλο έχει εκπαιδευτεί σε πολλές πληροφορίες και δεδομένα από το Διαδίκτυο, έχει μια γενική κατανόηση του τι είναι τα σκουπίδια και παρόλο που δεν είναι εκπαιδευμένο να πετάει σκουπίδια, μπορεί να συνδυάσει τα βήματα για να ολοκληρώσει αυτήν την εργασία.

Τα LLM που χρησιμοποίησαν οι ερευνητές για την εκπαίδευση του RT-2 είναι PaLI-X (ένα μοντέλο όρασης και γλώσσας με 55 δισεκατομμύρια παραμέτρους) και PalM-E (αυτό που η Google αποκαλεί ένα ενσωματωμένο πολυτροπικό γλωσσικό μοντέλο, που αναπτύχθηκε ειδικά για ρομπότ, με 12 δισεκατομμύρια παραμέτρους). Η "παράμετρος" αναφέρεται σε ένα χαρακτηριστικό που ορίζει ένα μοντέλο μηχανικής μάθησης με βάση τα δεδομένα εκπαίδευσής του. Στην περίπτωση των LLM, μοντελοποιούν τις σχέσεις μεταξύ των λέξεων σε μια πρόταση και σταθμίζουν πόσο πιθανό είναι μια δεδομένη λέξη να προηγείται ή να ακολουθείται από μια άλλη λέξη.

Μέσα από την εύρεση των σχέσεων και των προτύπων μεταξύ των λέξεων σε ένα τεράστιο σύνολο δεδομένων, τα μοντέλα μαθαίνουν από τα δικά τους συμπεράσματα. Μπορούν τελικά να καταλάβουν πώς οι διαφορετικές έννοιες σχετίζονται μεταξύ τους και να διακρίνουν το πλαίσιο. Στην περίπτωση του RT-2, μεταφράζει αυτή τη γνώση σε γενικευμένες οδηγίες για ρομποτικές ενέργειες.

Αυτές οι ενέργειες αντιπροσωπεύονται για το ρομπότ ως διακριτικά, τα οποία συνήθως χρησιμοποιούνται για την αναπαράσταση κειμένου φυσικής γλώσσας με τη μορφή θραυσμάτων λέξεων. Σε αυτήν την περίπτωση, τα διακριτικά είναι μέρη μιας ενέργειας και το λογισμικό συνδυάζει πολλά διακριτικά μαζί για να εκτελέσει μια ενέργεια. Αυτή η δομή επιτρέπει επίσης στο λογισμικό να εκτελεί συλλογισμό αλυσιδωτής σκέψης, που σημαίνει ότι μπορεί να απαντήσει σε ερωτήσεις ή προτροπές που απαιτούν κάποιο βαθμό συλλογισμού.

Τα παραδείγματα που δίνει η ομάδα περιλαμβάνουν την επιλογή ενός αντικειμένου για χρήση ως σφυρί όταν δεν υπάρχει διαθέσιμο σφυρί (το ρομπότ επιλέγει έναν βράχο) και την επιλογή του καλύτερου ποτού για ένα κουρασμένο άτομο (το ρομπότ επιλέγει ένα ενεργειακό ποτό).

Το DeepMind's ChatGPT-Like Brain for Robots τους επιτρέπει να μάθουν από το Διαδίκτυο PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Πίστωση εικόνας: Google DeepMind

«Το RT-2 δείχνει βελτιωμένες δυνατότητες γενίκευσης και σημασιολογική και οπτική κατανόηση πέρα ​​από τα ρομποτικά δεδομένα στα οποία εκτέθηκε», έγραψαν οι ερευνητές σε μια Google ανάρτηση. "Αυτό περιλαμβάνει την ερμηνεία νέων εντολών και την απόκριση στις εντολές των χρηστών εκτελώντας στοιχειώδεις συλλογισμούς, όπως συλλογισμούς σχετικά με κατηγορίες αντικειμένων ή περιγραφές υψηλού επιπέδου."

Το όνειρο του ρομπότ γενικής χρήσης που μπορεί να βοηθήσει τους ανθρώπους με οτιδήποτε μπορεί να προκύψει - είτε σε ένα σπίτι, ένα εμπορικό περιβάλλον ή ένα βιομηχανικό περιβάλλον - δεν θα είναι εφικτό έως ότου τα ρομπότ μπορούν να μάθουν εν κινήσει. Αυτό που φαίνεται σαν το πιο βασικό ένστικτο για εμάς είναι, για τα ρομπότ, ένας περίπλοκος συνδυασμός κατανόησης του πλαισίου, ικανότητας λογικής μέσω αυτού και λήψης μέτρων για την επίλυση προβλημάτων που δεν αναμενόταν να εμφανιστούν. Ο προγραμματισμός τους ώστε να αντιδρούν κατάλληλα σε μια ποικιλία απρογραμμάτιστων σεναρίων είναι αδύνατος, επομένως πρέπει να μπορούν να γενικεύουν και να μαθαίνουν από την εμπειρία, όπως ακριβώς κάνουν οι άνθρωποι.

Το RT-2 είναι ένα βήμα προς αυτή την κατεύθυνση. Οι ερευνητές αναγνωρίζουν, ωστόσο, ότι ενώ το RT-2 μπορεί να γενικεύσει σημασιολογικές και οπτικές έννοιες, δεν είναι ακόμη σε θέση να μάθει νέες ενέργειες από μόνο του. Αντίθετα, εφαρμόζει τις ενέργειες που ήδη γνωρίζει σε νέα σενάρια. Ίσως το RT-3 ή το 4 να μπορέσουν να μεταφέρουν αυτές τις δεξιότητες στο επόμενο επίπεδο. Στο μεταξύ, όπως καταλήγει η ομάδα σε τους ανάρτηση, "Ενώ υπάρχει ακόμη τεράστιος όγκος δουλειάς που πρέπει να γίνει για να ενεργοποιηθούν τα χρήσιμα ρομπότ σε ανθρωποκεντρικά περιβάλλοντα, το RT-2 μας δείχνει ένα συναρπαστικό μέλλον για τη ρομποτική ακριβώς στο χέρι."

Image Credit: Google DeepMind

Σφραγίδα ώρας:

Περισσότερα από Κέντρο μοναδικότητας