Η Google διδάσκει τα ρομπότ να εξυπηρετούν τους ανθρώπους – με τα μοντέλα μεγάλων γλωσσών το κλειδί

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Βίντεο Το μεγαλύτερο μοντέλο γλώσσας AI της Google βοηθά τα ρομπότ να είναι πιο ευέλικτα στην κατανόηση και την ερμηνεία των ανθρώπινων εντολών, σύμφωνα με την τελευταία έρευνα του γίγαντα του Ιστού.

Τα μηχανήματα συνήθως ανταποκρίνονται καλύτερα σε πολύ συγκεκριμένες απαιτήσεις – τα αιτήματα ανοιχτού τύπου μπορεί μερικές φορές να τα απορρίψουν και να οδηγήσουν σε αποτελέσματα που οι χρήστες δεν είχαν υπόψη τους. Οι άνθρωποι μαθαίνουν να αλληλεπιδρούν με τα ρομπότ με άκαμπτο τρόπο, όπως να κάνουν ερωτήσεις με συγκεκριμένο τρόπο για να λάβουν την επιθυμητή απάντηση.

Ωστόσο, το πιο πρόσφατο σύστημα της Google, που ονομάζεται PaLM-SayCan, υπόσχεται να είναι πιο έξυπνο. Η φυσική συσκευή της Everyday Robots – μια startup που προέρχεται από το Google X – έχει κάμερες για τα μάτια στο κεφάλι της και ένα μπράτσο με μια λαβίδα κρυμμένο πίσω από το μακρύ ίσιο σώμα της, το οποίο βρίσκεται στην κορυφή ενός σετ τροχών.

Μπορείτε να παρακολουθήσετε το ρομπότ σε δράση στο παρακάτω βίντεο:

Βίντεο από το YouTube

Ρωτώντας το ρομπότ, κάτι σαν "Μόλις γυμνάστηκα, μπορείς να μου πάρεις ένα υγιεινό σνακ;" θα το ωθήσει να φέρει ένα μήλο. "Το PaLM-SayCan [είναι] μια ερμηνεύσιμη και γενική προσέγγιση για τη μόχλευση της γνώσης από γλωσσικά μοντέλα που επιτρέπει σε ένα ρομπότ να ακολουθεί υψηλού επιπέδου οδηγίες κειμένου για να εκτελεί σωματικά γειωμένες εργασίες", ερευνητές από την ομάδα του εγκεφάλου της Google. εξήγησε.

Η Google παρουσίασε το μεγαλύτερο μοντέλο γλώσσας της Παλάμη τον Απρίλιο του τρέχοντος έτους. Το PaLM εκπαιδεύτηκε σε δεδομένα που αφαιρέθηκαν από το Διαδίκτυο, αλλά αντί να εκπέμπει απαντήσεις ανοιχτού κειμένου, το σύστημα προσαρμόστηκε για να δημιουργήσει μια λίστα οδηγιών που έπρεπε να ακολουθήσει το ρομπότ.

Λέγοντας "Έριξα την κόκα κόλα μου στο τραπέζι, πώς θα την πετάξεις και θα μου έφερνες κάτι για να καθαρίσω;", ζητά από το PalM να κατανοήσει την ερώτηση και να δημιουργήσει μια λίστα με τα βήματα που μπορεί να ακολουθήσει το ρομπότ για να ολοκληρώσει την εργασία, όπως να περάσει. να πάρει το κουτάκι, να το πετάξει σε έναν κάδο και να πάρει ένα σφουγγάρι.

Τα μεγάλα γλωσσικά μοντέλα (LLM) όπως το PaLM, ωστόσο, δεν καταλαβαίνουν το νόημα τίποτε που λένε. Για το λόγο αυτό, οι ερευνητές εκπαίδευσαν ένα ξεχωριστό μοντέλο χρησιμοποιώντας ενισχυτική μάθηση για να γειώσουν την αφηρημένη γλώσσα σε οπτικές αναπαραστάσεις και ενέργειες. Με αυτόν τον τρόπο το ρομπότ μαθαίνει να συσχετίζει τη λέξη "Coke" με μια εικόνα ενός κουτιού ανθρακούχου ποτού.

Το PaLM-SayCan μαθαίνει επίσης τις λεγόμενες «συναρτήσεις προσφορών» – μια μέθοδο που κατατάσσει τη δυνατότητα ολοκλήρωσης μιας συγκεκριμένης ενέργειας δεδομένων αντικειμένων στο περιβάλλον του. Το ρομπότ είναι πιο πιθανό να πιάσει ένα σφουγγάρι παρά μια ηλεκτρική σκούπα, για παράδειγμα, αν εντοπίσει ένα σφουγγάρι αλλά δεν υπάρχει ηλεκτρική σκούπα κοντά του.

«Η μέθοδός μας, το SayCan, εξάγει και αξιοποιεί τη γνώση των LLMs σε σωματικά βασισμένες εργασίες», εξήγησε η ομάδα σε μια ερευνητική εργασία. «Το LLM (Say) παρέχει μια γείωση εργασιών για τον προσδιορισμό χρήσιμων ενεργειών για έναν στόχο υψηλού επιπέδου και οι συναρτήσεις μαθημένης απόδοσης (Can) παρέχουν μια παγκόσμια γείωση για τον προσδιορισμό του τι είναι δυνατό να εκτελεστεί βάσει του σχεδίου. Χρησιμοποιούμε την ενισχυτική μάθηση (RL) ως τρόπο εκμάθησης συναρτήσεων αξίας εξαρτώμενης από τη γλώσσα που παρέχουν δυνατότητες για το τι είναι δυνατό στον κόσμο».

Για να αποτρέψει το ρομπότ από την εκτροπή του έργου, έχει εκπαιδευτεί να επιλέγει ενέργειες μόνο από 101 διαφορετικές οδηγίες. Η Google το εκπαίδευσε ώστε να προσαρμόζεται σε κουζίνα – Το PalM-SayCan μπορεί να πάρει σνακ, ποτά και να εκτελέσει απλές εργασίες καθαρισμού. Οι ερευνητές πιστεύουν ότι τα LLM είναι το πρώτο βήμα για να κάνουν τα ρομπότ να εκτελούν πιο σύνθετες εργασίες με ασφάλεια, με αφηρημένες οδηγίες.

«Τα πειράματά μας σε μια σειρά πραγματικών ρομποτικών εργασιών αποδεικνύουν την ικανότητα να σχεδιάζουμε και να συμπληρώνουμε μακροχρόνιες, αφηρημένες, οδηγίες φυσικής γλώσσας με υψηλό ποσοστό επιτυχίας. Πιστεύουμε ότι η ερμηνευτικότητα του PaLM-SayCan επιτρέπει την ασφαλή αλληλεπίδραση των χρηστών στον πραγματικό κόσμο με τα ρομπότ», κατέληξαν. ®

Σφραγίδα ώρας: Αύγουστος 18, 2022Αύγουστος 18, 2022