Νέα θεωρία προτείνει ότι τα chatbots μπορούν να κατανοήσουν κείμενο | Περιοδικό Quanta

Νέα θεωρία προτείνει ότι τα chatbots μπορούν να κατανοήσουν κείμενο | Περιοδικό Quanta

Νέα θεωρία προτείνει ότι τα chatbots μπορούν να κατανοήσουν κείμενο | Quanta Magazine PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εισαγωγή

Η τεχνητή νοημοσύνη φαίνεται πιο ισχυρή από ποτέ, με chatbots όπως το Bard και το ChatGPT ικανά να παράγουν κείμενο που μοιάζει με ασυνήθιστα ανθρώπινο. Αλλά παρ' όλα τα ταλέντα τους, αυτά τα ρομπότ εξακολουθούν να αφήνουν τους ερευνητές να αναρωτιούνται: Κάντε τέτοια μοντέλα καταλαβαίνω πραγματικά τι λενε? «Σαφώς, κάποιοι πιστεύουν ότι το κάνουν», είπε ο πρωτοπόρος της τεχνητής νοημοσύνης Τζεφ Χίντον σε ένα πρόσφατη συζήτηση με τον Andrew Ng, «και μερικοί άνθρωποι πιστεύουν ότι είναι απλώς στοχαστικοί παπαγάλοι».

Αυτή η υποβλητική φράση προέρχεται από το 2021 χαρτί συν-συγγραφέας Έμιλυ Μπέντερ, υπολογιστική γλωσσολόγος στο Πανεπιστήμιο της Ουάσιγκτον. Υποδηλώνει ότι τα μεγάλα γλωσσικά μοντέλα (LLM) - που αποτελούν τη βάση των σύγχρονων chatbots - δημιουργούν κείμενο μόνο συνδυάζοντας πληροφορίες που έχουν ήδη δει "χωρίς καμία αναφορά στο νόημα", έγραψαν οι συγγραφείς, γεγονός που κάνει ένα LLM "στοχαστικό παπαγάλο".

Αυτά τα μοντέλα τροφοδοτούν πολλά από τα μεγαλύτερα και καλύτερα chatbot του σήμερα, οπότε ο Hinton υποστήριξε ότι ήρθε η ώρα να καθορίσουμε την έκταση αυτού που καταλαβαίνουν. Το ερώτημα, γι' αυτόν, είναι κάτι παραπάνω από ακαδημαϊκό. «Εφόσον έχουμε αυτές τις διαφορές απόψεων», είπε στον Ng, ​​«δεν θα μπορέσουμε να καταλήξουμε σε συναίνεση σχετικά με τους κινδύνους».

Νέα έρευνα μπορεί να έχει υποδείξεις για μια απάντηση. Μια θεωρία που αναπτύχθηκε από Sanjeev Arora του Πανεπιστημίου Πρίνστον και Ανιρούντ Γκογιάλ, ένας ερευνητής στο Google DeepMind, προτείνει ότι τα μεγαλύτερα από τα σημερινά LLM δεν είναι στοχαστικοί παπαγάλοι. Οι συγγραφείς υποστηρίζουν ότι καθώς αυτά τα μοντέλα μεγαλώνουν και εκπαιδεύονται σε περισσότερα δεδομένα, βελτιώνουν τις ατομικές ικανότητες που σχετίζονται με τη γλώσσα και επίσης αναπτύσσουν νέες συνδυάζοντας δεξιότητες με τρόπο που υποδηλώνει την κατανόηση — συνδυασμούς που ήταν απίθανο να υπάρχουν στα δεδομένα εκπαίδευσης .

Αυτή η θεωρητική προσέγγιση, η οποία παρέχει ένα μαθηματικά αποδεδειγμένο επιχείρημα για το πώς και γιατί ένα LLM μπορεί να αναπτύξει τόσες πολλές ικανότητες, έχει πείσει ειδικούς όπως ο Hinton και άλλοι. Και όταν ο Arora και η ομάδα του δοκίμασαν ορισμένες από τις προβλέψεις του, διαπίστωσαν ότι αυτά τα μοντέλα συμπεριφέρθηκαν σχεδόν ακριβώς όπως αναμενόταν. Από όλους τους λογαριασμούς, έχουν ισχυριστεί ότι τα μεγαλύτερα LLM δεν παπαγαλίζουν απλώς αυτά που έχουν δει στο παρελθόν.

«Δεν μπορούν απλώς να μιμούνται αυτό που έχει δει στα δεδομένα εκπαίδευσης», είπε Σεμπαστιάν Μπούμπεκ, μαθηματικός και επιστήμονας υπολογιστών στο Microsoft Research που δεν ήταν μέρος της εργασίας. «Αυτή είναι η βασική εικόνα».

Περισσότερα δεδομένα, περισσότερη δύναμη

Η εμφάνιση του απροσδόκητες και ποικίλες ικανότητες στα LLMs, είναι δίκαιο να πούμε, ήταν έκπληξη. Αυτές οι ικανότητες δεν είναι προφανής συνέπεια του τρόπου κατασκευής και εκπαίδευσης των συστημάτων. Το LLM είναι ένα τεράστιο τεχνητό νευρωνικό δίκτυο, το οποίο συνδέει μεμονωμένους τεχνητούς νευρώνες. Αυτές οι συνδέσεις είναι γνωστές ως παράμετροι του μοντέλου και ο αριθμός τους υποδηλώνει το μέγεθος του LLM. Η εκπαίδευση περιλαμβάνει να δώσουμε στο LLM μια πρόταση με την τελευταία λέξη ασαφή, για παράδειγμα, «Τα καύσιμα κοστίζουν ένα χέρι και ένα ___». Το LLM προβλέπει μια κατανομή πιθανοτήτων σε ολόκληρο το λεξιλόγιό του, οπότε αν ξέρει, ας πούμε, χίλιες λέξεις, προβλέπει χίλιες πιθανότητες. Στη συνέχεια επιλέγει την πιο πιθανή λέξη για να ολοκληρώσει την πρόταση - πιθανώς, "πόδι".

Αρχικά, το LLM μπορεί να επιλέξει κακώς λέξεις. Στη συνέχεια, ο αλγόριθμος εκπαίδευσης υπολογίζει μια απώλεια - την απόσταση, σε κάποιο μαθηματικό χώρο υψηλών διαστάσεων, μεταξύ της απάντησης του LLM και της πραγματικής λέξης στην αρχική πρόταση - και χρησιμοποιεί αυτήν την απώλεια για να τροποποιήσει τις παραμέτρους. Τώρα, με την ίδια πρόταση, το LLM θα υπολογίσει μια καλύτερη κατανομή πιθανοτήτων και η απώλειά του θα είναι ελαφρώς μικρότερη. Ο αλγόριθμος το κάνει αυτό για κάθε πρόταση στα δεδομένα εκπαίδευσης (πιθανώς δισεκατομμύρια προτάσεις), έως ότου η συνολική απώλεια του LLM πέσει σε αποδεκτά επίπεδα. Μια παρόμοια διαδικασία χρησιμοποιείται για τον έλεγχο του LLM σε προτάσεις που δεν ήταν μέρος των δεδομένων εκπαίδευσης.

Ένα εκπαιδευμένο και δοκιμασμένο LLM, όταν παρουσιάζεται με μια νέα προτροπή κειμένου, θα δημιουργήσει την πιο πιθανή επόμενη λέξη, θα την προσαρτήσει στην προτροπή, θα δημιουργήσει μια άλλη επόμενη λέξη και θα συνεχίσει με αυτόν τον τρόπο, παράγοντας μια φαινομενικά συνεκτική απάντηση. Τίποτα στη διαδικασία εκπαίδευσης δεν υποδηλώνει ότι τα μεγαλύτερα LLM, που έχουν δημιουργηθεί χρησιμοποιώντας περισσότερες παραμέτρους και δεδομένα εκπαίδευσης, θα πρέπει επίσης να βελτιώνονται σε εργασίες που απαιτούν λογική απάντηση.

Αλλά το κάνουν. Αρκετά μεγάλα LLM επιδεικνύουν ικανότητες - από την επίλυση στοιχειωδών μαθηματικών προβλημάτων έως την απάντηση ερωτήσεων σχετικά με τα γεγονότα στο μυαλό των άλλων - που τα μικρότερα μοντέλα δεν έχουν, παρόλο που είναι όλα εκπαιδευμένα με παρόμοιους τρόπους.

«Από πού προέκυψε αυτή η [ικανότητα];» αναρωτήθηκε η Αρόρα. «Και μπορεί αυτό να προκύψει μόνο από την πρόβλεψη της επόμενης λέξης;»

Σύνδεση δεξιοτήτων με κείμενο

Η Arora συνεργάστηκε με τον Goyal για να απαντήσει σε τέτοιες ερωτήσεις αναλυτικά. «Προσπαθούσαμε να καταλήξουμε σε ένα θεωρητικό πλαίσιο για να καταλάβουμε πώς συμβαίνει η ανάδυση», είπε ο Arora.

Το δίδυμο στράφηκε σε μαθηματικά αντικείμενα που ονομάζονται τυχαία γραφήματα. Ένα γράφημα είναι μια συλλογή σημείων (ή κόμβων) που συνδέονται με γραμμές (ή ακμές) και σε ένα τυχαίο γράφημα η παρουσία μιας ακμής μεταξύ οποιωνδήποτε δύο κόμβων υπαγορεύεται τυχαία - ας πούμε, από μια αναστροφή νομίσματος. Το νόμισμα μπορεί να είναι προκατειλημμένο, έτσι ώστε να βγει στο κεφάλι με κάποια πιθανότητα p. Εάν το κέρμα έρχεται σε κεφαλές για ένα δεδομένο ζεύγος κόμβων, σχηματίζεται μια άκρη μεταξύ αυτών των δύο κόμβων. διαφορετικά παραμένουν ασύνδετα. Ως αξία του p αλλαγές, τα γραφήματα μπορούν να δείχνουν ξαφνικές μεταβάσεις στις ιδιότητες τους. Για παράδειγμα, πότε p υπερβαίνει ένα συγκεκριμένο όριο, οι απομονωμένοι κόμβοι - αυτοί που δεν είναι συνδεδεμένοι με κανέναν άλλο κόμβο - εξαφανίζονται απότομα.

Ο Arora και ο Goyal συνειδητοποίησαν ότι τα τυχαία γραφήματα, τα οποία προκαλούν απροσδόκητες συμπεριφορές αφού πληρούν ορισμένα όρια, θα μπορούσαν να είναι ένας τρόπος να μοντελοποιήσουν τη συμπεριφορά των LLMs. Τα νευρωνικά δίκτυα έχουν γίνει σχεδόν πολύ περίπλοκα για ανάλυση, αλλά οι μαθηματικοί μελετούν τυχαία γραφήματα για μεγάλο χρονικό διάστημα και έχουν αναπτύξει διάφορα εργαλεία για να τα αναλύσουν. Ίσως η θεωρία τυχαίων γραφημάτων θα μπορούσε να δώσει στους ερευνητές έναν τρόπο να κατανοήσουν και να προβλέψουν τις φαινομενικά απροσδόκητες συμπεριφορές μεγάλων LLM.

Οι ερευνητές αποφάσισαν να επικεντρωθούν σε «διμερή» γραφήματα, τα οποία περιέχουν δύο τύπους κόμβων. Στο μοντέλο τους, ένας τύπος κόμβου αντιπροσωπεύει κομμάτια κειμένου — όχι μεμονωμένες λέξεις αλλά κομμάτια που θα μπορούσαν να είναι μια παράγραφος έως μερικές σελίδες. Αυτοί οι κόμβοι είναι διατεταγμένοι σε ευθεία γραμμή. Κάτω από αυτά, σε μια άλλη γραμμή, βρίσκεται το άλλο σύνολο κόμβων. Αυτά αντιπροσωπεύουν τις δεξιότητες που απαιτούνται για να κατανοήσουν ένα δεδομένο κομμάτι κειμένου. Κάθε δεξιότητα μπορεί να είναι σχεδόν οτιδήποτε. Ίσως ένας κόμβος αντιπροσωπεύει την ικανότητα ενός LLM να κατανοεί τη λέξη «γιατί», η οποία ενσωματώνει κάποια έννοια της αιτιότητας. Ένα άλλο θα μπορούσε να αντιπροσωπεύει τη δυνατότητα διαίρεσης δύο αριθμών. ένα άλλο μπορεί να αντιπροσωπεύει την ικανότητα ανίχνευσης της ειρωνείας. «Αν καταλαβαίνετε ότι το κομμάτι του κειμένου είναι ειρωνικό, πολλά πράγματα ανατρέπονται», είπε η Arora. «Αυτό είναι σχετικό με την πρόβλεψη λέξεων».

Για να είμαστε σαφείς, τα LLM δεν εκπαιδεύονται ούτε δοκιμάζονται με γνώμονα τις δεξιότητες. έχουν κατασκευαστεί μόνο για να βελτιώσουν την πρόβλεψη επόμενης λέξης. Αλλά η Arora και ο Goyal ήθελαν να κατανοήσουν τα LLM από την οπτική γωνία των δεξιοτήτων που μπορεί να απαιτούνται για την κατανόηση ενός μόνο κειμένου. Μια σύνδεση μεταξύ ενός κόμβου δεξιοτήτων και ενός κόμβου κειμένου, ή μεταξύ πολλών κόμβων δεξιοτήτων και ενός κόμβου κειμένου, σημαίνει ότι το LLM χρειάζεται αυτές τις δεξιότητες για να κατανοήσει το κείμενο σε αυτόν τον κόμβο. Επίσης, πολλά κομμάτια κειμένου μπορεί να αντληθούν από την ίδια ικανότητα ή σύνολο δεξιοτήτων. Για παράδειγμα, ένα σύνολο κόμβων δεξιοτήτων που αντιπροσωπεύουν την ικανότητα κατανόησης της ειρωνείας θα συνδεόταν με τους πολυάριθμους κόμβους κειμένου όπου εμφανίζεται η ειρωνεία.

Η πρόκληση τώρα ήταν να συνδέσουμε αυτά τα διμερή γραφήματα με τα πραγματικά LLM και να δούμε αν τα γραφήματα θα μπορούσαν να αποκαλύψουν κάτι σχετικά με την εμφάνιση ισχυρών ικανοτήτων. Ωστόσο, οι ερευνητές δεν μπορούσαν να βασιστούν σε καμία πληροφορία σχετικά με την εκπαίδευση ή τη δοκιμή πραγματικών LLM - εταιρείες όπως η OpenAI ή η DeepMind δεν δημοσιοποιούν την εκπαίδευση ή τα δεδομένα δοκιμών τους. Επίσης, η Arora και ο Goyal ήθελαν να προβλέψουν πώς θα συμπεριφέρονται τα LLM καθώς γίνονται ακόμη μεγαλύτερα και δεν υπάρχουν διαθέσιμες τέτοιες πληροφορίες για τα επερχόμενα chatbot. Υπήρχε, ωστόσο, μια κρίσιμη πληροφορία στην οποία μπορούσαν να έχουν πρόσβαση οι ερευνητές.

Από το 2021, οι ερευνητές που μελετούν την απόδοση των LLM και άλλων νευρωνικών δικτύων έχουν δει να αναδύεται ένα παγκόσμιο χαρακτηριστικό. Παρατήρησαν ότι καθώς ένα μοντέλο μεγαλώνει, είτε σε μέγεθος είτε σε ποσότητα δεδομένων εκπαίδευσης, η απώλειά του στα δεδομένα δοκιμής (η διαφορά μεταξύ προβλεπόμενων και σωστών απαντήσεων σε νέα κείμενα, μετά την εκπαίδευση) μειώνεται με πολύ συγκεκριμένο τρόπο. Αυτές οι παρατηρήσεις έχουν κωδικοποιηθεί σε εξισώσεις που ονομάζονται νόμοι νευρικής κλίμακας. Έτσι, οι Arora και Goyal σχεδίασαν τη θεωρία τους ώστε να μην εξαρτώνται από δεδομένα από οποιοδήποτε μεμονωμένο LLM, chatbot ή σύνολο δεδομένων εκπαίδευσης και δοκιμής, αλλά από τον παγκόσμιο νόμο που όλα αυτά τα συστήματα αναμένεται να υπακούουν: την απώλεια που προβλέπεται από τους νόμους κλιμάκωσης.

Ίσως, σκέφτηκαν, η βελτιωμένη απόδοση - όπως μετράται από τους νόμους της νευρικής κλιμάκωσης - σχετίζεται με βελτιωμένες δεξιότητες. Και αυτές οι βελτιωμένες δεξιότητες θα μπορούσαν να οριστούν στα διμερή γραφήματα τους με τη σύνδεση των κόμβων δεξιοτήτων με τους κόμβους κειμένου. Η δημιουργία αυτής της σύνδεσης - μεταξύ των νόμων κλιμάκωσης των νευρώνων και των διμερών γραφημάτων - ήταν το κλειδί που θα τους επέτρεπε να προχωρήσουν.

Κλιμάκωση Δεξιοτήτων

Οι ερευνητές ξεκίνησαν υποθέτοντας ότι υπάρχει ένα υποθετικό διμερές γράφημα που αντιστοιχεί στη συμπεριφορά ενός LLM στα δεδομένα δοκιμής. Για να εξηγήσουν την αλλαγή στην απώλεια του LLM στα δεδομένα δοκιμής, φαντάστηκαν έναν τρόπο να χρησιμοποιήσουν το γράφημα για να περιγράψουν πώς το LLM αποκτά δεξιότητες.

Πάρτε, για παράδειγμα, την ικανότητα «καταλαβαίνει την ειρωνεία». Αυτή η ιδέα αντιπροσωπεύεται με έναν κόμβο δεξιοτήτων, επομένως οι ερευνητές ψάχνουν να δουν με ποιους κόμβους κειμένου συνδέεται αυτός ο κόμβος δεξιοτήτων. Εάν σχεδόν όλοι αυτοί οι συνδεδεμένοι κόμβοι κειμένου είναι επιτυχείς - που σημαίνει ότι οι προβλέψεις του LLM για το κείμενο που αντιπροσωπεύονται από αυτούς τους κόμβους είναι εξαιρετικά ακριβείς - τότε το LLM είναι ικανό σε αυτή τη συγκεκριμένη δεξιότητα. Αλλά αν περισσότερο από ένα συγκεκριμένο κλάσμα των συνδέσεων του κόμβου δεξιοτήτων πηγαίνουν σε κόμβους κειμένου που απέτυχαν, τότε το LLM αποτυγχάνει σε αυτήν την ικανότητα.

Αυτή η σύνδεση μεταξύ αυτών των διμερών γραφημάτων και των LLM επέτρεψε στον Arora και τον Goyal να χρησιμοποιήσουν τα εργαλεία της θεωρίας τυχαίων γραφημάτων για να αναλύσουν τη συμπεριφορά του LLM μέσω διακομιστή μεσολάβησης. Η μελέτη αυτών των γραφημάτων αποκάλυψε ορισμένες σχέσεις μεταξύ των κόμβων. Αυτές οι σχέσεις, με τη σειρά τους, μεταφράστηκαν σε έναν λογικό και ελεγχόμενο τρόπο για να εξηγήσουν πώς τα μεγάλα μοντέλα απέκτησαν τις απαραίτητες δεξιότητες για να επιτύχουν τις απροσδόκητες ικανότητές τους.

Οι Arora και Goyal εξήγησαν αρχικά μια βασική συμπεριφορά: γιατί οι μεγαλύτεροι LLM γίνονται πιο ικανοί από τους μικρότερους ομολόγους τους σε ατομικές δεξιότητες. Ξεκίνησαν με τη χαμηλότερη απώλεια δοκιμής που προβλεπόταν από τους νόμους της νευρικής κλιμάκωσης. Σε ένα γράφημα, αυτή η χαμηλότερη απώλεια δοκιμής αντιπροσωπεύεται από μια πτώση στο κλάσμα των αποτυχημένων κόμβων δοκιμής. Έτσι, υπάρχουν λιγότεροι αποτυχημένοι κόμβοι δοκιμής συνολικά. Και αν υπάρχουν λιγότεροι αποτυχημένοι κόμβοι δοκιμής, τότε υπάρχουν λιγότερες συνδέσεις μεταξύ των αποτυχημένων κόμβων δοκιμής και των κόμβων δεξιοτήτων. Επομένως, ένας μεγαλύτερος αριθμός κόμβων δεξιοτήτων συνδέεται με επιτυχημένους κόμβους δοκιμής, υποδηλώνοντας μια αυξανόμενη ικανότητα σε δεξιότητες για το μοντέλο. «Μια πολύ μικρή μείωση της απώλειας οδηγεί στο να αποκτήσει η μηχανή την ικανότητα αυτών των δεξιοτήτων», είπε ο Goyal.

Στη συνέχεια, το ζευγάρι βρήκε έναν τρόπο να εξηγήσει τις απροσδόκητες ικανότητες ενός μεγαλύτερου μοντέλου. Καθώς το μέγεθος ενός LLM αυξάνεται και η απώλεια δοκιμής του μειώνεται, τυχαίοι συνδυασμοί κόμβων δεξιοτήτων αναπτύσσουν συνδέσεις με μεμονωμένους κόμβους κειμένου. Αυτό υποδηλώνει ότι το LLM βελτιώνεται επίσης στη χρήση περισσότερων από μία δεξιοτήτων τη φορά και αρχίζει να δημιουργεί κείμενο χρησιμοποιώντας πολλαπλές δεξιότητες — συνδυάζοντας, ας πούμε, την ικανότητα χρήσης ειρωνείας με την κατανόηση της λέξης «επειδή» — ακόμα κι αν αυτοί οι ακριβείς συνδυασμοί δεξιότητες δεν υπήρχαν σε κανένα κείμενο στα δεδομένα εκπαίδευσης.

Φανταστείτε, για παράδειγμα, ένα LLM που θα μπορούσε ήδη να χρησιμοποιήσει μια δεξιότητα για τη δημιουργία κειμένου. Εάν κλιμακώσετε τον αριθμό των παραμέτρων ή των δεδομένων εκπαίδευσης του LLM κατά μια τάξη μεγέθους, θα γίνει εξίσου ικανό στη δημιουργία κειμένου που απαιτεί δύο δεξιότητες. Ανεβείτε άλλη μια τάξη μεγέθους και το LLM μπορεί τώρα να εκτελέσει εργασίες που απαιτούν τέσσερις δεξιότητες ταυτόχρονα, και πάλι με το ίδιο επίπεδο ικανότητας. Τα μεγαλύτερα LLM έχουν περισσότερους τρόπους να συνδυάζουν δεξιότητες, γεγονός που οδηγεί σε μια συνδυαστική έκρηξη ικανοτήτων.

Και καθώς ένα LLM κλιμακώνεται, η πιθανότητα να συναντήσει όλους αυτούς τους συνδυασμούς δεξιοτήτων στα δεδομένα εκπαίδευσης γίνεται όλο και πιο απίθανη. Σύμφωνα με τους κανόνες της θεωρίας τυχαίων γραφημάτων, κάθε συνδυασμός προκύπτει από μια τυχαία δειγματοληψία πιθανών δεξιοτήτων. Έτσι, εάν υπάρχουν περίπου 1,000 υποκείμενοι μεμονωμένοι κόμβοι δεξιοτήτων στο γράφημα και θέλετε να συνδυάσετε τέσσερις δεξιότητες, τότε υπάρχουν περίπου 1,000 έως την τέταρτη δύναμη - δηλαδή 1 τρισεκατομμύριο - πιθανοί τρόποι συνδυασμού τους.

Η Arora και ο Goyal θεωρούν αυτό ως απόδειξη ότι οι μεγαλύτεροι LLM δεν βασίζονται μόνο σε συνδυασμούς δεξιοτήτων που είδαν στα δεδομένα εκπαίδευσής τους. Ο Μπούμπεκ συμφωνεί. «Αν ένας LLM είναι πραγματικά ικανός να εκτελέσει αυτές τις εργασίες συνδυάζοντας τέσσερις από αυτές τις χιλιάδες δεξιότητες, τότε πρέπει να κάνει γενίκευση», είπε. Δηλαδή, είναι πολύ πιθανό να μην είναι στοχαστικός παπαγάλος.

Αληθινή Δημιουργικότητα;

Αλλά η Arora και ο Goyal ήθελαν να προχωρήσουν πέρα ​​από τη θεωρία και να δοκιμάσουν τον ισχυρισμό τους ότι οι LLM γίνονται καλύτεροι στο συνδυασμό περισσότερων δεξιοτήτων και, συνεπώς, στη γενίκευση, καθώς αυξάνονται το μέγεθος και τα δεδομένα εκπαίδευσής τους. Μαζί με άλλους συναδέλφους, αυτοί σχεδίασε μια μέθοδο ονομάζεται «μίξη δεξιοτήτων» για να αξιολογήσει την ικανότητα ενός LLM να χρησιμοποιεί πολλαπλές δεξιότητες για τη δημιουργία κειμένου.

Για να δοκιμάσει ένα LLM, η ομάδα του ζήτησε να δημιουργήσει τρεις προτάσεις σε ένα τυχαία επιλεγμένο θέμα που απεικονίζει ορισμένες τυχαία επιλεγμένες δεξιότητες. Για παράδειγμα, ζήτησαν από το GPT-4 (το LLM που εξουσιοδοτεί την πιο ισχυρή έκδοση του ChatGPT) να γράψει για μονομαχίες — ξιφομαχίες, βασικά. Επιπλέον, του ζήτησαν να επιδείξει δεξιότητες σε τέσσερις τομείς: μεροληψία αυτοεξυπηρέτησης, μεταφορά, στατιστική συλλογικότητα και φυσική κοινή γνώση. Το GPT-4 απάντησε: «Η νίκη μου σε αυτόν τον χορό με ατσάλι [μεταφορά] είναι τόσο σίγουρη όσο και η πτώση ενός αντικειμένου στο έδαφος [φυσική]. Ως διάσημος μονομαχητής, είμαι εγγενώς ευκίνητος, όπως και οι περισσότεροι άλλοι [στατιστικός συλλογισμός] της φήμης μου. Ήττα? Είναι δυνατή μόνο λόγω ενός ανομοιόμορφου πεδίου μάχης, όχι της ανεπάρκειάς μου [προκατάληψης για τον εαυτό μου]». Όταν του ζητήθηκε να ελέγξει την απόδοσή του, το GPT-4 το μείωσε σε τρεις προτάσεις.

Εισαγωγή

«Δεν είναι ο Χέμινγουεϊ ή ο Σαίξπηρ», είπε ο Arora, αλλά η ομάδα είναι πεπεισμένη ότι αποδεικνύει την άποψή της: Το μοντέλο μπορεί να δημιουργήσει κείμενο που δεν θα μπορούσε να δει στα δεδομένα εκπαίδευσης, εμφανίζοντας δεξιότητες που αθροίζονται σε αυτό που θα υποστήριζαν ορισμένοι είναι η κατανόηση. Το GPT-4 περνά ακόμη και δοκιμές μίξης δεξιοτήτων που απαιτούν έξι δεξιότητες περίπου στο 10% έως 15% των περιπτώσεων, είπε, παράγοντας κομμάτια κειμένου που είναι στατιστικά αδύνατο να υπήρχαν στα δεδομένα εκπαίδευσης.

Η ομάδα αυτοματοποίησε επίσης τη διαδικασία βάζοντας το GPT-4 να αξιολογήσει τη δική του απόδοση, μαζί με αυτή άλλων LLM. Ο Arora είπε ότι είναι δίκαιο για το μοντέλο να αξιολογήσει τον εαυτό του επειδή δεν έχει μνήμη, επομένως δεν θυμάται ότι του ζητήθηκε να δημιουργήσει το ίδιο το κείμενο που καλείται να αξιολογήσει. Ο Yasaman Bahri, ερευνητής στο Google DeepMind που εργάζεται στα θεμέλια της τεχνητής νοημοσύνης, βρίσκει την αυτοματοποιημένη προσέγγιση «πολύ απλή και κομψή».

Όσο για τη θεωρία, είναι αλήθεια ότι κάνει μερικές υποθέσεις, είπε ο Bubeck, αλλά «αυτές οι υποθέσεις δεν είναι σε καμία περίπτωση τρελές». Εντυπωσιάστηκε επίσης από τα πειράματα. «Αυτό που [η ομάδα] αποδεικνύει θεωρητικά, και επίσης επιβεβαιώνει εμπειρικά, είναι ότι υπάρχει συνθετική γενίκευση, που σημαίνει ότι [οι LLM] είναι σε θέση να συνθέσουν δομικά στοιχεία που δεν έχουν συγκεντρωθεί ποτέ», είπε. «Αυτή, για μένα, είναι η ουσία της δημιουργικότητας».

Ο Arora προσθέτει ότι το έργο δεν λέει τίποτα για την ακρίβεια αυτών που γράφουν οι LLM. «Στην πραγματικότητα, υποστηρίζει την πρωτοτυπία», είπε. «Αυτά τα πράγματα δεν έχουν υπάρξει ποτέ στο εκπαιδευτικό σώμα του κόσμου. Κανείς δεν το έγραψε ποτέ αυτό. Πρέπει να έχει παραισθήσεις».

Παρόλα αυτά, ο Hinton πιστεύει ότι η δουλειά τίθεται για να ξεκουράσει το ερώτημα εάν τα LLM είναι στοχαστικοί παπαγάλοι. «Είναι η πιο αυστηρή μέθοδος που έχω δει για να δείξω ότι το GPT-4 είναι πολύ περισσότερα από έναν απλό στοχαστικό παπαγάλο», είπε. «Αποδεικνύουν πειστικά ότι το GPT-4 μπορεί να δημιουργήσει κείμενο που συνδυάζει δεξιότητες και θέματα με τρόπους που σχεδόν σίγουρα δεν εμφανίστηκαν στα δεδομένα εκπαίδευσης». (Επικοινωνήσαμε με την Bender για την άποψή της σχετικά με τη νέα δουλειά, αλλά αρνήθηκε να σχολιάσει, επικαλούμενη έλλειψη χρόνου.)

Και πράγματι, όπως προβλέπουν τα μαθηματικά, η απόδοση του GPT-4 ξεπερνά κατά πολύ εκείνη του μικρότερου προκατόχου του, GPT-3.5 — σε βαθμό που τρόμαξε την Arora. «Μάλλον δεν είμαι μόνο εγώ», είπε. «Πολλοί άνθρωποι βρήκαν λίγο απόκοσμο πόσο το GPT-4 ήταν καλύτερο από το GPT-3.5, και αυτό συνέβη μέσα σε ένα χρόνο. Αυτό σημαίνει ότι σε έναν άλλο χρόνο θα έχουμε παρόμοια αλλαγή αυτού του μεγέθους; Δεν γνωρίζω. Μόνο το OpenAI ξέρει."

Σφραγίδα ώρας:

Περισσότερα από Quantamamagazine