Τα μικροσκοπικά μοντέλα γλώσσας ευδοκιμούν με το GPT-4 ως δάσκαλος | Περιοδικό Quanta

Τα μικροσκοπικά μοντέλα γλώσσας ευδοκιμούν με το GPT-4 ως δάσκαλος | Περιοδικό Quanta

Τα μικροσκοπικά μοντέλα γλώσσας ευδοκιμούν με το GPT-4 ως δάσκαλος | Quanta Magazine PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εισαγωγή

Η εκμάθηση Αγγλικών δεν είναι εύκολη υπόθεση, όπως γνωρίζουν καλά αμέτρητοι μαθητές. Αλλά όταν ο μαθητής είναι υπολογιστής, μια προσέγγιση λειτουργεί εκπληκτικά καλά: Απλώς τροφοδοτήστε βουνά κειμένου από το Διαδίκτυο σε ένα τεράστιο μαθηματικό μοντέλο που ονομάζεται νευρωνικό δίκτυο. Αυτή είναι η αρχή λειτουργίας πίσω από μοντέλα παραγωγής γλώσσας όπως το ChatGPT του OpenAI, του οποίου η ικανότητα να συνομιλεί με συνοχή (αν όχι πάντα με ειλικρίνεια) σε ένα ευρύ φάσμα θεμάτων έχει εκπλήξει τους ερευνητές και το κοινό τον περασμένο χρόνο.

Αλλά η προσέγγιση έχει τα μειονεκτήματά της. Πρώτον, η διαδικασία «εκπαίδευσης» που απαιτείται για τη μετατροπή τεράστιων αρχείων κειμένων σε μοντέλα γλώσσας αιχμής είναι δαπανηρή και χρονοβόρα. Για έναν άλλον, ακόμη και οι άνθρωποι που εκπαιδεύουν μεγάλα γλωσσικά μοντέλα δυσκολεύονται να κατανοήσουν την εσωτερική τους λειτουργία. Αυτό, με τη σειρά του, καθιστά δύσκολο να προβλέψουμε τους πολλούς τρόπους με τους οποίους μπορούν να αποτύχουν.

Αντιμέτωποι με αυτές τις δυσκολίες, ορισμένοι ερευνητές επέλεξαν να εκπαιδευτούν μικρότερα μοντέλα σε μικρότερα σύνολα δεδομένων και στη συνέχεια μελετήστε τη συμπεριφορά τους. «Είναι σαν να ακολουθεί η σειρά Drosophila γονιδίωμα έναντι αλληλουχίας του ανθρώπινου γονιδιώματος», είπε Έλι Πάβλικ, ερευνήτρια γλωσσικού μοντέλου στο Πανεπιστήμιο Brown.

Τώρα, σε ένα χαρτί Αναρτήθηκε πρόσφατα στον επιστημονικό διακομιστή προεκτύπωσης arxiv.org, ένα ζευγάρι ερευνητών της Microsoft εισήγαγε μια νέα μέθοδο για την εκπαίδευση μικροσκοπικών μοντέλων γλώσσας: Μεγαλώστε τα σε μια αυστηρή δίαιτα με παιδικές ιστορίες.

Οι ερευνητές μηχανικής μάθησης έχουν αγκαλιάσει αυτό το μάθημα. Το GPT-3.5, το μεγάλο μοντέλο γλώσσας που τροφοδοτεί τη διεπαφή ChatGPT, έχει σχεδόν 200 δισεκατομμύρια παραμέτρους και εκπαιδεύτηκε σε ένα σύνολο δεδομένων που περιλαμβάνει εκατοντάδες δισεκατομμύρια λέξεις. (Το OpenAI δεν έχει δημοσιεύσει τα αντίστοιχα στοιχεία για τον διάδοχό του, το GPT-4.) Η εκπαίδευση τέτοιων μεγάλων μοντέλων απαιτεί συνήθως τουλάχιστον 1,000 εξειδικευμένους επεξεργαστές που ονομάζονται GPU που λειτουργούν παράλληλα για εβδομάδες κάθε φορά. Μόνο λίγες εταιρείες μπορούν να συγκεντρώσουν τους απαραίτητους πόρους, πόσο μάλλον να εκπαιδεύσουν και να συγκρίνουν διαφορετικά μοντέλα.

Οι δύο ερευνητές έδειξαν ότι τα μοντέλα γλώσσας χιλιάδες φορές μικρότερα από τα σημερινά συστήματα τελευταίας τεχνολογίας έμαθαν γρήγορα να λένε συνεπείς και γραμματικές ιστορίες όταν εκπαιδεύτηκαν με αυτόν τον τρόπο. Τα αποτελέσματά τους υποδηλώνουν νέες ερευνητικές κατευθύνσεις που μπορεί να είναι χρήσιμες για την εκπαίδευση μεγαλύτερων μοντέλων και την κατανόηση της συμπεριφοράς τους.

«Βρήκα αυτό το χαρτί πολύ κατατοπιστικό», είπε Chandra Bhagavatula, ερευνητής γλωσσικών μοντέλων στο Allen Institute for Artificial Intelligence στο Σιάτλ. «Η ίδια η ιδέα είναι εξαιρετικά ενδιαφέρουσα».

Μια φορά κι έναν καιρό

Τα νευρωνικά δίκτυα στην καρδιά των γλωσσικών μοντέλων είναι μαθηματικές δομές που εμπνέονται χαλαρά από τον ανθρώπινο εγκέφαλο. Κάθε ένας περιέχει πολλούς τεχνητούς νευρώνες διατεταγμένους σε στρώματα, με συνδέσεις μεταξύ νευρώνων σε γειτονικά στρώματα. Η συμπεριφορά του νευρωνικού δικτύου διέπεται από την ισχύ αυτών των συνδέσεων, που ονομάζονται παράμετροι. Σε ένα μοντέλο γλώσσας, οι παράμετροι ελέγχουν ποιες λέξεις μπορεί να φτύσει το μοντέλο στη συνέχεια, δεδομένου του αρχικού προτροπής και των λέξεων που έχει ήδη δημιουργήσει.

Ένα μοντέλο ζωντανεύει πραγματικά μόνο κατά τη διάρκεια της προπόνησης, όταν συγκρίνει επανειλημμένα τη δική του έξοδο με το κείμενο στο σύνολο δεδομένων εκπαίδευσης και προσαρμόζει τις παραμέτρους του για να αυξήσει την ομοιότητα. Ένα μη εκπαιδευμένο δίκτυο με τυχαίες παραμέτρους είναι ασήμαντο εύκολο να συναρμολογηθεί από μερικές γραμμές κώδικα, αλλά θα παράγει απλώς ασυναρτησίες. Μετά την προπόνηση, μπορεί συχνά να συνεχίσει εύλογα άγνωστο κείμενο. Τα μεγαλύτερα μοντέλα συχνά υποβάλλονται σε περαιτέρω λεπτομέρεια που τους διδάσκει να απαντούν σε ερωτήσεις και να ακολουθούν οδηγίες, αλλά το μεγαλύτερο μέρος της εκπαίδευσης αφορά την εξοικείωση με την πρόβλεψη λέξεων.

Η επιτυχία στην πρόβλεψη λέξεων απαιτεί ένα γλωσσικό μοντέλο για να κυριαρχήσει πολλές διαφορετικές δεξιότητες. Για παράδειγμα, οι κανόνες της αγγλικής γραμματικής υποδηλώνουν ότι η επόμενη λέξη μετά τη λέξη "going" είναι πιθανό να είναι "to", ανεξάρτητα από το θέμα του κειμένου. Επιπλέον, ένα σύστημα χρειάζεται πραγματικές γνώσεις για να ολοκληρώσει «η πρωτεύουσα της Γαλλίας είναι» και να ολοκληρώσει ένα απόσπασμα που περιέχει η λέξη "όχι" απαιτεί μια στοιχειώδη αντίληψη της λογικής.

«Η ωμή γλώσσα είναι πολύ περίπλοκη», είπε Timothy Nguyen, ερευνητής μηχανικής μάθησης στο DeepMind. «Για να προκύψουν ενδιαφέρουσες γλωσσικές ικανότητες, οι άνθρωποι έχουν καταφύγει στο «περισσότερα δεδομένα είναι καλύτερα».

Εισαγωγή

Ρόνεν Έλνταν, ένας μαθηματικός που εντάχθηκε στη Microsoft Research το 2022 για να μελετήσει παραγωγικά γλωσσικά μοντέλα, ήθελε να αναπτύξει έναν φθηνότερο και ταχύτερο τρόπο για να εξερευνήσει τις ικανότητές του. Ο φυσικός τρόπος για να γίνει αυτό ήταν με τη χρήση ενός μικρού συνόλου δεδομένων, και αυτό με τη σειρά του σήμαινε ότι θα έπρεπε να εκπαιδεύσει μοντέλα να ειδικεύονται σε μια συγκεκριμένη εργασία, ώστε να μην εξαπλωθούν πολύ λεπτά. Αρχικά, ήθελε να εκπαιδεύσει μοντέλα για να λύσουν μια συγκεκριμένη κατηγορία μαθηματικών προβλημάτων, αλλά ένα απόγευμα, αφού πέρασε χρόνο με την 5χρονη κόρη του, συνειδητοποίησε ότι οι παιδικές ιστορίες ταιριάζουν απόλυτα.

«Μου ήρθε κυριολεκτικά αφού της διάβασα μια ιστορία», είπε.

Για να δημιουργήσει συνεκτικές παιδικές ιστορίες, ένα γλωσσικό μοντέλο θα πρέπει να μάθει γεγονότα για τον κόσμο, να παρακολουθεί χαρακτήρες και γεγονότα και να τηρεί τους κανόνες της γραμματικής — απλούστερες εκδοχές των προκλήσεων που αντιμετωπίζουν τα μεγάλα μοντέλα. Αλλά τα μεγάλα μοντέλα που έχουν εκπαιδευτεί σε τεράστια σύνολα δεδομένων μαθαίνουν αμέτρητες άσχετες λεπτομέρειες μαζί με τους κανόνες που έχουν πραγματικά σημασία. Ο Έλνταν ήλπιζε ότι η συντομία και το περιορισμένο λεξιλόγιο των παιδικών ιστοριών θα μπορούσαν να καταστήσουν τη μάθηση πιο διαχειρίσιμη για μικρά μοντέλα – καθιστώντας τα τόσο πιο εύκολα στην εκπαίδευση όσο και πιο κατανοητά.

Στον κόσμο των γλωσσικών μοντέλων, ωστόσο, το "μικρό" είναι σχετικό: Ένα σύνολο δεδομένων χίλιες φορές μικρότερο από αυτό που χρησιμοποιείται για την εκπαίδευση του GPT-3.5 θα πρέπει να περιέχει εκατομμύρια ιστορίες. «Δεν ξέρω πόσα χρήματα θέλετε να ξοδέψετε, αλλά υποθέτω ότι δεν πρόκειται να προσλάβετε επαγγελματίες για να γράψουν [μερικά εκατομμύρια] διηγήματα», είπε ο Nguyen.

Θα χρειαζόταν ένας εξαιρετικά παραγωγικός συγγραφέας για να ικανοποιήσει τόσο αδηφάγους αναγνώστες, αλλά ο Έλνταν είχε στο μυαλό του μερικούς υποψηφίους. Ποιος είναι καλύτερος να γράψει για ένα κοινό μικρών γλωσσικών μοντέλων από τα μεγάλα;

Ιστορίες παιχνιδιών

Ο Έλνταν ξεκίνησε αμέσως να δημιουργήσει μια βιβλιοθήκη συνθετικών παιδικών ιστοριών που δημιουργήθηκαν από μεγάλα γλωσσικά μοντέλα. Σύντομα όμως ανακάλυψε ότι ακόμη και τα μοντέλα τελευταίας τεχνολογίας δεν είναι από τη φύση τους πολύ δημιουργικά. Αν απλώς πείτε στο GPT-4 να γράψει ιστορίες κατάλληλες για παιδιά 4 ετών, ο Έλνταν είπε, «περίπου το ένα πέμπτο των ιστοριών θα αφορά παιδιά που πηγαίνουν στο πάρκο φοβισμένα από τις τσουλήθρες». Αυτή είναι προφανώς η βασική ιστορία της προσχολικής ηλικίας, όσον αφορά το διαδίκτυο.

Η λύση ήταν να προσθέσουμε λίγη τυχαιότητα στην προτροπή. Πρώτον, ο Έλνταν χρησιμοποίησε το GPT-4 για να δημιουργήσει μια λίστα με 1,500 ουσιαστικά, ρήματα και επίθετα που μπορεί να γνωρίζει ένα παιδί 4 ετών — αρκετά σύντομη ώστε να μπορεί εύκολα να τα ελέγξει μόνος του. Στη συνέχεια έγραψε ένα απλό πρόγραμμα υπολογιστή που θα προέτρεπε επανειλημμένα το GPT-3.5 ή το GPT-4 να δημιουργήσει μια ιστορία κατάλληλη για την ηλικία που περιελάμβανε τρεις τυχαίες λέξεις από τη λίστα, μαζί με μια επιπλέον τυχαία επιλεγμένη λεπτομέρεια, όπως ένα χαρούμενο τέλος ή μια ανατροπή της πλοκής. Οι ιστορίες που προέκυψαν, ευσπλαχνικά, ήταν λιγότερο επικεντρωμένες σε τρομακτικές διαφάνειες.

Ο Έλνταν είχε τώρα μια διαδικασία για τη συγκέντρωση δεδομένων εκπαίδευσης κατά παραγγελία, αλλά δεν είχε ιδέα πόσες ιστορίες θα χρειαζόταν για να εκπαιδεύσει ένα λειτουργικό μοντέλο ή πόσο μεγάλο θα έπρεπε να είναι αυτό το μοντέλο. Τότε ήταν που συνεργάστηκε Yuanzhi Li, ερευνητής μηχανικής μάθησης στη Microsoft και στο Πανεπιστήμιο Carnegie Mellon, για να δοκιμάσει διαφορετικές δυνατότητες, εκμεταλλευόμενος το γεγονός ότι τα μικρά μοντέλα θα μπορούσαν να εκπαιδευτούν πολύ γρήγορα. Το βήμα 1 ήταν να αποφασίσουν πώς να αξιολογήσουν τα μοντέλα τους.

Εισαγωγή

Στην έρευνα γλωσσικών μοντέλων —όπως σε κάθε τάξη— η βαθμολόγηση είναι ένα γεμάτο θέμα. Υπάρχει καμία τέλεια ρουμπρίκα που περικλείει όλα όσα θέλουν να μάθουν οι ερευνητές και τα μοντέλα που υπερέχουν σε ορισμένες εργασίες συχνά αποτυγχάνουν θεαματικά σε άλλες. Με την πάροδο του χρόνου, οι ερευνητές ανέπτυξαν διάφορα τυπικά σημεία αναφοράς που βασίζονται σε ερωτήσεις με σαφείς απαντήσεις, κάτι που είναι μια καλή προσέγγιση εάν προσπαθείτε να αξιολογήσετε συγκεκριμένες δεξιότητες. Αλλά ο Έλνταν και ο Λι ενδιαφέρθηκαν για κάτι πιο νεφελώδες: Πόσο μεγάλα πρέπει πραγματικά να είναι τα γλωσσικά μοντέλα αν απλοποιήσετε τη γλώσσα όσο το δυνατόν περισσότερο;

"Για να ελέγξετε απευθείας εάν το μοντέλο μιλάει αγγλικά, νομίζω ότι το μόνο πράγμα που μπορείτε να κάνετε είναι να αφήσετε το μοντέλο να δημιουργήσει αγγλικά με ανοιχτό τρόπο", είπε ο Eldan.

Υπάρχουν μόνο δύο τρόποι για τη μέτρηση της απόδοσης ενός μοντέλου σε τέτοιες ποιοτικές ερωτήσεις: Βασιστείτε στους ανθρώπους που βαθμολογούνται ή στραφείτε ξανά στο GPT-4. Οι δύο ερευνητές επέλεξαν την τελευταία διαδρομή, αφήνοντας ουσιαστικά τα μεγάλα μοντέλα να γράψουν τα σχολικά βιβλία και να βαθμολογήσουν τα δοκίμια.

Ο Bhagavatula είπε ότι θα ήθελε να δει πώς οι αξιολογήσεις του GPT-4 σε σύγκριση με εκείνες των ανθρώπινων αναθεωρητών - το GPT-4 μπορεί να είναι προκατειλημμένες προς μοντέλα που βοήθησε στην εκπαίδευση και η αδιαφάνεια των γλωσσικών μοντέλων καθιστά δύσκολο τον ποσοτικό προσδιορισμό τέτοιων προκαταλήψεων. Αλλά δεν πιστεύει ότι τέτοιες λεπτές αποχρώσεις θα επηρεάσουν τις συγκρίσεις μεταξύ διαφορετικών μοντέλων που έχουν εκπαιδευτεί σε παρόμοια σύνολα συνθετικών ιστοριών - το κύριο επίκεντρο της δουλειάς του Έλνταν και του Λι.

Ο Έλνταν και ο Λι χρησιμοποίησαν μια διαδικασία δύο βημάτων για την αξιολόγηση καθενός από τα μικρά μοντέλα τους μετά την προπόνηση. Πρώτον, ώθησαν το μικρό μοντέλο με το πρώτο μισό μιας ιστορίας διαφορετικό από αυτά στο σύνολο δεδομένων εκπαίδευσης, έτσι ώστε να δημιουργήσει ένα νέο τέλος, επαναλαμβάνοντας αυτή τη διαδικασία με 50 διαφορετικές δοκιμαστικές ιστορίες. Δεύτερον, ανέθεσαν στο GPT-4 να βαθμολογήσει κάθε ένα από τα τελειώματα του μικρού μοντέλου με βάση τρεις κατηγορίες — δημιουργικότητα, γραμματική και συνέπεια με την αρχή της ιστορίας. Στη συνέχεια υπολόγισαν κατά μέσο όρο τις βαθμολογίες σε κάθε κατηγορία, καταλήγοντας σε τρεις τελικούς βαθμούς ανά μοντέλο.

Με αυτή τη διαδικασία στο χέρι, ο Έλνταν και ο Λι ήταν τελικά έτοιμοι να συγκρίνουν διαφορετικά μοντέλα και να ανακαλύψουν ποιοι ήταν οι πρωταγωνιστές μαθητές.

Αποτελεσματα Εξετασεων

Μετά από κάποια προκαταρκτική εξερεύνηση, οι δύο ερευνητές κατέληξαν σε ένα σύνολο δεδομένων εκπαίδευσης που περιείχε περίπου 2 εκατομμύρια ιστορίες. Στη συνέχεια χρησιμοποίησαν αυτό το σύνολο δεδομένων, που ονομάστηκε TinyStories, για να εκπαιδεύσουν μοντέλα που κυμαίνονταν σε μεγέθη από 1 εκατομμύριο έως 30 εκατομμύρια παραμέτρους, με ποικίλους αριθμούς επιπέδων. Ήταν γρήγορη δουλειά: Χρησιμοποιώντας μόνο τέσσερις GPU, το μεγαλύτερο από αυτά τα μοντέλα δεν χρειάστηκε περισσότερο από μία ημέρα για να εκπαιδευτεί.

Τα πιο μικρά μοντέλα πάλεψαν. Για παράδειγμα, μια δοκιμαστική ιστορία ξεκινά με έναν κακότροπο άντρα που λέει σε ένα κορίτσι ότι θα πάρει τη γάτα της. Ένα μοντέλο εκατομμυρίων παραμέτρων κόλλησε σε έναν βρόχο με το κορίτσι να λέει επανειλημμένα στον άντρα ότι ήθελε να γίνουν φίλοι. Αλλά τα μεγαλύτερα - ακόμα χιλιάδες φορές μικρότερα από το GPT-3.5 - απέδωσαν εκπληκτικά καλά. Η έκδοση των 28 εκατομμυρίων παραμέτρων έλεγε μια συνεκτική ιστορία, αν και το τέλος ήταν ζοφερό: «Η Katie άρχισε να κλαίει, αλλά ο άντρας δεν τον ένοιαζε. Πήρε τη γάτα και η Κέιτι δεν είδε ποτέ ξανά τη γάτα της. Το τέλος."

Εκτός από τη δοκιμή των δικών τους μοντέλων, ο Έλνταν και ο Λι παρουσίασαν την ίδια πρόκληση στο GPT-2 του OpenAI, ένα μοντέλο 1.5 δισεκατομμυρίων παραμέτρων που κυκλοφόρησε το 2019. Τα πήγε πολύ χειρότερα — πριν το απότομο τέλος της ιστορίας, ο άνδρας απειλεί να πάρει το κορίτσι στο δικαστήριο, στη φυλακή, στο νοσοκομείο, στο νεκροτομείο και τέλος στο κρεματόριο.

Εισαγωγή

Ο Nguyen είπε ότι είναι συναρπαστικό που τέτοια μικροσκοπικά μοντέλα ήταν τόσο άπταιστα, αλλά ίσως δεν προκαλεί έκπληξη το γεγονός ότι το GPT-2 δυσκολεύτηκε με την εργασία: Είναι ένα μεγαλύτερο μοντέλο αλλά απέχει πολύ από την τελευταία λέξη της τεχνολογίας και εκπαιδεύτηκε σε ένα πολύ διαφορετικό σύνολο δεδομένων. «Ένα νήπιο που εκπαιδεύεται μόνο σε νήπια, όπως το παιχνίδι με κάποια παιχνίδια, μπορεί να τα πάει καλύτερα από εσάς ή εγώ», σημείωσε. «Δεν ειδικευτήκαμε σε αυτό το απλό πράγμα».

Οι συγκρίσεις μεταξύ διαφορετικών μοντέλων TinyStories δεν πάσχουν από τους ίδιους παράγοντες σύγχυσης. Ο Έλνταν και ο Λι παρατήρησαν υποδείξεις ότι τα δίκτυα με λιγότερα επίπεδα αλλά περισσότερους νευρώνες ανά στρώμα ήταν καλύτερα στο να απαντούν σε ερωτήσεις που απαιτούσαν πραγματική γνώση. Αντίθετα, τα δίκτυα με περισσότερα επίπεδα και λιγότερους νευρώνες ανά στρώμα ήταν καλύτερα στο να παρακολουθούν τους χαρακτήρες και τα σημεία πλοκής από νωρίτερα στην ιστορία. Ο Bhagavatula βρήκε αυτό το αποτέλεσμα ιδιαίτερα ενδιαφέρον. Εάν μπορεί να αντιγραφεί σε μεγαλύτερα μοντέλα, είπε, «αυτό θα ήταν ένα πραγματικά υπέροχο αποτέλεσμα που θα μπορούσε να προέλθει από αυτή τη δουλειά».

Ο Έλνταν και ο Λι μελέτησαν επίσης πώς οι ικανότητες των μικρών μοντέλων τους εξαρτώνται από τη διάρκεια της περιόδου εκπαίδευσης. Σε κάθε περίπτωση, τα μοντέλα κατέκτησαν πρώτα τη γραμματική και τη συνέπεια αργότερα. Για τον Έλνταν, αυτό το μοτίβο δείχνει πώς οι διαφορές στις δομές ανταμοιβής οδηγούν σε διαφορές στα πρότυπα απόκτησης γλώσσας μεταξύ νευρωνικών δικτύων και παιδιών. Για τα γλωσσικά μοντέλα, που μαθαίνουν προβλέποντας λέξεις, «το κίνητρο στις λέξεις «θέλω να έχω» είναι τόσο μεγάλο όσο και στις λέξεις «παγωτό», είπε. Τα παιδιά, από την άλλη πλευρά, «δεν νοιάζονται για το αν θα πουν «Θα ήθελα να έχω λίγο παγωτό» ή απλώς «παγωτό, παγωτό, παγωτό».

Ποιότητα έναντι ποσότητας

Ο Έλνταν και ο Λι ελπίζουν ότι η έρευνα θα παρακινήσει άλλους ερευνητές να εκπαιδεύσουν διαφορετικά μοντέλα το σύνολο δεδομένων TinyStories και συγκρίνετε τις δυνατότητές τους. Αλλά είναι συχνά δύσκολο να προβλέψουμε ποια χαρακτηριστικά μικρών μοντέλων θα εμφανιστούν και σε μεγαλύτερα.

«Ίσως τα μοντέλα όρασης ποντικιών είναι πραγματικά καλοί αντιπρόσωποι της ανθρώπινης όρασης, αλλά είναι τα μοντέλα κατάθλιψης ποντικών καλά μοντέλα ανθρώπινης κατάθλιψης;» είπε ο Πάβλικ. «Για κάθε περίπτωση είναι λίγο διαφορετικό».

Η επιτυχία των μοντέλων TinyStories υποδηλώνει επίσης ένα ευρύτερο μάθημα. Η τυπική προσέγγιση για τη συλλογή συνόλων δεδομένων εκπαίδευσης περιλαμβάνει τη συλλογή κειμένου με ηλεκτρική σκούπα από όλο το διαδίκτυο και στη συνέχεια το φιλτράρισμα των σκουπιδιών. Το συνθετικό κείμενο που δημιουργείται από μεγάλα μοντέλα θα μπορούσε να προσφέρει έναν εναλλακτικό τρόπο για τη συγκέντρωση συνόλων δεδομένων υψηλής ποιότητας που δεν θα έπρεπε να είναι τόσο μεγάλα.

«Έχουμε όλο και περισσότερα στοιχεία ότι αυτό είναι πολύ αποτελεσματικό, όχι μόνο σε μοντέλα μεγέθους TinyStories αλλά και σε μεγαλύτερα μοντέλα», είπε ο Έλνταν. Αυτά τα στοιχεία προέρχονται από ένα ζευγάρι επακόλουθων εγγράφων σχετικά με μοντέλα δισεκατομμυρίων παραμέτρων από τον Eldan, τον Li και άλλους ερευνητές της Microsoft. Στο πρώτο χαρτί, εκπαίδευσαν ένα μοντέλο για να μάθει τη γλώσσα προγραμματισμού Python χρησιμοποιώντας αποσπάσματα κώδικα που δημιουργούνται από το GPT-3.5 μαζί με προσεκτικά επιλεγμένο κώδικα από το διαδίκτυο. Στο δεύτερος, αύξησαν το σύνολο δεδομένων εκπαίδευσης με συνθετικά «διδακτικά βιβλία», που καλύπτουν ένα ευρύ φάσμα θεμάτων, για να εκπαιδεύσουν ένα γλωσσικό μοντέλο γενικής χρήσης. Στις δοκιμές τους, και τα δύο μοντέλα συγκρίθηκαν ευνοϊκά με μεγαλύτερα μοντέλα που εκπαιδεύτηκαν σε μεγαλύτερα σύνολα δεδομένων. Αλλά η αξιολόγηση των μοντέλων γλώσσας είναι πάντα δύσκολη και η προσέγγιση των συνθετικών δεδομένων εκπαίδευσης είναι ακόμα σε αρχικό στάδιο — απαιτούνται περισσότερες ανεξάρτητες δοκιμές.

Καθώς τα γλωσσικά μοντέλα τελευταίας τεχνολογίας μεγαλώνουν ολοένα και περισσότερο, τα εκπληκτικά ευρήματα από τα μικροσκοπικά ξαδέρφια τους υπενθυμίζουν ότι υπάρχουν ακόμα πολλά που δεν καταλαβαίνουμε ακόμη και για τα πιο απλά μοντέλα. Ο Nguyen αναμένει να δει πολλά περισσότερα έγγραφα που θα διερευνούν την προσέγγιση που πρωτοστάτησε στο TinyStories.

«Το ερώτημα είναι: Πού και γιατί έχει σημασία το μέγεθος;» αυτός είπε. «Θα έπρεπε να υπάρχει μια επιστήμη για αυτό, και αυτή η εργασία είναι ελπίζουμε ότι είναι η αρχή μιας πλούσιας ιστορίας».

Σφραγίδα ώρας:

Περισσότερα από Quantamamagazine