De minuscules modèles de langage prospèrent avec GPT-4 en tant qu'enseignant | Magazine Quanta

De minuscules modèles de langage prospèrent avec GPT-4 en tant qu'enseignant | Magazine Quanta

De minuscules modèles de langage prospèrent avec GPT-4 en tant qu'enseignant | Quanta Magazine PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Introduction

Apprendre l’anglais n’est pas une tâche facile, comme le savent d’innombrables étudiants. Mais lorsque l’étudiant est un ordinateur, une approche fonctionne étonnamment bien : il suffit de transmettre des montagnes de textes provenant d’Internet à un modèle mathématique géant appelé réseau neuronal. C'est le principe de fonctionnement des modèles de langage génératifs comme ChatGPT d'OpenAI, dont la capacité à converser de manière cohérente (sinon toujours avec vérité) sur un large éventail de sujets a surpris les chercheurs et le public au cours de l'année écoulée.

Mais cette approche a ses inconvénients. D’une part, la procédure de « formation » requise pour transmuer de vastes archives textuelles en modèles linguistiques de pointe est coûteuse et prend beaucoup de temps. D’autre part, même les personnes qui forment de grands modèles de langage ont du mal à comprendre leur fonctionnement interne ; ce qui, à son tour, rend difficile la prévision des nombreuses façons dont ils pourraient échouer.

Face à ces difficultés, certains chercheurs ont choisi de former modèles plus petits sur des ensembles de données plus petits, puis étudiez leur comportement. «C'est comme séquencer le Drosophila génome versus séquençage du génome humain », a déclaré Ellie Pavlick, chercheur en modèles linguistiques à l'Université Brown.

Maintenant, dans un papier Récemment publié sur le serveur de prépublication scientifique arxiv.org, deux chercheurs de Microsoft ont introduit une nouvelle méthode pour entraîner de minuscules modèles de langage : les élever avec un régime strict d'histoires pour enfants.

Les chercheurs en apprentissage automatique ont adopté cette leçon. GPT-3.5, le grand modèle de langage qui alimente l'interface ChatGPT, compte près de 200 milliards de paramètres et a été formé sur un ensemble de données comprenant des centaines de milliards de mots. (OpenAI n'a pas publié les chiffres correspondants pour son successeur, GPT-4.) La formation de modèles aussi volumineux nécessite généralement au moins 1,000 XNUMX processeurs spécialisés appelés GPU fonctionnant en parallèle pendant des semaines. Seules quelques entreprises peuvent rassembler les ressources nécessaires, sans parler de former et de comparer différents modèles.

Les deux chercheurs ont montré que des modèles linguistiques des milliers de fois plus petits que les systèmes de pointe actuels apprenaient rapidement à raconter des histoires cohérentes et grammaticales lorsqu'ils étaient formés de cette manière. Leurs résultats suggèrent de nouvelles orientations de recherche qui pourraient être utiles pour former des modèles plus grands et comprendre leur comportement.

«J'ai trouvé cet article très instructif», a déclaré Chandra Bhagavatula, chercheur en modèles linguistiques à l'Allen Institute for Artificial Intelligence à Seattle. "Le concept en lui-même est super intéressant."

Il était une fois

Les réseaux de neurones au cœur des modèles de langage sont des structures mathématiques vaguement inspirées du cerveau humain. Chacun contient de nombreux neurones artificiels disposés en couches, avec des connexions entre les neurones des couches adjacentes. Le comportement du réseau neuronal est régi par la force de ces connexions, appelées paramètres. Dans un modèle de langage, les paramètres contrôlent les mots que le modèle peut ensuite cracher, en fonction d'une invite initiale et des mots qu'il a déjà générés.

Un modèle ne prend véritablement vie que pendant l'entraînement, lorsqu'il compare à plusieurs reprises sa propre sortie au texte de son ensemble de données d'entraînement et ajuste ses paramètres pour augmenter la ressemblance. Un réseau non entraîné avec des paramètres aléatoires est trivialement facile à assembler à partir de quelques lignes de code, mais il ne produira que du charabia. Après la formation, il peut souvent continuer de manière plausible un texte inconnu. Les modèles plus grands subissent souvent des ajustements supplémentaires qui leur apprennent à répondre aux questions et à suivre les instructions, mais l'essentiel de la formation consiste à maîtriser la prédiction de mots.

Pour réussir la prédiction de mots, il faut un modèle de langage permettant de maîtriser de nombreuses compétences différentes. Par exemple, les règles de la grammaire anglaise suggèrent que le mot suivant le mot «going» sera probablement «to», quel que soit le sujet du texte. De plus, un système a besoin de connaissances factuelles pour compléter « la capitale de la France est », et pour compléter un passage contenant le mot « non » nécessite une compréhension rudimentaire de la logique.

"Le langage brut est très compliqué", a déclaré Timothée Nguyen, chercheur en apprentissage automatique chez DeepMind. « Pour que des capacités linguistiques intéressantes apparaissent, les gens ont eu recours à la formule « plus de données, c'est mieux ». »

Introduction

Ronen Eldan, un mathématicien qui a rejoint Microsoft Research en 2022 pour étudier les modèles de langage génératifs, souhaitait développer un moyen moins coûteux et plus rapide d'explorer leurs capacités. La façon naturelle d'y parvenir était d'utiliser un petit ensemble de données, ce qui signifiait qu'il devait former des modèles pour qu'ils se spécialisent dans une tâche spécifique, afin qu'ils ne se dispersent pas trop. Au départ, il voulait former des modèles pour résoudre une certaine classe de problèmes mathématiques, mais un après-midi, après avoir passé du temps avec sa fille de 5 ans, il s'est rendu compte que les histoires pour enfants lui convenaient parfaitement.

"Cela m'est littéralement venu après lui avoir lu une histoire", a-t-il déclaré.

Pour générer des histoires cohérentes pour enfants, un modèle de langage devrait apprendre des faits sur le monde, suivre les personnages et les événements et observer les règles de grammaire – des versions plus simples des défis auxquels sont confrontés les grands modèles. Mais les grands modèles entraînés sur des ensembles de données massifs apprennent d’innombrables détails non pertinents ainsi que les règles qui comptent vraiment. Eldan espérait que la brièveté et le vocabulaire limité des histoires pour enfants pourraient rendre l'apprentissage plus facile pour les petits modèles, les rendant à la fois plus faciles à former et à comprendre.

Dans le monde des modèles de langage, cependant, « petit » est relatif : un ensemble de données mille fois plus petit que celui utilisé pour entraîner GPT-3.5 devrait quand même contenir des millions d’histoires. « Je ne sais pas combien d'argent vous voulez dépenser, mais j'imagine que vous n'allez pas embaucher des professionnels pour écrire [quelques millions] de nouvelles », a déclaré Nguyen.

Il faudrait un auteur extraordinairement prolifique pour satisfaire des lecteurs aussi voraces, mais Eldan avait quelques candidats en tête. Qui de mieux que les grands pour écrire pour un public de petits modèles de langage ?

Histoires de jouets

Eldan a immédiatement entrepris de créer une bibliothèque d'histoires synthétiques pour enfants générées par de grands modèles de langage. Mais il a vite découvert que même les modèles les plus modernes ne sont pas naturellement très créatifs. Si vous dites simplement à GPT-4 d'écrire des histoires adaptées aux enfants de 4 ans, a déclaré Eldan, "environ un cinquième des histoires concerneront des enfants allant au parc ayant peur des toboggans". C’est apparemment l’histoire préscolaire par excellence, en ce qui concerne Internet.

La solution consistait à ajouter un peu de caractère aléatoire à l'invite. Tout d’abord, Eldan a utilisé GPT-4 pour générer une liste de 1,500 4 noms, verbes et adjectifs qu’un enfant de 3.5 ans pourrait connaître – suffisamment courte pour qu’il puisse facilement la vérifier lui-même. Ensuite, il a écrit un programme informatique simple qui incitait à plusieurs reprises GPT-4 ou GPT-XNUMX à générer une histoire adaptée à l'âge comprenant trois mots aléatoires de la liste, ainsi qu'un détail supplémentaire choisi au hasard, comme une fin heureuse ou un rebondissement. Heureusement, les histoires qui en ont résulté étaient moins axées sur des diapositives effrayantes.

Eldan disposait désormais d'une procédure pour produire des données de formation à la demande, mais il n'avait aucune idée du nombre d'histoires dont il aurait besoin pour former un modèle fonctionnel, ni de la taille de ce modèle. C'est à ce moment-là qu'il s'est associé à Yuanzhi Li, chercheur en apprentissage automatique chez Microsoft et l'Université Carnegie Mellon, pour essayer différentes possibilités, en profitant du fait que de petits modèles pouvaient être formés très rapidement. La première étape consistait à décider comment évaluer leurs modèles.

Introduction

Dans la recherche sur les modèles linguistiques – comme dans chaque salle de classe – la notation est un sujet délicat. Il y a pas de rubrique parfaite qui résume tout ce que les chercheurs veulent savoir, et les modèles qui excellent dans certaines tâches échouent souvent de façon spectaculaire dans d’autres. Au fil du temps, les chercheurs ont développé divers critères de référence standard basés sur des questions aux réponses sans ambiguïté, ce qui constitue une bonne approche si vous essayez d'évaluer des compétences spécifiques. Mais Eldan et Li s’intéressaient à quelque chose de plus nébuleux : quelle doit être la taille réelle des modèles linguistiques si l’on simplifie le langage autant que possible ?

"Afin de tester directement si le modèle parle anglais, je pense que la seule chose que vous pouvez faire est de laisser le modèle générer l'anglais de manière ouverte", a déclaré Eldan.

Il n'existe que deux manières de mesurer les performances d'un modèle sur des questions aussi qualitatives : s'appuyer sur des évaluateurs humains ou se tourner à nouveau vers GPT-4. Les deux chercheurs ont choisi cette dernière voie, laissant effectivement les grands modèles rédiger les manuels et noter les essais.

Bhagavatula a déclaré qu'il aurait aimé voir comment les évaluations de GPT-4 se comparent à celles des évaluateurs humains – GPT-4 peut être biaisé en faveur des modèles qu'il a contribué à former, et l'opacité des modèles de langage rend difficile la quantification de ces biais. Mais il ne pense pas que de telles subtilités affecteraient les comparaisons entre différents modèles formés sur des ensembles similaires d’histoires synthétiques – l’objectif principal du travail d’Eldan et Li.

Eldan et Li ont utilisé une procédure en deux étapes pour évaluer chacun de leurs petits modèles après la formation. Tout d’abord, ils ont déclenché le petit modèle avec la première moitié d’une histoire distincte de celles de l’ensemble de données de formation afin qu’il génère une nouvelle fin, en répétant ce processus avec 50 histoires de test différentes. Deuxièmement, ils ont demandé à GPT-4 de noter chacune des fins du petit modèle en fonction de trois catégories : la créativité, la grammaire et la cohérence avec le début de l'histoire. Ils ont ensuite fait la moyenne des scores dans chaque catégorie, pour obtenir trois notes finales par modèle.

Avec cette procédure en main, Eldan et Li étaient enfin prêts à comparer différents modèles et à découvrir quels étaient les étudiants vedettes.

Résultats de test

Après quelques explorations préliminaires, les deux chercheurs ont opté pour un ensemble de données de formation contenant environ 2 millions d’histoires. Ils ont ensuite utilisé cet ensemble de données, baptisé TinyStories, pour former des modèles allant de 1 million à 30 millions de paramètres, avec un nombre variable de couches. Le travail a été rapide : utilisant seulement quatre GPU, le plus grand de ces modèles n’a pas pris plus d’une journée à s’entraîner.

Les plus petits modèles ont eu du mal. Par exemple, une histoire test commence avec un homme méchant disant à une fille qu’il prendra son chat. Un modèle comportant un million de paramètres s'est retrouvé coincé dans une boucle, la jeune fille répétant à plusieurs reprises à l'homme qu'elle voulait être amie. Mais les plus gros – toujours des milliers de fois plus petits que GPT-3.5 – ont étonnamment bien fonctionné. La version de 28 millions de paramètres racontait une histoire cohérente, même si la fin était sombre : « Katie a commencé à pleurer, mais l'homme s'en fichait. Il a emmené le chat et Katie n'a plus jamais revu son chat. La fin."

En plus de tester leurs propres modèles, Eldan et Li ont présenté le même défi au GPT-2 d'OpenAI, un modèle de 1.5 milliard de paramètres sorti en 2019. Les résultats sont bien pires : avant la fin abrupte de l'histoire, l'homme menace d'emmener la jeune fille. au tribunal, à la prison, à l'hôpital, à la morgue et enfin au crématorium.

Introduction

Nguyen a déclaré qu'il était passionnant que de si petits modèles soient si fluides, mais il n'est peut-être pas surprenant que GPT-2 ait eu du mal à accomplir cette tâche : il s'agit d'un modèle plus grand mais loin d'être à la pointe de la technologie, et il a été formé sur un ensemble de données très différent. "Un tout-petit qui s'entraîne uniquement aux tâches qui lui sont confiées, comme jouer avec des jouets, pourrait faire mieux que vous ou moi", a-t-il noté. "Nous ne nous sommes pas spécialisés dans cette chose simple."

Les comparaisons entre différents modèles TinyStories ne souffrent pas des mêmes facteurs de confusion. Eldan et Li ont observé que les réseaux comportant moins de couches mais plus de neurones par couche étaient plus aptes à répondre aux questions nécessitant des connaissances factuelles ; à l’inverse, les réseaux avec plus de couches et moins de neurones par couche étaient plus efficaces pour garder la trace des personnages et des points de l’intrigue du début de l’histoire. Bhagavatula a trouvé ce résultat particulièrement intrigant. S’il peut être reproduit sur des modèles plus grands, a-t-il déclaré, « ce serait un résultat vraiment intéressant qui pourrait découler de ce travail ».

Eldan et Li ont également étudié comment les capacités de leurs petits modèles dépendaient de la durée de la période de formation. Dans tous les cas, les modèles maîtrisaient d’abord la grammaire et la cohérence ensuite. Pour Eldan, ce modèle illustre comment les différences dans les structures de récompense conduisent à des différences dans les modèles d'acquisition du langage entre les réseaux neuronaux et les enfants. Pour les modèles linguistiques, qui apprennent en prédisant des mots, « l'incitation aux mots « Je veux avoir » est aussi grande que celle aux mots « glace » », a-t-il déclaré. Les enfants, en revanche, « ne se soucient pas de savoir s'ils disent 'Je voudrais avoir de la glace' ou simplement 'de la glace, de la glace, de la glace' ».

Qualité versus quantité

Eldan et Li espèrent que la recherche motivera d'autres chercheurs à former différents modèles sur l'ensemble de données TinyStories et comparer leurs capacités. Mais il est souvent difficile de prédire quelles caractéristiques des petits modèles apparaîtront également dans les plus grands.

« Peut-être que les modèles de vision chez la souris sont de très bons indicateurs de la vision humaine, mais les modèles de dépression chez la souris sont-ils de bons modèles de dépression humaine ? » dit Pavlick. "Pour chaque cas, c'est un peu différent."

Le succès des modèles TinyStories suggère également une leçon plus large. L'approche standard pour compiler des ensembles de données de formation consiste à aspirer le texte sur Internet, puis à filtrer les déchets. Le texte synthétique généré par de grands modèles pourrait offrir une autre façon d'assembler des ensembles de données de haute qualité qui n'auraient pas besoin d'être aussi volumineux.

"Nous avons de plus en plus de preuves que cela est très efficace, non seulement dans les modèles de la taille de TinyStories mais aussi dans les modèles plus grands", a déclaré Eldan. Cette preuve provient de deux articles de suivi sur les modèles à milliards de paramètres rédigés par Eldan, Li et d’autres chercheurs de Microsoft. Dans le premier papier, ils ont formé un modèle pour apprendre le langage de programmation Python à l'aide d'extraits de code générés par GPT-3.5 ainsi que de code soigneusement sélectionné sur Internet. Dans le seconde, ils ont complété l’ensemble de données de formation avec des « manuels » synthétiques couvrant un large éventail de sujets, pour former un modèle de langage à usage général. Lors de leurs tests, les deux modèles se sont comparés favorablement aux modèles plus grands formés sur des ensembles de données plus importants. Mais l’évaluation des modèles de langage est toujours délicate, et l’approche des données de formation synthétiques en est encore à ses balbutiements : des tests plus indépendants sont nécessaires.

Alors que les modèles linguistiques de pointe deviennent de plus en plus grands, les découvertes surprenantes de leurs minuscules cousins ​​nous rappellent qu'il y a encore beaucoup de choses que nous ne comprenons pas, même sur les modèles les plus simples. Nguyen s'attend à voir de nombreux autres articles explorer l'approche lancée par TinyStories.

« La question est : où et pourquoi la taille est-elle importante ? il a dit. "Il devrait y avoir une science à ce sujet, et nous espérons que cet article sera le début d'une riche histoire."

Horodatage:

Plus de Quantamamagazine