NeurIPS 2023 : principaux points à retenir des conférences invitées

Republié par Platon

Suiveurs: 0

Conférences NeurIPS 2023

Généré avec Midjourney

La conférence NeurIPS 2023, qui s'est tenue dans la ville animée de la Nouvelle-Orléans du 10 au 16 décembre, a mis un accent particulier sur l'IA générative et les grands modèles de langage (LLM). À la lumière des récentes avancées révolutionnaires dans ce domaine, il n’est pas surprenant que ces sujets aient dominé les discussions.

L’un des thèmes centraux de la conférence de cette année était la recherche de systèmes d’IA plus efficaces. Les chercheurs et les développeurs recherchent activement des moyens de construire une IA qui non seulement apprend plus rapidement que les LLM actuels, mais qui possède également des capacités de raisonnement améliorées tout en consommant moins de ressources informatiques. Cette poursuite est cruciale dans la course vers l’intelligence générale artificielle (IAG), un objectif qui semble de plus en plus réalisable dans un avenir prévisible.

Les conférences invitées à NeurIPS 2023 étaient le reflet de ces intérêts dynamiques et en évolution rapide. Des présentateurs de divers domaines de la recherche en IA ont partagé leurs dernières réalisations, offrant ainsi une fenêtre sur les développements de pointe en IA. Dans cet article, nous approfondissons ces discussions, en extrayant et en discutant les principaux enseignements et enseignements essentiels à la compréhension des paysages actuels et futurs de l’innovation en IA.

NextGenAI : l'illusion de la mise à l'échelle et l'avenir de l'IA générative

In son discours, Björn Ommer, responsable du groupe de vision par ordinateur et d'apprentissage à l'université Ludwig Maximilian de Munich, a expliqué comment son laboratoire en est venu à développer la diffusion stable, quelques leçons tirées de ce processus et les développements récents, notamment la façon dont nous pouvons mélanger des modèles de diffusion avec correspondance de flux, augmentation de la récupération et approximations LoRA, entre autres.

Principales sorties:

À l’ère de l’IA générative, nous sommes passés de l’accent mis sur la perception dans les modèles de vision (c’est-à-dire la reconnaissance d’objets) à la prédiction des éléments manquants (par exemple, la génération d’images et de vidéos avec des modèles de diffusion).
Pendant 20 ans, la vision par ordinateur s’est concentrée sur la recherche de référence, ce qui a permis de se concentrer sur les problèmes les plus importants. Dans l’IA Générative, nous n’avons aucun benchmark à optimiser, ce qui a ouvert le champ à chacun pour aller dans sa propre direction.
Les modèles de diffusion combinent les avantages des modèles génératifs précédents en étant basés sur des scores avec une procédure de formation stable et une édition efficace des échantillons, mais ils sont coûteux en raison de leur longue chaîne de Markov.
Le défi des modèles à forte vraisemblance est que la plupart des bits entrent dans des détails qui sont à peine perceptibles par l’œil humain, alors que l’encodage de la sémantique, qui compte le plus, ne prend que quelques bits. La mise à l’échelle à elle seule ne résoudrait pas ce problème, car la demande en ressources informatiques augmente 9 fois plus vite que l’offre de GPU.
La solution suggérée consiste à combiner les atouts des modèles de diffusion et des ConvNets, en particulier l'efficacité des convolutions pour représenter les détails locaux et l'expressivité des modèles de diffusion pour un contexte à longue portée.
Björn Ommer suggère également d'utiliser une approche de correspondance de flux pour permettre la synthèse d'images haute résolution à partir de petits modèles de diffusion latente.
Une autre approche pour augmenter l’efficacité de la synthèse d’images consiste à se concentrer sur la composition de la scène tout en utilisant l’augmentation de la récupération pour remplir les détails.
Enfin, il a introduit l'approche iPoke pour la synthèse vidéo stochastique contrôlée.

Si ce contenu approfondi vous est utile, abonnez-vous à notre liste de diffusion AI d'être alerté lorsque nous publierons du nouveau matériel.

Les nombreux visages de l’IA responsable

In sa présentation, Lora Aroyo, chercheuse scientifique chez Google Research, a souligné une limite clé des approches traditionnelles d'apprentissage automatique : leur dépendance à l'égard de catégorisations binaires de données comme exemples positifs ou négatifs. Selon elle, cette simplification excessive néglige la subjectivité complexe inhérente aux scénarios et au contenu du monde réel. À travers divers cas d'utilisation, Aroyo a démontré comment l'ambiguïté du contenu et la variance naturelle des points de vue humains conduisent souvent à des désaccords inévitables. Elle a souligné l’importance de traiter ces désaccords comme des signaux significatifs plutôt que comme de simples bruits.

Voici les principaux points à retenir de la conférence :

Les désaccords entre les travailleurs humains peuvent être productifs. Au lieu de traiter toutes les réponses comme étant correctes ou fausses, Lora Aroyo a introduit la « vérité par désaccord », une approche de vérité distributionnelle pour évaluer la fiabilité des données en exploitant le désaccord des évaluateurs.
La qualité des données est difficile, même avec des experts, car les experts sont autant en désaccord que les travailleurs. Ces désaccords peuvent être bien plus instructifs que les réponses d’un seul expert.
- Dans les tâches d'évaluation de la sécurité, les experts sont en désaccord sur 40 % des exemples. Au lieu d’essayer de résoudre ces désaccords, nous devons collecter davantage d’exemples de ce type et les utiliser pour améliorer les modèles et les paramètres d’évaluation.
Lora Aroyo a également présenté leur Sécurité et diversité méthode pour examiner les données en termes de contenu et de qui les a annotées.
- Cette méthode a produit un ensemble de données de référence avec une variabilité des jugements de sécurité LLM parmi divers groupes démographiques d'évaluateurs (2.5 millions de notes au total).
- Pour 20 % des conversations, il était difficile de décider si la réponse du chatbot était sûre ou dangereuse, car un nombre à peu près égal de personnes interrogées les qualifiaient de sûres ou dangereuses.
La diversité des évaluateurs et des données joue un rôle crucial dans l'évaluation des modèles. Ne pas reconnaître le large éventail de perspectives humaines et l’ambiguïté présente dans le contenu peut entraver l’alignement des performances de l’apprentissage automatique sur les attentes du monde réel.
80 % des efforts de sécurité de l’IA sont déjà assez bons, mais les 20 % restants nécessitent de doubler les efforts pour traiter les cas extrêmes et toutes les variantes dans l’espace infini de la diversité.

Statistiques de cohérence, expérience auto-générée et pourquoi les jeunes humains sont beaucoup plus intelligents que l'IA actuelle

In son discours, Linda Smith, professeure émérite à l'Université de l'Indiana à Bloomington, a exploré le sujet de la rareté des données dans les processus d'apprentissage des nourrissons et des jeunes enfants. Elle s'est spécifiquement concentrée sur la reconnaissance d'objets et l'apprentissage des noms, explorant comment les statistiques des expériences auto-générées par les nourrissons offrent des solutions potentielles au défi de la rareté des données.

Principales sorties:

Dès l’âge de trois ans, les enfants ont développé la capacité d’apprendre de manière ponctuelle dans divers domaines. En moins de 16,000 1,000 heures d’éveil jusqu’à leur quatrième anniversaire, ils parviennent à apprendre plus de XNUMX XNUMX catégories d’objets, à maîtriser la syntaxe de leur langue maternelle et à s’imprégner des nuances culturelles et sociales de leur environnement.
Le Dr Linda Smith et son équipe ont découvert trois principes de l’apprentissage humain qui permettent aux enfants de capturer autant de données à partir de données aussi rares :
- Les apprenants contrôlent l’entrée, à chaque instant ils façonnent et structurent l’entrée. Par exemple, au cours des premiers mois de leur vie, les bébés ont tendance à regarder davantage des objets aux bords simples.
- Puisque les bébés évoluent continuellement dans leurs connaissances et leurs capacités, ils suivent un programme scolaire très contraint. Les données auxquelles ils sont exposés sont organisées de manière profondément significative. Par exemple, les bébés de moins de 4 mois passent le plus de temps à regarder des visages, environ 15 minutes par heure, tandis que ceux de plus de 12 mois se concentrent principalement sur leurs mains, les observant pendant environ 20 minutes par heure.
- Les épisodes d’apprentissage consistent en une série d’expériences interconnectées. Les corrélations spatiales et temporelles créent une cohérence, qui à son tour facilite la formation de souvenirs durables à partir d'événements ponctuels. Par exemple, lorsqu’on leur présente un assortiment aléatoire de jouets, les enfants se concentrent souvent sur quelques jouets « préférés ». Ils interagissent avec ces jouets en utilisant des schémas répétitifs, ce qui facilite un apprentissage plus rapide des objets.
Les souvenirs transitoires (de travail) persistent plus longtemps que l’entrée sensorielle. Les propriétés qui améliorent le processus d'apprentissage comprennent la multimodalité, les associations, les relations prédictives et l'activation des souvenirs passés.
Pour un apprentissage rapide, il faut une alliance entre les mécanismes qui génèrent les données et les mécanismes qui apprennent.

Esquisse : outils de base, augmentation de l'apprentissage et robustesse adaptative

Jelani Nelson, professeur de génie électrique et d'informatique à l'UC Berkeley, introduit le concept de « croquis » de données – une représentation compressée en mémoire d’un ensemble de données qui permet toujours de répondre à des requêtes utiles. Bien que l'exposé ait été assez technique, il a fourni un excellent aperçu de certains outils fondamentaux de dessin, y compris les avancées récentes.

Points clés à retenir :

CountSketch, l'outil de dessin de base, a été introduit pour la première fois en 2002 pour résoudre le problème des « gros frappeurs », en fournissant une petite liste des éléments les plus fréquents du flux d'éléments donné. CountSketch a été le premier algorithme sublinéaire connu utilisé à cette fin.
Deux applications hors streaming de gros frappeurs incluent :
- Méthode basée sur les points intérieurs (IPM) qui donne un algorithme connu asymptotiquement le plus rapide pour la programmation linéaire.
- Méthode HyperAttention qui répond au défi informatique posé par la complexité croissante des contextes longs utilisés dans les LLM.
De nombreux travaux récents se sont concentrés sur la conception de croquis robustes à l'interaction adaptative. L'idée principale est d'utiliser les informations issues de l'analyse adaptative des données.

Panneau Au-delà de la mise à l’échelle

Ce grand panel sur les grands modèles de langage a été animé par Alexander Rush, professeur agrégé à Cornell Tech et chercheur à Hugging Face. Les autres participants comprenaient :

Aakanksha Chowdhery – Chercheur scientifique chez Google DeepMind avec des intérêts de recherche dans les systèmes, la pré-formation LLM et la multimodalité. Elle faisait partie de l'équipe développant PaLM, Gemini et Pathways.
Angela Fan – Chercheuse scientifique chez Meta Generative AI avec des intérêts de recherche dans l'alignement, les centres de données et le multilinguisme. Elle a participé au développement de Llama-2 et Meta AI Assistant.
Percy Liang – Professeur à Stanford chargé de recherches sur les créateurs, l'open source et les agents génératifs. Il est directeur du Centre de recherche sur les modèles de fondation (CRFM) à Stanford et fondateur de Together AI.

La discussion s'est concentrée sur quatre sujets clés : (1) architectures et ingénierie, (2) données et alignement, (3) évaluation et transparence, et (4) créateurs et contributeurs.

Voici quelques-uns des points à retenir de ce panel :

La formation des modèles linguistiques actuels n’est pas difficile en soi. Le principal défi de la formation d'un modèle comme Llama-2-7b réside dans les exigences d'infrastructure et la nécessité de coordonner entre plusieurs GPU, centres de données, etc. Cependant, si le nombre de paramètres est suffisamment petit pour permettre la formation sur un seul GPU, même un étudiant de premier cycle peut y parvenir.
Alors que les modèles autorégressifs sont généralement utilisés pour la génération de texte et les modèles de diffusion pour générer des images et des vidéos, des expériences ont été menées pour inverser ces approches. Plus précisément, dans le projet Gemini, un modèle autorégressif est utilisé pour la génération d'images. Des études ont également été menées sur l'utilisation de modèles de diffusion pour la génération de texte, mais ceux-ci ne se sont pas encore révélés suffisamment efficaces.
Compte tenu de la disponibilité limitée de données en anglais pour les modèles de formation, les chercheurs explorent des approches alternatives. Une possibilité consiste à former des modèles multimodaux sur une combinaison de texte, de vidéo, d'images et d'audio, dans l'espoir que les compétences acquises grâce à ces modalités alternatives puissent être transférées au texte. Une autre option consiste à utiliser des données synthétiques. Il est important de noter que les données synthétiques se fondent souvent dans les données réelles, mais cette intégration n’est pas aléatoire. Le texte publié en ligne fait généralement l'objet d'une conservation et d'une édition humaines, ce qui peut ajouter une valeur supplémentaire à la formation des modèles.
Les modèles à fondation ouverte sont souvent considérés comme bénéfiques pour l’innovation mais potentiellement dangereux pour la sécurité de l’IA, car ils peuvent être exploités par des acteurs malveillants. Cependant, le Dr Percy Liang soutient que les modèles ouverts contribuent également positivement à la sécurité. Il fait valoir qu’en étant accessibles, ils offrent à davantage de chercheurs la possibilité de mener des recherches sur la sécurité de l’IA et d’examiner les modèles pour détecter les vulnérabilités potentielles.
Aujourd’hui, l’annotation de données nécessite beaucoup plus d’expertise dans le domaine de l’annotation qu’il y a cinq ans. Cependant, si les assistants IA fonctionnent comme prévu à l’avenir, nous recevrons des données de retour plus précieuses de la part des utilisateurs, réduisant ainsi la dépendance aux données détaillées des annotateurs.

Systèmes pour modèles de fondation et modèles de fondation pour systèmes

In ce discours, Christopher Ré, professeur agrégé au département d'informatique de l'université de Stanford, montre comment les modèles de fondation ont modifié les systèmes que nous construisons. Il explore également comment créer efficacement des modèles de fondation, en empruntant des informations issues de la recherche sur les systèmes de bases de données, et discute d'architectures potentiellement plus efficaces pour les modèles de fondation que Transformer.

modèles de base pour le nettoyage des données

Voici les principaux points à retenir de cette conférence :

Les modèles de fondation sont efficaces pour résoudre les problèmes de « mort par 1000 XNUMX coupes », dans lesquels chaque tâche individuelle peut être relativement simple, mais l’ampleur et la variété des tâches constituent un défi de taille. Un bon exemple en est le problème du nettoyage des données, que les LLM peuvent désormais aider à résoudre de manière beaucoup plus efficace.
À mesure que les accélérateurs deviennent plus rapides, la mémoire apparaît souvent comme un goulot d'étranglement. Il s’agit d’un problème auquel les chercheurs en bases de données s’attaquent depuis des décennies, et nous pouvons adopter certaines de leurs stratégies. Par exemple, l’approche Flash Attention minimise les flux d’entrées-sorties grâce au blocage et à la fusion agressive : chaque fois que nous accédons à une information, nous y effectuons autant d’opérations que possible.
Il existe une nouvelle classe d'architectures, ancrées dans le traitement du signal, qui pourraient être plus efficaces que le modèle Transformer, notamment pour gérer de longues séquences. Le traitement du signal offre stabilité et efficacité, jetant les bases de modèles innovants comme le S4.

Apprentissage par renforcement en ligne dans les interventions de santé numérique

In son discours, Susan Murphy, professeur de statistiques et d'informatique à l'Université Harvard, a partagé les premières solutions à certains des défis auxquels ils sont confrontés dans le développement d'algorithmes RL en ligne destinés à être utilisés dans les interventions de santé numérique.

Voici quelques points à retenir de la présentation :

La Dre Susan Murphy a discuté de deux projets sur lesquels elle travaille :
- HeartStep, où des activités ont été suggérées sur la base des données des smartphones et des trackers portables, et
- Oralytics pour le coaching en santé bucco-dentaire, où les interventions étaient basées sur les données d'engagement reçues d'une brosse à dents électronique.
En élaborant une politique comportementale pour un agent d’IA, les chercheurs doivent s’assurer qu’elle est autonome et qu’elle peut être mise en œuvre de manière réaliste dans le système de santé au sens large. Cela implique de s’assurer que le temps requis pour l’engagement d’un individu est raisonnable et que les actions recommandées sont à la fois éthiquement fondées et scientifiquement plausibles.
Les principaux défis liés au développement d'un agent RL pour les interventions de santé numérique incluent la gestion des niveaux de bruit élevés, car les gens mènent leur vie et ne sont pas toujours en mesure de répondre aux messages, même s'ils le souhaitent, ainsi que la gestion des effets négatifs importants et retardés. .

Comme vous pouvez le constater, NeurIPS 2023 a fourni un aperçu éclairant de l’avenir de l’IA. Les conférences invitées ont mis en évidence une tendance vers des modèles plus efficaces et plus soucieux des ressources et l'exploration de nouvelles architectures au-delà des paradigmes traditionnels.

Nous vous informerons lorsque nous publierons d'autres articles résumés comme celui-ci.

#gform_wrapper_11[data-form-index=”0″].gform-theme,[data-parent-form=”11_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}