La nouvelle IA générative « inspirée de la physique » dépasse les attentes | Magazine Quanta

La nouvelle IA générative « inspirée de la physique » dépasse les attentes | Magazine Quanta

La nouvelle IA générative « inspirée de la physique » dépasse les attentes | Quanta Magazine PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Introduction

Les outils de l’intelligence artificielle – les réseaux de neurones en particulier – ont été bénéfiques aux physiciens. Pendant des années, cette technologie a aidé les chercheurs à reconstruire les trajectoires des particules lors d’expériences avec des accélérateurs, à rechercher des preuves de la présence de nouvelles particules et à détecter les ondes gravitationnelles et les exoplanètes. Même si les outils d’IA peuvent clairement faire beaucoup pour les physiciens, la question qui se pose désormais, selon Max Tegmark, physicien au Massachusetts Institute of Technology, est la suivante : « Pouvons-nous rendre quelque chose en retour ?

Tegmark estime que ses pairs physiciens peuvent apporter des contributions significatives à la science de l’IA, et il en a fait sa principale priorité de recherche. Selon lui, une façon pour les physiciens de contribuer à faire progresser la technologie de l’IA serait de remplacer les algorithmes de « boîte noire » des réseaux neuronaux, dont le fonctionnement est largement impénétrable, par des équations de processus physiques bien comprises.

L’idée n’est pas toute nouvelle. Modèles d'IA génératifs basé sur la diffusion Le processus qui permet, par exemple, de répartir uniformément le lait versé dans une tasse de café, est apparu pour la première fois en 2015 et la qualité des images générées s'est considérablement améliorée depuis. Cette technologie alimente des logiciels de production d'images populaires tels que DALL·E 2 et Midjourney. Aujourd'hui, Tegmark et ses collègues étudient si d'autres modèles génératifs inspirés de la physique pourraient fonctionner aussi bien que les modèles basés sur la diffusion, voire mieux.

À la fin de l'année dernière, l'équipe de Tegmark a introduit une nouvelle méthode prometteuse de production d'images appelée Modèle génératif de flux de Poisson (PFGM). Les données y sont représentées par des particules chargées, qui se combinent pour créer un champ électrique dont les propriétés dépendent de la répartition des charges à un instant donné. C'est ce qu'on appelle un modèle de flux de Poisson car le mouvement des charges est régi par l'équation de Poisson, qui dérive du principe selon lequel la force électrostatique entre deux charges varie inversement au carré de la distance qui les sépare (similaire à la formulation de la gravité newtonienne). .

Ce processus physique est au cœur du PFGM. "Notre modèle peut être caractérisé presque entièrement par la force et la direction du champ électrique en chaque point de l'espace", a déclaré Yilun Xu, étudiant diplômé au MIT et co-auteur de l'article. "Ce que le réseau neuronal apprend au cours du processus de formation, c'est comment estimer ce champ électrique." Et ce faisant, il peut apprendre à créer des images car une image dans ce modèle peut être succinctement décrite par un champ électrique.

Introduction

PFGM peut créer des images de même qualité que celles produites par des approches basées sur la diffusion, et ce, 10 à 20 fois plus rapidement. "Il utilise une construction physique, le champ électrique, d'une manière que nous n'avons jamais vue auparavant", a déclaré Hananel Hazan, informaticien à l'Université Tufts. "Cela ouvre la porte à la possibilité d'exploiter d'autres phénomènes physiques pour améliorer nos réseaux neuronaux."

Les modèles de diffusion et d'écoulement de Poisson ont beaucoup en commun, en plus d'être basés sur des équations importées de la physique. Pendant l'entraînement, un modèle de diffusion conçu pour la génération d'images commence généralement par une image - un chien, par exemple - et ajoute ensuite du bruit visuel, modifiant chaque pixel de manière aléatoire jusqu'à ce que ses caractéristiques soient complètement masquées (mais pas complètement éliminées). Le modèle tente ensuite d'inverser le processus et de générer un chien proche de l'original. Une fois formé, le modèle peut réussir à créer des chiens – et d’autres images – à partir d’une toile apparemment vierge.

Les modèles de flux de Poisson fonctionnent à peu près de la même manière. Pendant la formation, il existe un processus direct, qui consiste à ajouter du bruit, progressivement, à une image autrefois nette, et un processus inverse dans lequel le modèle tente de supprimer ce bruit, étape par étape, jusqu'à ce que la version initiale soit en grande partie récupérée. Comme pour la génération basée sur la diffusion, le système finit par apprendre à créer des images qu'il n'a jamais vues en formation.

Mais la physique qui sous-tend les modèles de Poisson est totalement différente. La diffusion est entraînée par des forces thermodynamiques, tandis que l'écoulement de Poisson est entraîné par des forces électrostatiques. Ce dernier représente une image détaillée utilisant un arrangement de charges pouvant créer un champ électrique très complexe. Ce champ, cependant, fait que les charges se répartissent plus uniformément dans le temps, tout comme le lait se disperse naturellement dans une tasse de café. Le résultat est que le champ lui-même devient plus simple et plus uniforme. Mais ce champ uniforme et bruyant ne constitue pas une page vierge complète ; il contient encore les germes d’informations à partir desquelles des images peuvent être facilement assemblées.

Début 2023, l'équipe a mis à niveau son modèle de Poisson, l'étendre pour englober toute une famille de modèles. La version augmentée, PFGM++, inclut un nouveau paramètre, D, ce qui permet aux chercheurs d'ajuster la dimensionnalité du système. Cela peut faire une grande différence : dans un espace tridimensionnel familier, la force du champ électrique produit par une charge est inversement proportionnelle au carré de la distance à cette charge. Mais en quatre dimensions, l’intensité du champ suit une loi du cube inverse. Et pour chaque dimension de l'espace et chaque valeur de D, cette relation est quelque peu différente.

Introduction

Cette seule innovation a donné aux modèles de flux de Poisson une bien plus grande variabilité, les cas extrêmes offrant des avantages différents. Quand D est faible, par exemple, le modèle est plus robuste, c'est-à-dire qu'il est plus tolérant aux erreurs commises lors de l'estimation du champ électrique. "Le modèle ne peut pas prédire parfaitement le champ électrique", a déclaré Ziming Liu, un autre étudiant diplômé du MIT et co-auteur des deux articles. « Il y a toujours une déviation. Mais la robustesse signifie que même si votre erreur d’estimation est élevée, vous pouvez toujours générer de bonnes images. Ainsi, vous n’aurez peut-être pas le chien de vos rêves, mais vous obtiendrez quand même quelque chose qui ressemble à un chien.

A l'autre extrême, quand D est élevé, le réseau neuronal devient plus facile à entraîner, nécessitant moins de données pour maîtriser ses compétences artistiques. La raison exacte n’est pas facile à expliquer, mais elle est due au fait que lorsqu’il y a plus de dimensions, le modèle a moins de champs électriques à suivre – et donc moins de données à assimiler.

Le modèle amélioré, PFGM++, « vous offre la flexibilité d'interpoler entre ces deux extrêmes », a déclaré Rose Yu, informaticien à l'Université de Californie à San Diego.

Et quelque part dans cette fourchette se trouve une valeur idéale pour D cela établit le bon équilibre entre robustesse et facilité de formation, a déclaré Xu. "L'un des objectifs des travaux futurs sera de trouver un moyen systématique de trouver ce point idéal, afin que nous puissions sélectionner le meilleur possible. D pour une situation donnée sans recourir à des essais et des erreurs.

Un autre objectif des chercheurs du MIT consiste à trouver davantage de processus physiques pouvant servir de base à de nouvelles familles de modèles génératifs. Grâce à un projet appelé GénPhys, l’équipe a déjà identifié un candidat prometteur : le potentiel Yukawa, lié à la force nucléaire faible. "C'est différent des modèles de flux et de diffusion de Poisson, dans lesquels le nombre de particules est toujours conservé", a déclaré Liu. « Le potentiel Yukawa vous permet d’annihiler des particules ou de diviser une particule en deux. Un tel modèle pourrait, par exemple, simuler des systèmes biologiques dans lesquels le nombre de cellules ne doit pas nécessairement rester le même.

Cela pourrait être une piste d'enquête fructueuse, a déclaré Yu. "Cela pourrait conduire à de nouveaux algorithmes et à de nouveaux modèles génératifs dont les applications potentielles s'étendent au-delà de la génération d'images."

Et PFGM++ à lui seul a déjà dépassé les attentes initiales de ses inventeurs. Ils n'ont pas réalisé au début que lorsque D est réglé à l'infini, leur modèle de flux de Poisson amplifié devient impossible à distinguer d'un modèle de diffusion. Liu l'a découvert dans les calculs qu'il a effectués plus tôt cette année.

Mert Pilanci, informaticien à l'Université de Stanford, considère cette « unification » comme le résultat le plus important issu des travaux du groupe du MIT. « L'article PFGM++ », a-t-il déclaré, « révèle que ces deux modèles font partie d'une classe plus large, [qui] soulève une question intrigante : pourrait-il y avoir d'autres modèles physiques pour l'IA générative en attente de découverte, faisant allusion à une unification encore plus grande ? »

Horodatage:

Plus de Quantamamagazine