De bas en haut à haut en bas : la scientifique en informatique Amanda Barnard parle de la beauté des simulations, de l'apprentissage automatique et de la manière dont les deux se recoupent - Physics World

De bas en haut à haut en bas : la scientifique en informatique Amanda Barnard parle de la beauté des simulations, de l'apprentissage automatique et de la manière dont les deux se recoupent - Physics World

Amandine Barnard
Spécialiste des interfaces Amanda Barnard est directrice adjointe et responsable des sciences informatiques à la School of Computing de l'Université nationale australienne. (Avec l'aimable autorisation de Sitthixay Ditthavong/Canberra Times)

De l'utilisation de superordinateurs pour exploiter de nouveaux types de matériaux à la formation de modèles d'apprentissage automatique pour étudier des propriétés complexes à l'échelle nanométrique, Amanda Barnard, informaticienne australienne travaille à l’interface de l’informatique et de la science des données. Un professeur principal au École d'informatique de l'Université nationale australienne, Barnard est également directeur adjoint et responsable des sciences informatiques. De nos jours, elle utilise diverses méthodes informatiques pour résoudre des problèmes dans les sciences physiques, mais Barnard a commencé sa carrière en tant que physicienne, obtenant son doctorat en physique théorique de la matière condensée en 2003.

Après avoir passé les années suivantes en postdoc au Centre des matériaux à l'échelle nanométrique du Laboratoire national d'Argonne Aux États-Unis, elle a commencé à élargir ses intérêts de recherche pour englober de nombreux aspects de la science informatique, notamment l’utilisation de l’apprentissage automatique dans les nanotechnologies, la science des matériaux, la chimie et la médecine.

Un camarade des deux Institut australien de physique et par Royal Society of Chemistry, en 2022, Barnard a été nommé Membre de l'Ordre d'Australie. Elle a également remporté de nombreux prix, dont le Prix ​​Feynman 2014 en nanotechnologie (Théorie) et le Médaille 2019 de l'Association des modélisateurs moléculaires d'Australasie. Elle parle à Hamish Johnston de son intérêt pour l’application de l’apprentissage automatique à une gamme de problèmes, ainsi que des défis et des récompenses liés à l’administration universitaire.

Pouvez-vous nous parler un peu de ce que vous faites en tant que informaticien ?

La science informatique implique la conception et l'utilisation de modèles mathématiques pour analyser des problèmes exigeants en termes de calcul dans de nombreux domaines de la science et de l'ingénierie. Cela inclut les progrès de l’infrastructure informatique et des algorithmes qui permettent aux chercheurs de ces différents domaines de réaliser des expériences informatiques à grande échelle. D’une certaine manière, la science informatique implique la recherche sur le calcul haute performance, et pas seulement la recherche utilisant un ordinateur haute performance.

Nous passons la plupart de notre temps sur les algorithmes et essayons de trouver comment les mettre en œuvre de manière à tirer le meilleur parti du matériel avancé ; et ce matériel change tout le temps. Cela inclut des simulations conventionnelles basées sur des modèles mathématiques développés spécifiquement dans différents domaines scientifiques, qu'il s'agisse de la physique, de la chimie ou au-delà. Nous passons également beaucoup de temps à utiliser les méthodes de machine learning (ML) et intelligence artificielle (IA), dont la plupart ont été développées par des informaticiens, ce qui en fait une recherche très interdisciplinaire. Cela permet d’utiliser tout un tas de nouvelles approches dans tous ces différents domaines scientifiques.

L'apprentissage automatique nous permet de retrouver une grande partie de la complexité que nous avons perdue lorsque nous développons ces belles théories.

La simulation est née des aspects théoriques de chaque domaine scientifique qui, avec certains niveaux d'abstraction pratiques, nous ont permis de résoudre les équations. Mais lorsque nous avons développé ces théories, il s’agissait presque d’une simplification excessive du problème, soit dans un souci d’élégance mathématique, soit simplement pour des raisons pratiques. Le ML nous permet de retrouver une grande partie de la complexité que nous avons perdue lorsque nous dérivons ces belles théories. Mais malheureusement, tout le ML ne fonctionne pas bien avec la science, et les informaticiens passent donc beaucoup de temps à essayer de comprendre comment appliquer ces algorithmes qui n'ont jamais été destinés à être utilisés pour ce type d'ensembles de données, afin de surmonter certains des problèmes rencontrés. expérimenté à l’interface. Et c’est l’un des domaines passionnants que j’aime.

Vous avez commencé votre carrière en tant que physicien. Qu’est-ce qui vous a poussé à vous tourner vers la science informatique ?

La physique est un excellent point de départ pour pratiquement tout. Mais j’étais toujours sur la voie de la science informatique sans m’en rendre compte. Lors de mon premier projet de recherche en tant qu’étudiant, j’ai utilisé des méthodes informatiques et je suis immédiatement devenu accro. J'ai adoré le codage, depuis l'écriture du code jusqu'aux résultats finaux, et j'ai donc immédiatement su que les superordinateurs étaient destinés à être mon instrument scientifique. C’était passionnant de penser à ce qu’un scientifique des matériaux pourrait faire s’il pouvait produire des échantillons parfaits à chaque fois. Ou ce qu'un chimiste pourrait faire s'il pouvait éliminer toutes les contaminations et obtenir des réactions parfaites. Que pourrions-nous faire si nous pouvions explorer des environnements difficiles ou dangereux sans risquer de blesser qui que ce soit ? Et plus important encore, et si nous pouvions faire toutes ces choses simultanément, à la demande, à chaque fois que nous essayions ?

La beauté des supercalculateurs est qu’ils sont le seul instrument qui nous permet d’atteindre cette quasi-perfection. Ce qui me captive le plus, c'est que je peux non seulement reproduire ce que mes collègues peuvent faire en laboratoire, mais aussi faire tout ce qu'ils ne peuvent pas faire en laboratoire. Ainsi, dès le début, ma physique computationnelle était sur un ordinateur. Ma chimie computationnelle a ensuite évolué vers les matériaux, l'informatique des matériaux et maintenant presque exclusivement le ML. Mais je me suis toujours concentré sur les méthodes dans chacun de ces domaines, et je pense qu'une base en physique me permet de réfléchir de manière très créative à la façon dont j'aborde tous ces autres domaines par le calcul.

En quoi l’apprentissage automatique diffère-t-il des simulations informatiques classiques ?

La plupart de mes recherches portent désormais sur le ML, probablement 80 %. Je fais quand même quelques simulations conventionnelles, car elles me donnent quelque chose de très différent. Les simulations sont fondamentalement une approche ascendante. Nous commençons par comprendre un système ou un problème, nous effectuons une simulation, puis nous obtenons des données à la fin. Le ML, en revanche, est une approche descendante. Nous commençons par les données, nous exécutons un modèle, puis nous obtenons une meilleure compréhension du système ou du problème. La simulation est basée sur des règles déterminées par nos théories scientifiques établies, tandis que le ML est basé sur les expériences et l'histoire. Les simulations sont souvent largement déterministes, bien qu'il existe quelques exemples de méthodes stochastiques telles que Monte Carlo. Le ML est en grande partie stochastique, bien que certains exemples soient également déterministes.

Avec les simulations, je suis capable de faire de très bonnes extrapolations. De nombreuses théories qui sous-tendent les simulations nous permettent d’explorer des zones d’un « espace de configuration » (les coordonnées qui déterminent tous les états possibles d’un système) ou des zones d’un problème pour lesquelles nous ne disposons d’aucune donnée ou information. D'un autre côté, ML est vraiment efficace pour interpoler et combler toutes les lacunes et il est très bon pour l'inférence.

Notion de flux de données

En effet, les deux méthodes reposent sur des logiques très différentes. La simulation est basée sur une logique « si-alors-sinon », ce qui signifie que si j'ai un certain problème ou un certain ensemble de conditions, alors j'obtiendrai une réponse déterministe ou bien, informatiquement, elle plantera probablement si vous obtenez c'est faux. Le ML, en revanche, est basé sur une logique « estimer-améliorer-répéter », ce qui signifie qu’il donnera toujours une réponse. Cette réponse est toujours améliorable, mais elle n’est pas toujours correcte, c’est donc une autre différence.

Les simulations sont intradisciplinaires : elles entretiennent un rapport très étroit avec le domaine de la connaissance et s'appuient sur l'intelligence humaine. D’un autre côté, le ML est interdisciplinaire : utilisant des modèles développés en dehors du domaine d’origine, il est indépendant du domaine de connaissances et s’appuie fortement sur l’intelligence artificielle. C'est pourquoi j'aime combiner les deux approches.

Pouvez-vous nous en dire un peu plus sur la manière dont vous utilisez l’apprentissage automatique dans vos recherches ?

Avant l’avènement du ML, les scientifiques devaient comprendre à peu près les relations entre les entrées et les sorties. Nous avons dû prédéfinir la structure du modèle avant de pouvoir le résoudre. Cela signifiait que nous devions avoir une idée de la réponse avant de pouvoir en chercher une.

Nous pouvons développer la structure d’une expression ou d’une équation et la résoudre en même temps. Cela accélère la méthode scientifique, et c'est une autre raison pour laquelle j'aime utiliser l'apprentissage automatique

Lorsque vous utilisez le ML, les machines utilisent des techniques statistiques et des informations historiques pour se programmer elles-mêmes. Cela signifie que nous pouvons développer la structure d’une expression ou d’une équation et la résoudre en même temps. Cela accélère la méthode scientifique, et c'est une autre raison pour laquelle j'aime l'utiliser.

Les techniques de ML que j'utilise sont diverses. Il existe de nombreux types et types de ML, tout comme il existe de nombreux types différents de méthodes de physique computationnelle ou de physique expérimentale. J'utilise l'apprentissage non supervisé, qui repose entièrement sur des variables d'entrée, et vise à développer des « modèles cachés » ou à essayer de trouver des données représentatives. C'est utile pour les matériaux en nanoscience, lorsque nous n'avons pas fait d'expériences pour peut-être mesurer une propriété, mais que nous en savons beaucoup sur les conditions d'entrée que nous mettons en place pour développer le matériau.

L'apprentissage non supervisé peut être utile pour trouver des groupes de structures, appelés clusters, qui présentent des similitudes dans l'espace de grande dimension, ou des structures pures et représentatives (archétypes ou prototypes) qui décrivent l'ensemble de données dans son ensemble. Nous pouvons également transformer les données pour les cartographier dans un espace de dimension inférieure et révéler davantage de similitudes qui n'étaient pas apparentes auparavant, de la même manière que nous pourrions passer à l'espace réciproque en physique.

J'utilise également le ML supervisé pour trouver des relations et des tendances, telles que les relations structure-propriété, qui sont importantes dans les matériaux et les nanosciences. Cela inclut la classification, où nous avons une étiquette discrète. Supposons que nous ayons déjà différentes catégories de nanoparticules et que, en fonction de leurs caractéristiques, nous souhaitions les attribuer automatiquement à une catégorie ou à une autre, et nous assurer que nous pouvons facilement séparer ces classes en fonction des seules données d'entrée.

J'utilise également l'apprentissage statistique et l'apprentissage semi-supervisé. L’apprentissage statistique, en particulier, est utile en science, même s’il n’est pas encore largement utilisé. Nous considérons cela comme une inférence causale qui est beaucoup utilisée dans les diagnostics médicaux, et qui peut être appliquée pour diagnostiquer efficacement comment un matériau, par exemple, pourrait être créé, plutôt que simplement pourquoi il est créé.

Votre groupe de recherche comprend des personnes ayant un large éventail d’intérêts scientifiques. Pouvez-vous nous donner un aperçu de certaines des choses qu'ils étudient ?

Quand j'ai commencé en physique, je n'aurais jamais pensé que je serais entouré d'un groupe aussi formidable de personnes intelligentes issues de différents domaines scientifiques. Le pôle de sciences informatiques de l'Université nationale australienne comprend des scientifiques de l'environnement, des spécialistes de la terre, des biologistes informatiques et des bioinformaticiens. Il y a aussi des chercheurs qui étudient la génomique, les neurosciences computationnelles, la chimie quantique, la science des matériaux, la physique des plasmas, l’astrophysique, l’astronomie, l’ingénierie et – moi – la nanotechnologie. Nous sommes donc un groupe diversifié.

Notre groupe comprend Giuseppe Barça, qui développe des algorithmes qui sous-tendent les progiciels de chimie quantique utilisés partout dans le monde. Ses recherches portent sur la manière dont nous pouvons exploiter de nouveaux processeurs, tels que les accélérateurs, et sur la manière dont nous pouvons repenser la manière dont les grosses molécules peuvent être partitionnées et fragmentées afin de pouvoir combiner stratégiquement des flux de travail massivement parallèles. Il nous aide également à utiliser les supercalculateurs plus efficacement, ce qui permet d'économiser de l'énergie. Et depuis deux ans, il détient le record du monde du meilleur algorithme de chimie quantique à grande échelle.

À petite échelle également – ​​en termes de science – il y a Minh Bui, bioinformaticien travaillant au développement de nouveaux modèles statistiques dans le domaine des systèmes phylogénomiques [un domaine multidisciplinaire qui combine la recherche évolutive avec la biologie des systèmes et l'écologie, en utilisant les méthodes de la science des réseaux]. Ceux-ci incluent des modèles de partitionnement, des modèles sensibles à l'isomorphisme et des modèles d'arbre de distribution. Les applications de ceci incluent des domaines dans les enzymes photosynthétiques ou les données de transcription profonde de la phylogénie des insectes, et il a effectué des travaux sur les algues, ainsi que sur les bactéries et les virus tels que le VIH et le SRAS-CoV-2 (qui cause le COVID-19).

Minh Bui

À l’extrémité la plus large de l’échelle se trouve le mathématicien Quanling Deng, dont les recherches portent sur la modélisation mathématique et la simulation de milieux à grande échelle, tels que la dynamique des océans et de l'atmosphère, ainsi que la banquise de l'Antarctique.

La meilleure partie est lorsque nous découvrons qu'un problème dans un domaine a en fait déjà été résolu dans un autre, et encore mieux lorsque nous en découvrons un rencontré dans plusieurs domaines afin que nous puissions évoluer de manière super linéaire. C'est formidable lorsqu'une solution a plusieurs domaines d'impact. Et à quelle fréquence trouveriez-vous un neuroscientifique informatique travaillant aux côtés d’un physicien des plasmas ? Cela n’arrive tout simplement pas normalement.

En plus de travailler avec votre groupe de recherche, vous êtes également directeur adjoint de la School of Computing de l'Australian National University. Pouvez-vous nous parler un peu de ce rôle ?

Il s'agit en grande partie d'un rôle administratif. Ainsi, en plus de travailler avec un groupe incroyable d'informaticiens dans les domaines de la science des données, des domaines fondamentaux des langues, du développement de logiciels, de la cybersécurité, de la vision par ordinateur, de la robotique, etc., j'ai également l'occasion de créer des opportunités pour que de nouvelles personnes rejoignent l'école et soient la meilleure version d'eux-mêmes. Une grande partie de mon travail en tant que leader concerne les gens. Et cela inclut le recrutement, la gestion de notre programme menant à la permanence et notre programme de développement professionnel. J'ai également eu l'occasion de lancer de nouveaux programmes dans des domaines qui, selon moi, nécessitaient une attention particulière.

Un tel exemple s’est produit lors de la pandémie mondiale de COVID. Beaucoup d’entre nous ont été fermés et incapables d’accéder à nos laboratoires, ce qui nous a amenés à nous demander ce que nous pouvions faire. J'en ai profité pour développer un programme appelé le Bourse conjointe du jubilé, qui soutient les chercheurs travaillant à l'interface entre l'informatique et un autre domaine, où ils résolvent de grands défis dans leur domaine, mais utilisent également leurs connaissances dans ce domaine pour éclairer de nouveaux types d'informatique. Le programme a soutenu cinq de ces chercheurs dans différents domaines en 2021.

Je suis également président du Programme des femmes pionnières, qui propose des bourses d'études, des conférences et des bourses pour soutenir les femmes qui se lancent dans l'informatique et garantir leur réussite tout au long de leur carrière chez nous.

Et bien sûr, l’un de mes autres rôles en tant que directeur adjoint est de m’occuper des installations informatiques de notre école. J'étudie les moyens de diversifier notre réserve de ressources pour traverser les périodes difficiles, comme pendant la COVID, lorsque nous ne pouvions pas commander de nouvel équipement. J'étudie également comment nous pouvons être plus économes en énergie, car l'informatique consomme énormément d'énergie.

Cela doit être une période très excitante pour les personnes qui effectuent des recherches en ML, car la technologie trouve de nombreuses utilisations différentes. Quelles nouvelles applications du ML attendez-vous le plus avec impatience dans vos recherches ?

Eh bien, probablement certains de ceux dont vous entendez déjà parler, à savoir l'IA. Bien qu’il existe des risques associés à l’IA, il existe également d’énormes opportunités, et je pense que l’IA générative sera particulièrement importante dans les années à venir pour la science – à condition que nous puissions surmonter certains des problèmes liés au fait qu’elle soit « hallucinante » [quand un système d’IA , tel qu'un grand modèle de langage, génère de fausses informations, basées soit sur un ensemble de données de formation, soit sur une logique contextuelle, ou sur une combinaison des deux].

Quel que soit le domaine scientifique dans lequel nous évoluons, nous sommes limités par le temps dont nous disposons, l’argent, les ressources et l’équipement auxquels nous avons accès. Cela signifie que nous compromettons notre science pour répondre à ces limites plutôt que de nous concentrer sur leur dépassement.

Mais quel que soit le domaine scientifique dans lequel nous évoluons, qu'il soit informatique ou expérimental, nous souffrons tous d'un certain nombre de restrictions. Nous sommes limités par le temps dont nous disposons, l'argent, les ressources et l'équipement auxquels nous avons accès. Cela signifie que nous compromettons notre science pour répondre à ces limites plutôt que de nous concentrer sur leur dépassement. Je crois sincèrement que l’infrastructure ne devrait pas dicter ce que nous faisons, bien au contraire.

Je pense que l'IA générative est arrivée au bon moment pour nous permettre de surmonter enfin certains de ces problèmes, car elle a un grand potentiel pour combler les lacunes et nous donner une idée de ce que nous aurions pu faire en matière de science, si nous avions tous les ressources nécessaires.

En effet, l’IA pourrait nous permettre d’obtenir plus en faisant moins et d’éviter certains pièges comme les biais de sélection. C'est un très gros problème lors de l'application du ML aux ensembles de données scientifiques. Nous devons faire beaucoup plus de travail pour garantir que les méthodes génératives produisent une science significative, et non des hallucinations. Ceci est particulièrement important s’ils doivent constituer la base de grands modèles pré-entraînés. Mais je pense que cela va être une ère scientifique vraiment passionnante où nous travaillerons en collaboration avec l’IA, plutôt que de simplement accomplir une tâche à notre place.

Horodatage:

Plus de Monde de la physique