Pourquoi appliquer l'apprentissage automatique à la biologie est difficile – mais cela en vaut la peine PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pourquoi appliquer l'apprentissage automatique à la biologie est difficile - mais cela en vaut la peine

Jimmy Lin est CSO de Freenom, qui développe des tests sanguins pour la détection précoce des cancers, à commencer par le cancer du côlon. Il est un pionnier dans le développement d'approches informatiques pour extraire des informations à partir de données génomiques à grande échelle, ayant dirigé les analyses informatiques des premières études de séquençage à l'échelle du génome dans plusieurs types de cancer. 

Lin a parlé à Future des défis liés à l'exécution d'une mission d'entreprise consistant à marier les approches d'apprentissage automatique et les données biologiques. Il explique quels sont les trois types de personnes que vous devez embaucher pour créer une entreprise techbio équilibrée, les pièges à éviter, comment savoir quand le mariage de deux domaines fonctionne ou ne fonctionne pas, et les nuances de l'adaptation des études biologiques et de l'apprentissage automatique. l'un à l'autre.


FUTUR : Comme dans de nombreuses disciplines, le potentiel d'application de l'apprentissage automatique au bio suscite beaucoup d'enthousiasme. Mais les progrès ont semblé plus durement gagnés. Y a-t-il quelque chose de différent dans les données biomoléculaires par rapport aux types de données généralement utilisés avec l'apprentissage automatique ?

JIMMY LIN : Les données d'apprentissage automatique traditionnelles sont très larges et peu profondes. Le type de problèmes que l'apprentissage automatique résout souvent est ce que les humains peuvent résoudre en une nanoseconde, comme la reconnaissance d'images. Pour apprendre à un ordinateur à reconnaître l'image d'un chat, vous auriez des milliards et des milliards d'images sur lesquelles vous entraîner, mais chaque image est relativement limitée dans son contenu de données. Les données biologiques sont généralement l'inverse. Nous n'avons pas des milliards d'individus. Nous avons de la chance d'en avoir des milliers. Mais pour chaque individu, nous avons des milliards et des milliards de points de données. Nous avons un plus petit nombre de données très profondes.

Dans le même temps, les questions biologiques sont moins souvent les problèmes que les humains peuvent résoudre. Nous faisons des choses que même les experts mondiaux dans ce domaine ne sont pas capables de faire. Ainsi, la nature des problèmes est très différente, il faut donc nouvelle pensée sur la façon dont nous abordons cela.

Les approches doivent-elles être construites à partir de zéro pour les données biomoléculaires, ou pouvez-vous adapter les méthodes existantes ?

Il existe des moyens de prendre ces informations approfondies et de les mettre en valeur afin de tirer parti des outils existants, qu'il s'agisse d'apprentissage statistique ou de méthodes d'apprentissage en profondeur. Ce n'est pas un copier-coller direct, mais il existe de nombreuses façons de transférer de nombreuses méthodes d'apprentissage automatique et de les appliquer à des problèmes biologiques, même s'il ne s'agit pas d'une carte directe un à un.

En creusant un peu plus le problème des données, avec les données biologiques, il y a beaucoup de variabilité - il y a du bruit biologique, il y a du bruit expérimental. Quelle est la meilleure façon d'aborder la génération de données biomédicales prêtes pour l'apprentissage automatique ? 

C'est une excellente question. Dès le début, Freenome a pris en considération la façon de générer les meilleures données adaptées à l'apprentissage automatique. Tout au long du processus, de la conception de l'étude à la collecte d'échantillons, en passant par l'exécution des tests et l'analyse des données, il faut faire attention à chaque étape pour pouvoir optimiser l'apprentissage automatique, en particulier lorsque vous avez beaucoup plus de fonctionnalités que d'échantillons. C'est le problème classique big-p little-n.

Avant tout, nous avons conçu notre étude pour minimiser les facteurs de confusion. De nombreuses entreprises se sont appuyées sur des ensembles de données historiques et ont fait beaucoup de travail pour essayer de minimiser les effets de cohorte et de supprimer les facteurs de confusion. Mais est-ce vraiment la meilleure façon de procéder ? Eh bien, non, la meilleure façon de le faire est une étude prospective où vous contrôlez les facteurs de confusion dès le départ. C'est pourquoi, même dans nos efforts de découverte, nous avons décidé de faire un grand essai prospectif multisite qui recueille des données de référence en amont, comme dans notre Essai AI-EMERGE.

Heureusement, nous avons des investisseurs qui ont suffisamment cru en nous pour nous permettre de générer ces données. C'était en fait un gros risque à prendre car ces études coûtent très cher. 

Ensuite, une fois que vous obtenez les données, qu'en faites-vous?

Eh bien, vous devez former tous les sites de manière cohérente et contrôler les facteurs de confusion de tous les différents sites afin que les patients se ressemblent le plus possible. Et puis, une fois que vous avez exécuté les échantillons, vous devez réfléchir à la façon de minimiser les effets de lot, par exemple en plaçant le bon mélange d'échantillons sur différentes machines dans les bonnes proportions.

C'est très difficile quand vous faites multiomique parce que les machines qui analysent une classe de biomolécules peuvent prélever des centaines d'échantillons en une seule fois, alors que les machines qui analysent une autre classe de biomolécules peuvent n'en prélever que quelques-uns. En plus de cela, vous voulez supprimer l'erreur humaine. Nous avons donc introduit l'automatisation à peu près dès le départ, au stade de la génération des données de formation.

De plus, lorsque vous avez des milliards de points de données par personne, il devient très, très facile de potentiellement sur-adapter. Nous nous assurons donc que notre formation est généralisable aux populations auxquelles nous voulons finalement l'appliquer, avec les bonnes corrections statistiques et de nombreux ensembles successifs d'entraînement et de test.

Combiner l'apprentissage automatique avec des données biomoléculaires est quelque chose que beaucoup d'entreprises de biotechnologie essaient de faire, mais il y a souvent beaucoup de flou sur la façon dont elles vont le faire. Que considérez-vous comme une caractéristique essentielle pour les intégrer efficacement ?

At Freenom nous fusionnons l'apprentissage automatique et la multiomique. Pour ce faire, vous devez bien faire les deux. La clé ici est que vous devez avoir une solide expertise dans les deux, puis être capable de parler la langue des deux. Vous devez être bilingue. 

Il y a beaucoup d'entreprises qui sont expertes dans l'un et saupoudrent ensuite une couche de l'autre. Par exemple, certaines entreprises technologiques décident de se lancer dans le bio, mais tout ce qu'elles font, c'est embaucher une poignée de scientifiques de laboratoire humide. D'un autre côté, il y a des entreprises de biologie qui embauchent des scientifiques en apprentissage automatique, puis elles déclareront qu'elles sont maintenant une entreprise d'IA/ML. 

Ce dont vous avez vraiment besoin, c'est d'une force de banc profonde dans les deux. Vous avez besoin d'une compréhension biologique approfondie du système, des différents tests, des caractéristiques de l'espace de connaissances. Mais vous devez également avoir une compréhension approfondie de l'apprentissage automatique, de la science des données, des méthodes de calcul et de l'apprentissage statistique, et disposer des plates-formes pour les appliquer. 

C'est vraiment difficile parce que ces deux domaines sont souvent très cloisonnés. Lorsque vous pensez aux personnes que vous embauchez pour l'entreprise, comment créez-vous des ponts entre ces deux domaines différents ?

Je pense qu'il y a en quelque sorte trois types de personnes que vous voulez embaucher pour faire le pont entre la technologie et la bio. Les deux premiers sont vos standards, les experts du domaine en apprentissage automatique ou en biologie. Mais ils doivent également être ouverts et disposés à en apprendre davantage sur l'autre domaine, ou mieux encore, avoir eu une exposition et une expérience de travail dans ces domaines supplémentaires.

Pour les experts en apprentissage automatique, nous choisissons des personnes qui ne sont pas seulement là pour développer le dernier algorithme, mais qui veulent prendre les derniers algorithmes et les appliquer à des questions biologiques. 

La biologie est malpropre. Non seulement nous ne disposons pas de toutes les méthodes pour mesurer les différents analytes, mais nous découvrons continuellement de nouvelles biomolécules et caractéristiques. Il y a aussi beaucoup de facteurs de confusion et de bruit qu'il faut prendre en considération. Ces problèmes sont généralement plus complexes que les problèmes d'apprentissage automatique standard, où l'espace des problèmes et des connaissances est beaucoup plus bien défini. Les experts en ML souhaitant appliquer leur métier en biologie doivent faire preuve d'humilité pour en apprendre davantage sur la complexité qui existe au sein de la biologie et être disposés à travailler avec des conditions moins qu'optimales et des différences dans la disponibilité des données.

Le revers de la médaille embauche des biologistes qui pensent à leurs problèmes en termes de génération de données quantitatives à plus grande échelle, conçoivent des études pour optimiser les rapports signal sur bruit et sont conscients des mises en garde des facteurs de confusion et de la généralisabilité. C'est plus que d'être capable de parler et de penser dans le langage du code. Beaucoup de nos biologistes codent déjà et ont une bonne formation en statistique, et sont prêts et désireux d'évoluer dans ces domaines. En fait, chez Freenome, nous avons effectivement des programmes de formation pour les biologistes qui veulent en savoir plus sur le codage pour pouvoir développer leur raisonnement statistique.

Ce qui est encore plus important, c'est que la conception de l'étude et les questions que nous pouvons poser semblent différentes lorsqu'elles sont conçues dans le contexte du Big Data et du ML.

Quel est le troisième type ?

Le troisième type de personne à embaucher est le plus difficile à trouver. Ce sont les ponts - des personnes qui ont travaillé couramment dans ces deux domaines. Il y a très peu d'endroits et de laboratoires dans le monde qui se trouvent à cette intersection. Il est très, très important de trouver des personnes capables de traduire et de relier les deux domaines. Mais vous ne voulez pas créer une entreprise composée uniquement de ponts, car souvent ces personnes ne sont pas les experts d'un domaine ou d'un autre, en raison de ce qu'elles font. Ils sont souvent plus généraux dans leur compréhension. Cependant, ils fournissent le travail essentiel de rapprochement des deux domaines.

Il est donc important d'avoir les trois groupes de personnes. Si vous n'avez qu'un seul des spécialistes experts du domaine, vous ne serez fort que dans un domaine. Ou, si vous n'avez pas les constructeurs de ponts, alors vous avez des silos de personnes qui ne pourront pas se parler. De manière optimale, les équipes devraient inclure chacun de ces trois types de personnes pour permettre une compréhension approfondie à la fois du ML et de la biologie, ainsi que pour fournir une synergie efficace de ces deux domaines.

Voyez-vous des différences dans la façon dont les spécialistes en technologie ou informatique attaquent les problèmes par rapport à la façon dont les biologistes abordent les problèmes ? 

Ouais. À un extrême, nous avons certainement des gens qui viennent d'un milieu statistique et quantitatif et ils parlent en code et en équations. Nous devons les aider à prendre ces équations et à les expliquer de manière claire afin qu'un public général puisse comprendre. 

Les biologistes ont beaucoup d'imagination parce qu'ils travaillent avec des choses qui sont invisibles. Ils utilisent beaucoup d'illustrations dans les présentations pour aider à visualiser ce qui se passe au niveau moléculaire, et ils ont une grande intuition sur les mécanismes et la complexité. Une grande partie de cette réflexion est plus qualitative. Cela offre une autre façon de penser et de communiquer.

Donc, la façon dont les gens communiquent va être très, très différente. La clé est - nous disons en plaisantant - nous devons communiquer d'une manière que même votre grand-mère peut comprendre. 

Cela demande une vraie maîtrise de vos connaissances pour pouvoir les simplifier afin que même un novice puisse comprendre. Je pense que c'est en fait une excellente formation pour quelqu'un d'apprendre à communiquer des concepts très difficiles en dehors des raccourcis normaux, du jargon et du langage technique.

Qu'est-ce qui a inspiré votre point de vue particulier sur la façon de marier l'apprentissage automatique et la biologie ?

Ainsi, le problème n'est pas nouveau, mais plutôt la dernière itération d'un problème séculaire. Quand les champs de biologie computationnelle et bioinformatique ont d'abord été créés, le même problème existait. Des informaticiens, des statisticiens, des data scientists ou encore des physiciens ont rejoint le domaine de la biologie et y ont apporté leur pensée quantitative. Dans le même temps, les biologistes ont dû commencer à modéliser au-delà de la caractérisation des gènes comme régulés à la hausse et à la baisse, et commencer à aborder les données de manière plus quantitative. La numérisation des données biologiques vient maintenant de croître de manière exponentielle. Le problème est plus aigu et plus vaste, mais les défis fondamentaux restent les mêmes.

Que considérez-vous comme des mesures de réussite ou des drapeaux rouges qui vous indiquent si le mariage fonctionne ou non ?

Si vous regardez les entreprises qui essaient de combiner des domaines, vous pouvez très rapidement voir combien elles investissent d'un côté ou de l'autre. Donc, s'il s'agit d'une entreprise où 90 % des personnes sont des scientifiques de laboratoire, et qu'elle vient d'embaucher un ou deux scientifiques en apprentissage automatique et qu'elle s'appelle une entreprise de ML, alors c'est probablement plus une réflexion après coup.

Y a-t-il une leçon à retenir que vous avez apprise dans tout ce processus de mariage de la biologie et de l'apprentissage automatique ?

Je pense à l'humilité intellectuelle, surtout venant du côté de la technologie. Avec quelque chose comme résoudre pour la recherche, par exemple, toutes les informations sont déjà sous forme de texte auquel vous pouvez facilement accéder, et vous savez ce que vous cherchez. Donc, cela devient un problème résoluble, non ? Le problème avec la biologie est que nous ne savons même pas quels ensembles de données nous recherchons, si nous avons même la bonne lampe de poche pour éclairer les bonnes zones. 

Ainsi, parfois, lorsque les experts en technologie se lancent dans le bio, ils tombent dans le piège de la simplification excessive. Disons, à titre d'exemple, pour le séquençage de nouvelle génération, ils pourraient dire: «Wow. Nous pouvons séquencer l'ADN. Pourquoi ne séquence-t-on pas juste des tas et des tas d'ADN ? Cela devient un problème de données, puis nous résolvons la biologie. 

Mais le problème est que l'ADN est l'un des dizaines d'analytes différents dans le corps. Il y a de l'ARN, des protéines,modifications post-traductionnelles, différents compartiments tels que les vésicules extracellulaires et les différences dans le temps, l'espace, le type de cellule, entre autres. Nous devons comprendre les possibilités ainsi que les limites de chaque modalité de données que nous utilisons.

Bien que cela puisse être difficile à croire, la biologie est encore un domaine à ses balbutiements. Nous venons séquencé un génome humain il y a un peu plus de deux décennies. La plupart du temps, nous ne pouvons pas accéder aux signaux biologiques individuels, nous prenons donc toujours des mesures qui sont un conglomérat ou une moyenne sur un grand nombre de signaux. Nous commençons tout juste à mesurer une cellule à la fois. Il reste encore beaucoup à faire et c'est pourquoi c'est une période passionnante pour se lancer dans la biologie. 

Mais avec cette enfance vient un grand potentiel pour résoudre des problèmes qui auront d'énormes impacts sur la santé et le bien-être humains. C'est une période assez incroyable parce que nous ouvrons de nouvelles frontières de la biologie.

Quels types de frontières ? Y a-t-il un domaine de la biologie ou de la médecine où vous êtes le plus enthousiaste à l'idée de voir l'informatique appliquée ?

Ouais - tout! Mais laissez-moi réfléchir. Dans le domaine du cancer, je crois qu'au sein de notre génération, les nouvelles thérapies et les efforts de détection précoce qui sortent transformeront le cancer en une maladie chronique qui n'est plus aussi effrayante, comme nous l'avons fait pour le VIH. Et nous pouvons probablement utiliser des types de méthodes très similaires pour examiner la détection et la prévention des maladies de manière plus générale. Ce qui me réjouit le plus, c'est que nous pouvons commencer à détecter si la maladie est déjà présente avant les symptômes. 

En dehors du diagnostic du cancer, ce qui est aussi vraiment cool, c'est la transition vers la construction avec la biologie au lieu de simplement lire et écrire. Je suis enthousiasmé par les domaines de la biologie synthétique où nous utilisons la biologie en tant que technologie, qu'il s'agisse de CRISPR ou de peptides synthétiques ou de nucléotides synthétiques. Tirer parti de la biologie en tant qu'outil crée de vastes possibilités pour transformer complètement les industries traditionnelles génératrices de ressources, de l'agriculture à l'énergie. C'est vraiment une période incroyable pour être biologiste!

Publié le 5 octobre 2022

La technologie, l'innovation et l'avenir, racontés par ceux qui l'ont construit.

Merci pour l'enregistrement.

Vérifiez votre boîte de réception pour un message de bienvenue.

Horodatage:

Plus de Andreessen Horowitz