L'IA de conception de protéines ouvre la porte à des médicaments que les humains ne pourraient pas imaginer. PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'IA de conception de protéines ouvre la porte à des médicaments que les humains ne pourraient pas imaginer

image

Concevoir une protéine, c'est un peu comme fabriquer une armoire. La première étape consiste à construire l'épine dorsale qui maintient la protéine ensemble. Mais vient ensuite la partie la plus difficile : déterminer où installer les charnières sur l'échafaudage, c'est-à-dire trouver les meilleurs "points chauds" pour installer les portes, les étagères et les autres accessoires qui rendent finalement l'armoire entièrement fonctionnelle.

D'une certaine manière, les protéines ont également des points chauds intégrés dans leurs structures. Fidèles à leur nom, "sites fonctionnels", ces coins et recoins intrigants forment des quais complexes sur lesquels d'autres protéines ou médicaments peuvent s'accrocher. Les sites sont au cœur de la réalisation de la plupart de nos processus biologiques de base. Ils sont également une immense mine d'or pour la conception de nouveaux traitements et médicaments.

Le problème? Les sites fonctionnels sont difficiles à cartographier. Les scientifiques devaient traditionnellement muter les zones suspectes d'une protéine une par une, en passant d'un acide aminé à un autre, pour déterminer des points de liaison précis. Comme un détective examinant des centaines de suspects, dont il pourrait y en avoir beaucoup, c'est extrêmement fastidieux.

A nouvelle étude in Sciences a renversé tout le livre de jeu. Dirigée par le Dr David Baker de l'Université de Washington, une équipe a puisé dans «l'imagination» d'une IA pour imaginer une myriade de sites fonctionnels à partir de zéro. C'est la "créativité" d'un esprit machine à son meilleur - un algorithme d'apprentissage en profondeur qui prédit la zone générale du site fonctionnel d'une protéine, mais sculpte ensuite davantage la structure.

Pour se confronter à la réalité, l'équipe a utilisé le nouveau logiciel pour générer des médicaments qui combattent le cancer et concevoir des vaccins contre des virus courants, parfois mortels. Dans un cas, l'esprit numérique a proposé une solution qui, testée dans des cellules isolées, correspondait parfaitement à un anticorps existant contre un virus commun. En d'autres termes, l'algorithme a « imaginé » un point chaud à partir d'une protéine virale, ce qui la rend vulnérable en tant que cible pour concevoir de nouveaux traitements.

L'algorithme est la première incursion de l'apprentissage en profondeur dans la construction de protéines autour de leurs fonctions, ouvrant la porte à des traitements auparavant inimaginables. Mais le logiciel ne se limite pas aux points chauds de protéines naturelles. "Les protéines que nous trouvons dans la nature sont des molécules étonnantes, mais les protéines conçues peuvent faire bien plus", a déclaré Baker dans un communiqué de presse. L'algorithme "fait des choses dont aucun d'entre nous ne pensait qu'il serait capable".

Le point chaud des protéines

L'équipe de Baker n'est pas étrangère à la prédiction des protéines avec des esprits artificiels. Il y a quelques années, ils ont bouleversé le domaine de la biologie structurale en lançant Rosetta, un logiciel capable de prédire la structure 3D d'une protéine en se basant uniquement sur sa séquence d'acides aminés. Ils ont en outre cartographié les complexes protéiques et conçu des «tournevis» protéiques à partir de zéro pour séparer les interactions protéiques indésirables. À la fin de l'année dernière, ils ont sorti un réseau d'apprentissage en profondeur surnommé trRosetta, un "architecte" de l'IA qui généralise la façon dont les chaînes d'acides aminés s'organisent en structures complexes à l'échelle nanométrique.

Revenons en arrière.

Il est facile d'imaginer les protéines comme l'aile de poulet charnue et nerveuse dans laquelle je mords en tapant cette phrase. Mais au niveau moléculaire, ils sont beaucoup plus élégants. Imaginez plusieurs blocs Lego, des acides aminés, maintenus ensemble par une ficelle. Maintenant, faites-le tourner autour, en tordant la chaîne jusqu'à ce que certains blocs s'enclenchent les uns sur les autres. Cela forme une structure délicate qui ressemble souvent à une hélice ou à des draps froissés. Dans certaines protéines, ces blocs de construction s'assemblent davantage en complexes, par exemple en créant un canal qui traverse la membrane protectrice d'une cellule comme une autoroute interétatique surveillée.

Les protéines alimentent chaque processus biologique, souvent par le biais d'une cascade d'interactions avec d'autres protéines ou médicaments, qui, selon le partenaire, peuvent déclencher des conséquences complètement différentes : une cellule doit-elle vivre ou mourir ? Attaquer un envahisseur potentiel ou se retirer ? En d'autres termes, les protéines sont les éléments constitutifs de la vie, et l'analyse de leur structure est la façon dont nous pouvons pirater la vie.

Voici le problème : toutes les parties d'une protéine ne sont pas créées égales. Si une protéine est un corps humain, les sites fonctionnels sont ses «mains» - où elle s'accroche à une autre protéine ou à un médicament, provoque des réactions enzymatiques ou combat les agents pathogènes envahisseurs. Intégrés directement dans la structure de la protéine, ces sites sont difficiles à cerner et encore plus difficiles à recréer.

La nouvelle étude s'est attaquée au problème avec une version de Rosetta : avec quelques connaissances préalables, est-il possible pour un ordinateur d'imaginer une chaîne d'acides aminés qui se replient naturellement dans un site fonctionnel ?

Le rêveur et le réaliste

Le problème peut sembler exotique, mais il existe un exemple précédent, dans un domaine différent. À l'aide d'un réseau de neurones, OpenAI a créé une large gamme d'images à partir des seules légendes de texte. Un spin-off du générateur de texte rockstar AI GPT-3, l'algorithme DALL·E a généré des images fantastiques mais réalistes basées sur de simples invites textuelles en détectant des modèles à partir de sa formation. "Il prend les recoins les plus profonds et les plus sombres de votre imagination et le transforme en quelque chose d'étrangement pertinent", a affirmé Valérie Plante. Dr Hany Farid à UC Berkeley après la sortie initiale de l'outil.

La construction d'un site fonctionnel protéique est similaire. Ici, les acides aminés sont les lettres et le site fonctionnel de la protéine est l'image. « L'idée est la même : les réseaux de neurones peuvent être formés pour voir des modèles dans les données. Une fois formé, vous pouvez lui donner une invite et voir s'il peut générer une solution élégante », a déclaré le Dr Joseph Watson, l'un des principaux auteurs du nouveau travail. Sauf que plutôt que d'écrire un roman, l'algorithme pourrait aider à réécrire la vie.

L'équipe a commencé avec une création précédente, trRosetta. Il s'agit d'un réseau de neurones conçu à l'origine pour imaginer de nouvelles protéines basées sur des séquences d'acides aminés tout en étant capable de prédire leur structure, certaines si étrangères aux naturelles que l'équipe a surnommé "l'hallucination" le fonctionnement interne de l'apprentissage en profondeur. L'algorithme semblait parfait : il pouvait à la fois prédire la séquence d'acides aminés d'une protéine et sa structure.

Le hic ? Cela n'a pas vraiment fonctionné. En revanche, le JO de la prédiction de la structure des protéines, RoseTTAFold, exécuté comme un champion. La puissance de l'algorithme vient de sa conception : modéliser chaque acide aminé à l'échelle nanométrique, fournir des coordonnées à chaque atome. Comme épingler un site géographique à l'aide de Google Maps, cela fournit un niveau de vérité de terrain pour une structure sur laquelle une IA peut encore riffer - une sorte d'"hallucination contrainte".

Traduction? RoseTTAFold peut prédire une structure fonctionnelle - spécifique au problème à résoudre - et proposer un croquis approximatif comme conception finale.

Puis vint une autre astuce astucieuse, surnommée "inpainting". Ici, l'équipe a caché des parties de la séquence ou de la structure de la protéine. Le logiciel a dû apprendre à déchiffrer les informations de ce qui est essentiellement une interception radio bruyante, où vous ne pouvez entendre que les premiers mots, mais essayez de comprendre sa signification en remplissant les blancs. RoseTTAFold s'est attaqué avec brio au « problème de récupération des informations manquantes », en complétant automatiquement les séquences d'acides aminés et les structures pour construire une région fonctionnelle donnée avec une grande fidélité.

RoseTTAFold peut résoudre les problèmes de construction de séquences d'acides aminés et de génération d'un squelette pour le site en même temps. C'est comme mettre des mots sur du papier : l'auteur s'assure que chaque lettre est à la bonne place, tout en vérifiant que la grammaire et le sens ont du sens.

Questionner la nature de la réalité

En mettant leur nouvelle création à l'épreuve, l'équipe a généré plusieurs conceptions de médicaments et de vaccins qui pourraient potentiellement combattre les virus et le cancer ou aider à résoudre les problèmes de santé à faible teneur en fer.

Pour l'auteur principal, le Dr Jue Wang, l'algorithme est devenu pertinent de manière inattendue. Alors qu'il travaillait sur le projet, son fils de deux ans a été hospitalisé à l'urgence d'une infection pulmonaire par le VRS (virus respiratoire syncytial) - un virus qui présente normalement des symptômes de rhume, mais qui peut être mortel chez les jeunes et les moins jeunes. âgé.

À l'époque, Wang utilisait l'algorithme pour concevoir de nouveaux traitements, qui comprenaient des sites potentiels sur le VRS pour tester davantage les vaccins et les médicaments contre. C'est une structure relativement bien tracée. Le logiciel hallucinait les conceptions qui récapitulaient deux sites auxquels les vaccins pouvaient potentiellement se lier. Des tests utilisant des protéines hallucinées, reconstruites dans des bactéries, se sont rapidement accrochés aux anticorps existants, signe qu'ils sont fonctionnels et que l'approche d'apprentissage en profondeur fonctionne.

L'incident « m'a fait réaliser que même les problèmes de « test » sur lesquels nous travaillions étaient en fait assez significatifs », a déclaré Wang.

Dans plusieurs tests supplémentaires, l'équipe a conçu des sites fonctionnels pour une enzyme, des protéines de liaison aux protéines et des protéines qui s'accrochent aux ions métalliques - en gros, comment vous absorbez le fer et d'autres métaux importants.

Bien que puissant, il y a de la place pour la croissance. La méthode ouvre la porte à la démystification des protéines naturelles, mais aussi potentiellement à la conception de nouvelles pour la biologie synthétique. "Ce sont de nouvelles approches très puissantes, mais il reste encore beaucoup à faire", a déclaré Baker.

Au total, c'est une autre victoire pour l'apprentissage en profondeur et une vitrine fascinante de la façon dont l'IA et la biologie peuvent se synergiser. "L'apprentissage en profondeur a transformé la prédiction de la structure des protéines au cours des deux dernières années, nous sommes maintenant au milieu d'une transformation similaire de la conception des protéines", a déclaré Baker.

Crédit d'image : Ian C. Haydon/Institut UW pour la conception de protéines. Un nouveau logiciel d'intelligence artificielle formé sur les structures protéiques peut générer des protéines fonctionnelles, y compris ces candidats vaccins contre le virus respiratoire RSV, en quelques secondes.

Horodatage:

Plus de Singularity Hub