Les protéines, nouveau terrain de jeu de l’IA

L’un des plus grands mystères de la biologie est en grande partie résolu par l’IA, pour la BBC. La “ réalisation la plus importante de l’IA ”, selon Forbes. Rarement un logiciel scientifique aura fait l’objet de titres aussi sensationnels. De quoi parle-t-on ? D’un nouveau jeu vidéo ? Non, du programme AlphaFold2 mis au point par DeepMind, la branche de Google consacrée à l’intelligence artificielle, et dédié à l’un des problèmes les plus épineux de la biologie : prédire la structure tridimensionnelle, et donc fonctionnelle, d’une protéine à partir de sa séquence linéaire en acides aminés. L’association américaine pour l’avancement des sciences en fait une des « percées de l’année 2021 ».

Auparavant, les chercheurs avaient déterminé la structure 3D d’environ 160 000 protéines venant de tous les règnes du vivant grâce à des techniques expérimentales lourdes, comme la cristallographie aux rayons X et la cryomicroscopie électronique (cryo-EM), l’ensemble des résultats étant mis en commun dans la Protein Data Bank. Les informaticiens ont fait des progrès constants en développant des logiciels qui complètent ces méthodes, et ont correctement prédit les formes 3D de certaines protéines de familles bien étudiées. Malgré ces avancées, les chercheurs ne disposaient toujours pas d’informations structurelles pour environ 4 800 protéines humaines : AlphaFold2 a réduit ce nombre à 29…

Une protéine est un enchainement linéaire d’acides aminés qui se replie selon plusieurs degrés de complexité jusqu’à obtenir la configuration propre à sa fonction.

© Shutterstock.com/Art of Science

Le programme a été dévoilé en novembre 2020 lors de la 14e édition d’une compétition biennale de prédiction de la structure des protéines, le CASP (Critical assessment of structure prediction). L’objectif : mettre au défi les biologistes et leurs algorithmes avec des séquences de protéines dont les structures ont été déterminées expérimentalement sans être rendues publiques. Le logiciel de DeepMind, fondé sur l’apprentissage profond, a survolé la compétition.

« Au CASP14, il a livré la structure d’environ deux tiers des protéines proposées, dont certaines difficiles, avec une précision de type expérimentale », explique Yang Zhang, de l’université du Michigan, à Ann Arbor, dont l’algorithme figurait parmi les finalistes du concours. Depuis, plusieurs publications ont encore démontré l’efficacité d’AlphaFold2. Le biologiste y voit une preuve éclatante de la puissance de l’apprentissage profond, mais une solution encore partielle au problème du repliement des protéines. En effet, l’algorithme donne des résultats très précis pour nombre de protéines, voire pour certains complexes multiprotéiques, mais a encore du mal avec les protéines compliquées ou des structures dynamiques. Comment fonctionnent ces algorithmes comme AlphaFold2 ?

« Enseignement supérieur »

Le processus intègre des phases d’apprentissage automatique durant lesquelles des réseaux neuronaux sont formés pour reconnaître et interpréter des modèles dans les données. « Ces modèles n’essaient pas de prédire la structure en une seule fois, explique David Baker, de l’université de Washington, à Seattle. Ils s’apparentent davantage à une simulation physique où les modèles apprennent à faire les bons mouvements pour améliorer la structure. » Entraînés avec de grandes quantités de données expérimentales annotées, ces algorithmes identifient progressivement des liens entre la séquence et la structure qui nourrissent les prédictions pour de nouvelles protéines.

Ces cinq dernières années, les progrès dans la prédiction de structure par algorithme ont été importants. La première itération d’AlphaFold a remporté le CASP13, en 2018, mais ses performances étaient loin de celles de son successeur en 2020. Plusieurs laboratoires universitaires ont par la suite développé des programmes basés sur l’apprentissage profond qui ont surpassé la première génération d’AlphaFold, notamment D-I-TASSER du laboratoire de Yang Zhang, trRosetta du groupe de David Baker, et RaptorX, développé par Jinbo Xu et son équipe de l’institut de technologie Toyota, à Chicago.

Mais ces algorithmes fonctionnaient le plus souvent au sein de logiciels plus larges, ce qui créait des risques d’erreurs. « Les différents composants communiquaient souvent mal, parce qu’ils étaient construits de façon fragmentaire », explique Mohammed AlQuraishi, de l’université Columbia, à New York. Ces difficultés sont levées avec des algorithmes dédiés qui gèrent l’ensemble du processus, de la séquence à la structure. C’est pourquoi John Jumper, le chercheur principal de DeepMind, à Londres, a abandonné AlphaFold après le CASP13 pour se consacrer à AlphaFold2.

L’ère des transformeurs

Plusieurs aspects de ce programme reposent sur des techniques établies. Par exemple, l’algorithme commence par des alignements multiséquences (MSA), où la séquence d’une nouvelle protéine de structure inconnue est comparée à celles de protéines apparentées provenant d’autres espèces. En identifiant les acides aminés qui évoluent en parallèle, les algorithmes repèrent les plus susceptibles de s’associer dans la protéine repliée, en supposant qu’une modification de la séquence en un endroit a nécessité ailleurs une mutation compensatoire pour préserver la structure globale de la protéine.

Chris Sander, de l’institut de cancérologie Dana-Farber, à Boston, et Debora Marks, de l’université Harvard, à Cambridge, Massachusetts, avaient mis au point cette technique basée sur la coévolution, en 2011. Aujourd’hui, l’apprentissage automatique la rend plus efficace. Pour construire leurs MSA, les développeurs d’AlphaFold2 ont utilisé les milliards de séquences protéiques compilées par Martin Steinegger, de l’université de Séoul, en Corée du Sud, et Johannes Söding, de l’institut Max-Planck de chimie biophysique, à Göttingen, en Allemagne.

L’équipe de DeepMind a également imaginé des solutions innovantes. L’une d’elles consiste en des transformeurs, des outils de reconnaissance de motifs couramment utilisés dans l’analyse d’images et le traitement du langage naturel. Les transformeurs sont conçus pour repérer des modèles locaux (des chaînes de mots fréquentes ou des éléments visuels souvent ensemble, par exemple) qui guident l’interprétation des données. DeepMind les a adaptés aux interactions à longue portée entre acides aminés éloignés de la séquence (par exemple entre le 10e et le 350e) et susceptibles d’être importantes dans la forme finale.

AlphaFold2 traite le repliement des protéines sous plusieurs angles simultanément, et génère en parallèle plusieurs représentations de la structure possible. Celles-ci sont ensuite comparées de façon à affiner le processus de modélisation lors des itérations suivantes. Pour ce faire, John Jumper et ses collègues ont conçu une architecture de réseau neuronal qui favorise un échange d’informations fluide et efficace entre les composants du logiciel.

Structures pour tous

En raison du décalage entre les débuts publics d’AlphaFold2 et la parution des articles le décrivant, et de l’incertitude des universitaires quant à la diffusion de tous les détails, David Baker et Minkyung Baek, lui aussi de l’université de Washington, ont travaillé à partir d’informations éparses sur l’architecture du logiciel pour développer leur propre version, RoseTTAFold. Celle-ci utilise de nombreuses stratégies identiques à celles d’AlphaFold2, mais avec quelques particularités.

« Au moment où nous l’avons mis à disposition, c’était de loin le meilleur outil de prédiction de structure, mais il n’est pas aussi bon qu’AlphaFold2 », déclare David Baker. Il souligne que DeepMind est une entité privée disposant, contrairement à la plupart des laboratoires universitaires, d’énormes ressources et d’une équipe d’experts. Le succès d’AlphaFold2 « tient beaucoup à l’argent mis par Google, déclare Amelie Stein, de l’université de Copenhague, mais aussi à la réunion d’ingénieurs en logiciels et de spécialistes des protéines ».

détermination des structures de protéines

Dans la détermination des structures de protéines, l’intelligence artificielle (en bleu) fait désormais presque jeu égal avec les études expérimentales (en vert).

© DeepMind

Depuis la sortie d’AlphaFold2 en juillet 2021, les laboratoires se sont rués dessus et sur ses prédictions de structure, disponibles dans une base de données hébergée par l’Institut européen de bioinformatique. Le logiciel est simple d’utilisation, bien qu’il nécessite plusieurs téraoctets d’espace disque pour télécharger les bases de données et plusieurs unités de traitement graphique (GPU) pour effectuer les analyses. « Les calculs sur une seule structure sont plutôt faciles, nous les exécutons en quelques heures », explique Arne Elofsson, de l’université de Stockholm. Mais les analyses de l’ensemble des protéines d’un organisme, ou protéome, sont encore hors de portée de la plupart des laboratoires universitaires.

Pour les chercheurs qui souhaitent tester le logiciel, Martin Steinegger et ses collègues ont mis au point ColabFold, un système dématérialisé qui fait fonctionner AlphaFold2 et RoseTTAFold en utilisant des bases de données distantes et la puissance de calcul fournie par Google. L’interface web est relativement simple et permet d’optimiser l’expérience.

Sans faux pli

Même l’équipe de DeepMind a été surprise par les performances d’AlphaFold2 lors du CASP14. Depuis, de nombreuses démonstrations des capacités du logiciel ont été apportées, mais également de ses limites. Dans une étude publiée parallèlement à l’article décrivant l’algorithme, l’équipe de Google a appliqué AlphaFold2 à un ensemble de données comprenant 98,5 % du protéome humain. L’algorithme utilise un test de différence de distance locale prédite (pLDDT, pour « predicted local distance difference test ») pour rendre compte de sa confiance dans la position et l’orientation qu’il propose pour un acide aminé particulier dans la protéine réelle. Finalement, 36 % de tous les résidus aminés du protéome ont pu être analysés avec un degré de confiance très élevé.

En août 2021, le groupe d’Alfonso Valencia, du Centre de supercalcul de Barcelone, en Espagne, a conclu de leur côté qu’AlphaFold2 avait fait passer de 31 à 50 % la proportion d’acides aminés des protéines humaines cartographiables avec précision.

Yang Zhang s’attend à ce que le logiciel fasse un travail rapide sur les « fruits les plus faciles à cueillir » du protéome, comme les protéines simples. Mais l’analyse de nombreuses autres relève du défi, notamment celles qui sont composées de plusieurs unités fonctionnelles indépendantes (des domaines) reliées de façon flexible. Ici, les domaines individuels sont accessibles au logiciel, mais pas leur orientation les uns par rapport aux autres.

Les segments de protéines qui sont intrinsèquement désordonnés dans leur état naturel, qui correspondraient à plus d’un tiers de tous les acides aminés du protéome humain, constituent un défi encore plus grand. Aucun algorithme ne peut actuellement prédire comment ils se replient, mais John Jumper note que la méthode des pLDDT peut aider à délimiter ces segments dans une structure.

Une caractéristique inattendue d’AlphaFold2 et de RoseTTAFold est leur capacité à prédire des structures précises des homodimères, ces complexes formés de deux protéines identiques, et des hétérodimères, quand les protéines assemblées diffèrent, ce pour quoi ils n’avaient pas été conçus au départ. Arne Elofsson et son équipe ont réussi à modéliser jusqu’à 59 % des complexes à deux protéines qu’ils ont analysés avec AlphaFold2. Cependant, ce processus est plus difficile sur le plan informatique lorsque l’on tente d’identifier des complexes probables à partir de zéro, plutôt qu’en modélisant des paires d’interactions connues. Mais en appliquant plusieurs algorithmes d’apprentissage profond en parallèle, David Baker et son équipe ont identifié et modélisé des centaines de complexes multiprotéiques à partir de millions de paires d’interactions possibles dans le protéome de la levure Saccharomyces cerevisiae. Ici, pour filtrer les paires d’acides aminés qui interagissent le plus probablement, RoseTTAFold était environ cent fois plus rapide qu’AlphaFold2, celui-ci ayant ensuite été utilisé sur le sous-ensemble obtenu.

Sentant l’enthousiasme pour ce domaine d’application, DeepMind a publié en octobre 2021 AlphaFold-Multimer, spécifiquement entraîné pour s’attaquer aux complexes protéiques. Le programme a prédit des interactions avec une haute précision pour 34 % des complexes homodimériques testés, et pour 23 % des complexes hétérodimériques.

Frontières fonctionnelles

Pourtant, de nombreuses questions restent hors de portée, note Debora Marks. « Si votre technologie copie la cristallographie, c’est formidable, mais de tels instantanés structurels statiques ne disent rien du comportement dynamique inhérent d’une protéine donnée. » Ainsi, AlphaFold2 produit généralement une seule réponse « correcte » pour chaque séquence. Toutefois, de nombreuses protéines ont plusieurs conformations qui sont toutes pertinentes pour la fonction, par exemple l’état activé ou inhibé d’une enzyme. Pour résoudre ces problèmes, des techniques expérimentales qui montrent la structure de la protéine réelle dans de multiples états, comme la cryo-EM, seront encore nécessaires.

AlphaFold2 n’est pas non plus adapté pour prédire comment les changements d’acides aminés individuels modifient la structure des protéines, un facteur pourtant crucial pour comprendre l’effet des mutations. Une raison en est que l’algorithme converge vers une solution correcte à partir de nombreuses séquences légèrement différentes, explique Amelie Stein. Néanmoins, son équipe a obtenu des prédictions plus précises en couplant l’apprentissage profond fournissant la structure de protéines de type sauvage à d’autres algorithmes d’analyse des mutations.

Les biologistes structurels ne sont pas près de perdre leur emploi. En fait, ils sont même désormais en mesure de consacrer plus de temps à d’autres questions fondamentales. Randy Read, de l’université de Cambridge, au Royaume-Uni, note, par exemple, que les prédictions d’AlphaFold2 aident déjà beaucoup les cristallographes dans l’interprétation de leurs données lorsqu’elles sont incomplètes. Les concepteurs de protéines de novo tireront également profit d’AlphaFold2 en simplifiant la phase de calcul des modèles qui précède les tests en laboratoire.

Pour Mohammed AlQuraishi, la biologie structurale est à l’aube d’une nouvelle ère qui privilégiera la fonction des protéines plutôt que leur forme. Cette dernière ne sera plus une fin en soi, et la discipline va mériter la composante « biologie » de son nom.

Les protéines, nouveau terrain de jeu de l’IA

We wish to thank the author of this short article for this remarkable content

Les protéines, nouveau terrain de jeu de l’IA

Discover our social media profiles , as well as the other related pageshttps://www.ai-magazine.com/related-pages/