Des chercheurs du St John’s College de l’Université de Cambridge se sont intéressés à la grammaire moléculaire des protéines. Dans la conclusion de l’une de leurs publications parue la semaine dernière dans PNAS, ils indiquent que leur étude pourrait être utilisée pour “corriger les erreurs grammaticales à l’intérieur des cellules provoquant le cancer ou la maladie d’Alzheimer”. Leurs recherches ont été réalisées à l’aide de plusieurs modèles de langage automatique basés sur l’intelligence artificielle dont le modèle final est DeePhase.
Cette étude a débuté avec la volonté de créer un modèle de langage automatique grâce auquel les chercheurs pourraient analyser les mégadonnées produites au cours des dernières décennies de recherches. Le Dr Kadi Liis Saar, auteur de la publication et chercheur au St John’s College, affirme s’être inspiré des algorithmes de machine learning de Netflix ou Facebook afin de concevoir un modèle de langage à grande échelle.
Ce dernier, dont la forme la plus aboutie a été baptisée DeePhase, examine l’ensemble des protéines présentes dans une cellule puis les compare avec le séquençage de protéines de cellules saines et de cellules malades. Le Dr Kadi Liis Saar s’est ainsi exprimé quant à l’utilisation de l’IA et des modèles de langage automatique dans les recherches biomoléculaires :
“Le corps humain abrite des milliers et des milliers de protéines et les scientifiques ne connaissent pas encore la fonction de bon nombre d’entre elles. Nous avons demandé à un modèle de langage basé sur un réseau neuronal d’apprendre le langage des protéines.”
Grâce à cette étude, les chercheurs ont découvert que les technologies de machine learning et de traitement du langage pouvaient déchiffrer le “langage biologique” du cancer, de la maladie d’Alzheimer ou d’autres maladies neurodégénératives qu’ils estiment à plusieurs centaines.
“Nous avons spécifiquement demandé au programme d’apprendre le langage des condensats biomoléculaires qui changent de forme – des gouttelettes de protéines présentes dans les cellules – que les scientifiques ont vraiment besoin de comprendre pour déchiffrer le langage des fonctions biologiques et des dysfonctionnements qui causent le cancer et les maladies neurodégénératives comme la maladie d’Alzheimer. Nous avons découvert qu’il pouvait apprendre, sans qu’on le dise explicitement, ce que les scientifiques ont déjà découvert sur le langage des protéines au cours de plusieurs décennies de recherche.”
Les scientifiques ont indiqué que d’après leur étude, certaines protéines désordonnées ayant un séquençage particulier forment des condensats -des gouttelettes liquides de protéines- sans membrane qui fusionnent avec d’autres cellules ou d’autres condensats. Le professeur Tuomas Knowles, auteur de l’article et membre du St John’s College, a déclaré :
L’intégration de la technologie d’apprentissage automatique dans la recherche sur les maladies neurodégénératives et le cancer change complètement la donne. En fin de compte, l’objectif sera d’utiliser l’intelligence artificielle pour développer des médicaments ciblés afin d’atténuer considérablement les symptômes ou d’empêcher la démence de se produire. […] Les condensats de protéines ont récemment attiré beaucoup d’attention dans le monde scientifique car ces derniers contrôlent des événements clés dans la cellule tels que l’expression des gènes, la conversion de l’ADN en protéines, la synthèse des protéines ou encore comment les cellules fabriquent des protéines.”