DeepMind, société technologique et filiale de Google, a annoncé sa collaboration avec le laboratoire européen de biologique moléculaire (EMBL) dans l’objectif de proposer une base de données la plus complète et précise possible sur les structures de protéines humaines. AlphaFold, présentée en décembre 2020 (voir le magazine ActuIA N°3), devrait permettre la mise en place de projets de recherche qui feront progresser la compréhension des éléments constitutifs de la vie. Le projet vient de faire l’objet d’une publication sur la plateforme de code Github.
La seconde version d’une base de données complète de l’ensemble des protéines humaines
En décembre 2020, les techniques d’IA exploitées par la première version d’AlphaFold avaient été saluées par le Critical Assessment of protein Structure Prediction (CASP), un organisme dont l’objectif est d’exploiter toutes les méthodes possibles et imaginables pour identifier toutes les séquences et structures de protéines. La solution proposée par l’EMBL et Deepmind a été considérée comme solution majeure quant au grand défi de la prédiction de la structure des protéines.
La semaine dernière, la méthodologie derrière la dernière version d’AlphaFold, ainsi que le système d’IA sophistiqué annoncé en décembre dernier qui alimente ces prédictions de structure, et son code open source ont été publiés. Une publication qui coïncide avec un second article qui fournit l’image la plus complète du protéome humain. Ces deux articles constituent une avancée immense dans le monde de la science des protéines.
Le fondateur et PDG de DeepMind, Demis Hassabis, a évoqué l’élaboration d’AlphaFold :
“Notre objectif chez DeepMind a toujours été de développer l’IA, puis de l’utiliser comme un outil pour aider à accélérer le rythme de la découverte scientifique elle-même, faisant ainsi progresser notre compréhension du monde qui nous entoure. Nous avons utilisé AlphaFold pour générer l’image la plus complète et la plus précise du protéome humain. Nous pensons que cela représente la contribution la plus importante que l’IA ait apportée à l’avancement des connaissances scientifiques à ce jour et illustre parfaitement les types d’avantages que l’IA peut apporter à la société.”
Grâce à l’intelligence artificielle, AlphaFold permet d’obtenir une image précise du protéome humain
La base de données s’appuie sur de nombreuses contributions de la communauté scientifique internationale, ainsi que sur les innovations algorithmiques sophistiquées de DeepMind. le directeur général adjoint de l’EMBL, Ewan Birney, ajoute :
“Rendre les prédictions d’AlphaFold accessibles à la communauté scientifique internationale ouvre de nombreuses nouvelles voies de recherche, des maladies négligées aux nouvelles enzymes pour la biotechnologie et tout le reste. Il s’agit d’un nouvel outil scientifique formidable, qui complète les technologies existantes, et nous permettra de repousser les limites de notre compréhension du monde.”
En plus du protéome humain, la base de données se compose d’environ 350 000 structures, dont 20 organismes biologiquement significatifs tels qu’E. coli, la mouche des fruits, la souris, le poisson-zèbre, le parasite du paludisme et les bactéries de la tuberculose. Ces structures permettront aux chercheurs dans une grande variété de domaines, comme les neurosciences ou la médecin, d’accélérer leurs travaux.
Une base de données au service des chercheurs et pour faire avancer la présence de l’IA en biologie
Grâce à l’intelligence artificielle, AlphaFold est capable de prédire la forme d’une protéine par ordinateur à partir de sa séquence d’acides aminés en quelques mois, plutôt qu’en tentant de la déterminer expérimentalement : une méthode qui prend plusieurs années, qui demande d’être minutieuse, qui est souvent couteuse et laborieuse. La directrice générale de l’EMBL, Edith Heard, précise :
“La base de données AlphaFold est un parfait exemple du cercle vertueux de la science ouverte. AlphaFold a été formé à l’aide de données provenant de ressources publiques construites par la communauté scientifique, il est donc logique que ses prédictions soient publiques. Le partage ouvert et libre des prédictions AlphaFold permettra aux chercheurs du monde entier d’acquérir de nouvelles connaissances et de stimuler la découverte. Je crois qu’AlphaFold est vraiment une révolution pour les sciences de la vie, tout comme la génomique l’était il y a plusieurs décennies et je suis très fier que l’EMBL ait pu aider DeepMind à faire en sorte que cette ressource remarquable soit disponible en accès libre.”
La base de données et le système d’intelligence artificielle fournissent aux biologistes structurés de nouveaux outils puissants pour examiner la structure tridimensionnelle d’une protéine et offrent un éventail de données qui pourrait débloquer de futures avancées et annoncer une nouvelle ère pour la biologie basée sur l’IA.
À l’avenir, la base de données et le système d’IA seront périodiquement mis à jour, au fur et à mesure de leur évolution, selon DeepMind. Au cours des prochains mois, la filiale de Google prévoit de couvrir presque toutes les protéines séquencées connues de la science soit plus de 100 millions de structures.