Les protéines sont présentes dans toutes les cellules vivantes où elles assurent une multitude de fonctions. Certaines d’entre elles jouent des rôles essentiels dans divers domaines comme la santé humaine, la biologie ou les biotechnologies. Pour les découvrir, une équipe de recherche du laboratoire de biologie computationnelle et quantitative (Sorbonne Université, CNRS), en collaboration avec le laboratoire Biologie du chloroplaste et perception de la lumière chez les microalgues (Sorbonne Université, CNRS), a développé une approche computationnelle innovante pour la classification fonctionnelle de familles protéiques. Elle a présenté cette recherche intitulée « Plusieurs modèles de profil extraient les caractéristiques des données de séquence de protéines et résolvent la diversité fonctionnelle de familles de protéines très différentes » dans Molecular Biology and Evolution.
La classification fonctionnelle des séquences biologiques est nécessaire pour comprendre les données de séquences génomiques et métagénomiques. Mais il existe des milliers de séquences de protéines provenant du même ancêtre, qui ont subi des mutations et sont impliquées dans l’interaction avec les acides nucléiques, les acides aminés et les petites molécules.
ProfileView, approche computationnelle pour la classification fonctionnelle des familles protéiques
L’équipe du Laboratoire de biologie computationnelle et quantitative a développé ProfileView (Point de vue des profils) pour classer ces milliers de séquences ayant un ancêtre commun par fonction.
Cette approche innovante s’appuie sur deux concepts :
- Utiliser de multiples modèles de profils probabilistes pour explorer et extraire des informations évolutives des bases de données des séquences;
- Définir un nouvel espace de représentation des séquences où les séquences sont analysées du point de vue des motifs fonctionnels encodés dans les profils.
ProfileView a été validée sur sept familles de protéines, très répandues dans l’environnement, présentant à la fois une grande variété de fonctions et une importante divergence de séquences.
L’une d’elles est celle des Cryptochrome-Photolyases jouant un rôle dans divers mécanismes biologiques activés par la lumière et étudiée au laboratoire Biologie du chloroplaste et perception de la lumière chez les microalgues (Sorbonne Université, CNRS). Certains des membres de cette famille de protéines sont extrêmement importants en médecine et biologie car ils ont une fonction importante dans la stabilité du génome, la biologie du cancer, la régulation des rythmes circadiens (horloge biologique) ou encore les méthodologies optogénétiques. Développée depuis une dizaine d’années, l’optogénétique est une technique utilisée dans le domaine des neurosciences qui consiste à modifier génétiquement des neurones pour les rendre sensibles à la lumière grâce à l’expression d’une protéine : l’opsine.
Les résultats de l’approche ProfileView
Les expériences des décennies précédentes ont produit de nombreuses informations fonctionnelles que l’équipe a utilisées pour valider l’approche ProfileView. L’organisation fonctionnelle des sept familles qu’elle a considéré correspond à celles des preuves expérimentales. En outre, ProfileView permet des classifications fonctionnelles encore non définies.
ProfileView permet d’accroître la compréhension des mécanismes développés par la nature pour exploiter la lumière à des fins fonctionnelles.
Si ProfileView a été entraîné pour la classification de séquences protéiques entières, il peut également gérer des séquences métagénomiques. La métagénomique séquence les génomes de plusieurs individus d’espèces différentes dans un milieu donné qui peuvent ne jamais être isolés. Développer de nouvelles approches pour explorer leur biologie dans des écosystèmes complexes est primordial.
ProfileView permet ainsi d’augmenter les connaissances sur la biologie d’organismes dont le rôle écologique est reconnu (comme les microbes marins) mais qui ne sont pas encore accessibles aux investigations fonctionnelles, ouvrant ainsi une nouvelle voie d’exploration fonctionnelle.
Cette approche computationnelle innovante des processus évolutifs et de l’espace complexe des séquences naturelles rend possible une classification générale et précise des membres des familles de protéines, tout en soulignant les motifs fonctionnels d’interaction avec d’autres protéines, l’ADN et les petites molécules, et ouvre ainsi la voie à des analyses à grande échelle.
Sources de l’article :
Multiple Profile Models Extract Features from Protein Sequence Data and Resolve Functional Diversity of Very Different Protein Families.
R. Vicedomini, J-P. Bouyly . E. Laine, A. Falciatore, A. Carbone.
https://doi.org/10.1093/molbev/msac070