Les laboratoires de chimie génèrent une quantité importante de données. Cependant, une partie d’entre elles l’est encore sous format papier et reste difficilement accessibles dans leur intégralité. Trois scientifiques de l’EPFL présentent une plateforme modulaire de science ouverte pour gérer les grandes quantités de données produites dans la recherche en chimie. Leur étude intitulée « Rendre la connaissance collective de la chimie ouverte et exploitable par la machine » a été publiée dans la Nature Chemistry.
La gestion des données de la chimie moderne est ardue. Si on prend l’exemple de la synthèse d’un nouveau composé, de nombreux essais et erreurs ont lieu avant de trouver les bonnes conditions de réaction et génèrent ainsi d’importantes quantités de données brutes. Ces données sont très importantes car, comme les êtres humains, les algorithmes d’apprentissage machine apprennent aussi des expériences ratées ou partiellement réussies.
Actuellement, seules les expériences les plus réussies sont publiées. L’’intelligence artificielle, en particulier le machine learning, peut permettre de traiter les données des expériences ratées à condition qu’elles soient stockées dans un format exploitable par les machines et utilisable par tous.
Le professeur Berend Smit, qui dirige le Laboratoire de simulation moléculaire de l’EPFL Valais Wallis, explique :
« Pendant longtemps, nous devions comprimer les données en raison du nombre limité de pages des articles de journaux papier. Aujourd’hui, de nombreux journaux n’ont même plus d’éditions papier. Pourtant, les chimistes sont toujours confrontés à des problèmes de reproductibilité car les articles de journal font l’impasse sur des détails importants. Les chercheuses et chercheurs perdent du temps et des ressources à reproduire les expériences ratées des autrices et auteurs. Ils ont des difficultés à s’appuyer sur les résultats publiés car les données brutes sont rarement publiées. »
Berend Smit, Luc Patiny et Kevin Jablonka de l’EPFL ont publié une perspective qui présente une plateforme ouverte pour l’ensemble du flux de travail en chimie : du lancement d’un projet à sa publication.
Des données FAIR exploitables par les machines
Leur thèse principale est que, si on veut faire progresser la chimie avec une recherche intensive en données et également résoudre les problèmes de reproductibilité, il faut changer la façon dont les données expérimentales sont collectées et rapportées.
Trois étapes sont essentielles: la collecte, le traitement et la publication des données, pour un coût minimal pour les chercheuses et chercheurs. Le principe directeur est que les données doivent être facilement trouvables, accessibles, interopérables et réutilisables (FAIR).
Berend Smit déclare :
« Au moment de la collecte de données, ces dernières seront automatiquement converties dans un format standard FAIR, ce qui permettra de publier automatiquement toutes les expériences ratées ou partiellement réussies, ainsi que l’expérience la plus réussie. »
Les auteurs proposent que les données soient également exploitables par les machines.
Kevin Jablonka affirme :
« Nous voyons de plus en plus d’études de science des données en chimie. En effet, les derniers résultats de l’apprentissage machine tentent de s’attaquer à certains des problèmes que les chimistes estiment insolubles. Par exemple, notre groupe a accompli d’importants progrès dans la prédiction des conditions de réaction optimales à l’aide de modèles d’apprentissage machine. Ces modèles auraient beaucoup plus de valeur s’ils pouvaient également apprendre les conditions de réaction qui échouent, mais ils restent biaisés car seules les conditions réussies sont publiées. »
Pour établir un plan de gestion des données FAIR, les chercheurs présentent 5 mesures :
- La communauté de chimistes devrait adopter ses propres normes et solutions;
- Les journaux doivent rendre obligatoire le dépôt de données brutes réutilisables, lorsqu’il existe des normes communautaires;
- Nous devons accepter la publication des expériences « ratées » ;
- Les cahiers de laboratoire électroniques qui ne permettent pas d’exporter toutes les données sous une forme ouverte exploitable par les machines doivent être évités;
- La recherche axée sur les données doit faire partie de nos programmes d’études.
Luc Patiny déclare :
« Nous pensons qu’il n’est pas nécessaire d’inventer de nouveaux formats de fichier ou technologies. En principe, nous avons toutes les technologies. Nous devons les adopter et les rendre interopérables. »
Les auteurs soulignent que stocker des données dans un cahier de laboratoire électronique, ce qui est la tendance actuelle, ne signifie pas que les êtres humains et les machines peuvent les réutiliser. Structurer et publier les données dans un format standardisé est la meilleure alternative à condition que le contexte soit suffisant.
Berend Smit ajoute :
« Notre point de vue offre une vision de ce que l’on pense être les éléments clés pour combler le fossé entre les données et l’apprentissage machine pour les problèmes fondamentaux en chimie. Nous fournissons également une solution scientifique ouverte dans laquelle l’EPFL peut montrer l’exemple. »
Sources de l’article :
Kevin Maik Jablonka, Luc Patiny, Berend Smit. Making the collective knowledge of chemistry open and machine-actionable. Nature Chemistry 4 avril 2022. DOI: 10.1038/s41557-022-00910-7