Focus sur ScikitEDS, un projet de la Mission Covid d’Inria porté par Alexandre Gramfort (EPC Parietal). Suite à l’appel aux bonnes volontés lancé par l’AP-HP en mars dernier, une équipe de 9 experts en science des données s’est mobilisée pour aider à analyser, quantifier, prédire et visualiser les données cliniques quotidiennes liées au Covid-19 et remontées des 39 hôpitaux de l’AP-HP afin de fournir chaque jour des rapports automatiques sur les flux de patients malades (retour à domicile, guérison, hospitalisation, réanimation).
Comme l’indique Inria, cette base de données EDS-COVID contient les données pseudonymisées de plus de 100 000 patients ayant eu un test PCR au sein de l’AP-HP. Alexandre Gramfort, accompagné d’Olivier Grisel et Guillaume Lemaitre (consortium Scikit-Learn), de Gael Varoquaux, Thomas Moreau, Demian Wassermann (équipe Parietal Inria Saclay), Jill-Jênn Vie (équipe SequeL Inria Lille), Julien Champ (équipe Zenith, Montpellier), et de Loic Estève (service expérimentation et développement du centre Inria de Paris) ont décidé d’appuyer l’AP-HP sur le volet du traitement des données de la crise.
Ces 9 scientifiques Inria ont travaillé sur un logiciel de pilotage opérationnel de crise au service des personnels de santé de l’AP-HP, principalement en Python. Mais comme ils l’indiquent, l’équipe a également utilisé beaucoup de logiciels libres dont Jupyter, PostgreSQL, l’écosystème PyData avec Pandas, Matplotlib, scikit-learn ou encore Plotly. La gestion de projet est faite via GitLab ainsi que l’intégration et le déploiement continu des résultats via GitLab CI/CD et GitLab Pages.
“L’AP-HP nous donne accès à toutes les données de la base EDS-COVID via son portail Jupyter qui rend possible l’accès distant et sécurisé. Nous mettons à disposition de l’EDS des briques logicielles : une bibliothèque Python qui facilite le travail sur les bases SQL et un outil de suivi de qualité de données qui simplifie la mise en évidence des problèmes de qualité (problèmes de saisie ou de croisement de données par exemple). Une des plus grandes difficultés de ce projet réside dans la gestion de l’hétérogénéité des sources de données (variabilité d’outils logiciels, formats de données différents, données manquantes)”.
Le projet ScikitEDS a permis le développement d’une “pile logicielle pour le déploiement d’un dashboard web, un tableau de bord permettant la visualisation des données de la base EDS-COVID : démographie, statistiques d’hospitalisations notamment des durées de séjour, facteurs de risques et comorbidités, impact des prescriptions médicamenteuses”. Ce logiciel permet à l’AP-HP de disposer d’une table synthétique contenant pour chaque patient plus de 200 variables descriptives.
“Le gros challenge de ce projet fut de réussir à travailler dans l’urgence de façon collective, avec beaucoup d’acteurs ayant chacun des habitudes de travail et utilisant un langage de programmation différents. C’est pourquoi, dans la phase d’élaboration de la task force EDS-COVID, nous avions des échanges biquotidiens, puis quotidiens, avec les docteurs : nous pouvions ainsi vérifier presque en temps réel la qualité des visualisations et des données.
Par la suite, nous avons continué la discussion sous forme de groupes de travail plus spécifiques (modèles de survie pour estimer la durée médiane de séjour en réanimation, provenance géographique des patients, impact des comorbidités telles que l’obésité sur la progression de la maladie), avec toujours un dialogue constant entre médecins et scientifiques Inria.
ScikitEDS, fruit de ce travail de plusieurs semaines, sert aujourd’hui à des dizaines de projets de recherche au sein de l’AP-HP.”