Si l’an passé, la NASA a déclaré 2023 “l’année de l’open source”, elle a toujours fait de l’accès à ses recherches une priorité. Pour faciliter le partage de ses données, la Direction des missions scientifiques (SMD) de la NASA a lancé la version bêta du moteur Science Discovery Engine, optimisée par la plateforme de Sinequa, un leader du marché de la recherche et de l’analyse de données basées sur l’IA.
Cofondé en 2005 par Jean Ferré et Alexandre Bilger, Sinequa permet aux entreprises de tirer de la valeur de la masse de données dont elles disposent. Sa solution, combinant un moteur de recherche puissant (Enterprise Search) avec des fonctionnalités avancées de traitement du Langage Naturel (NLP) et des algorithmes d’apprentissage automatique, permet d’extraire des informations métiers à partir de données structurées, mais également non structurées. La société a été l’une des premières à inclure les grands modèles de langage (LLM) dans la recherche.
Le Science Discovery Engine de la NASA
Le SDE est un élément clé du programme Open Source Science Initiative (OSSI) de la NASA qui vise à rendre la recherche scientifique financée par des fonds publics transparente, inclusive, accessible et reproductible et de son initiative “Transform to Open Science” (TOPS) dont l’objectif est de créer une culture inclusive de la science ouverte capable de relever les défis du 21e siècle.
En 2019, la communauté scientifique recommandait à la NASA de développer un portail de recherche qui donnerait, à partir d’une seule interface, accès au contenu des cinq domaines scientifiques de la SMD : astrophysique, sciences biologiques et physiques, sciences de la Terre, héliophysique et sciences planétaires.
En 2020, la solution Enterprise Search de Sinequa a été sélectionnée pour aider la NASA à accéder à des informations accumulées depuis plusieurs décennies, ainsi qu’à les exploiter de façon optimale. La collaboration étroite amorcée alors entre l’équipe de Sinequa et les développeurs, chercheurs et data scientists de la NASA a abouti à la création du SDE.
Un ensemble de données hétérogènes
Pour mettre en œuvre ce moteur de recherche, les partenaires ont du relever un défi de taille, outre la quantité des données : leur hétérogénéité et leur complexité, chacun ses 5 domaines opérant avec ses propres normes et terminologies.
Aujourd’hui, les utilisateurs du SDE peuvent extraire des informations enregistrées de plus de 84 000 ensembles de données et plus de 715 000 documents, répartis dans 128 sources d’information différentes, sites internet, référentiels de données et archives documentaires. Egalement intégrée à plus de 44 500 logiciels, modèles et outils scientifiques, la solution de Sequina reconnait plus de 8 900 termes scientifiques différents, un nombre qui devrait augmenter prochainement.
La nouvelle interface utilisateur
La version bêta du SDE a été lancée en décembre 2022. Depuis lors, l’interface n’a cessé d’être améliorée afin d’offrir des résultats de recherche plus pertinents, une nouvelle version a ainsi été mise en ligne en janvier dernier.
Kaylin Bugbee, chef de projet SDE, explique :
“Les scientifiques et les chercheurs passent beaucoup de temps à rechercher et à démêler des données et des informations scientifiques. Les nouvelles mises à jour de l’interface utilisateur de SDE font gagner du temps aux chercheurs en les aidant à rechercher rapidement des données et de la documentation par sujet scientifique ou dans l’ensemble de la collection d’informations. Cette amélioration de l’efficacité de la recherche permet aux scientifiques d’accéder plus rapidement à une science ouverte et exploitable”.
Désormais, des fonctionnalités de filtrage supplémentaires offrent aux utilisateurs la possibilité d’effectuer des recherches spécifiques dans un domaine scientifique donné, tel que la science planétaire ou l’héliophysique, simplifiant ainsi leurs processus de recherche. Parmi les mises à jour figure également un nouvel outil de recherche par acronyme, permettant une meilleure compréhension du contexte des résultats de recherche et du contenu des documents.
La NASA prévoit d’intégrer davantage de données et de contenus au cours des mois à venir, notamment en enrichissant les fonctionnalités de l’interface utilisateur et en poursuivant le développement de l’API du moteur. L’équipe du SDE prévoit de son côté un déploiement complet de l’outil à l’automne 2024.
Jean Ferré, CEO de Sinequa, conclut :
“Le Science Discovery Engine est une infrastructure fantastique qui aide les scientifiques de la NASA, ainsi que les utilisateurs du monde entier, à trouver les informations dont ils ont besoin en quelques secondes seulement, au lieu de plusieurs minutes, voire de longues heures. Nous sommes fiers d’aider la NASA à transformer et à améliorer la productivité dans l’ensemble de son organisation et serons à ses côtés pour associer de nouveaux ensembles de données et de nouvelles sources d’informations qui alimenteront son moteur de connaissances. Pour la science, la technologie et l’innovation, le partage de données scientifiques et ouvertes constitue le seul moyen de prospérer. À cet égard, Sinequa se réjouit de jouer un rôle actif dans cette initiative”.