IBM et le Marshall Space Flight Center de la NASA ont annoncé le 1er février dernier une collaboration visant à utiliser la technologie d’intelligence artificielle d’IBM pour découvrir de nouvelles perspectives dans la masse de données scientifiques terrestres et géospatiales de la NASA. Ce partenariat permettra d’appliquer pour la première fois un modèle de base d’IA ou modèle de fondation aux données des satellites d’observation de la Terre de la NASA.
Les modèles spécifiques aux tâches qui ont dominé le paysage de l’IA jusqu’à présent cèdent peu à peu la place à des modèles formés sur un large ensemble de données non étiquetées, pouvant être utilisés pour différentes tâches, avec un minimum de réglage fin : les modèles de fondation, par exemple GPT-3, BERT ou encore DALL-E 2.
Ces modèles ont fait progresser rapidement le domaine du traitement du langage naturel (NLP) au cours des dernières années, IBM est à l’avant-garde des applications des modèles de fondation au-delà du langage.
L’objectif de cette collaboration est de permettre aux chercheurs d’analyser les ensembles de données de l’observation de la terre et d’en tirer des enseignements.
Raghu Ganti, chercheur principal chez IBM, déclare :
« Les modèles de fondation ont fait leurs preuves dans le traitement du langage naturel et il est temps de les étendre à de nouveaux domaines et modalités importants pour les entreprises et la société. L’application des modèles de fondation aux données géospatiales, aux séquences d’événements, aux séries chronologiques et à d’autres facteurs non linguistiques des données des sciences de la Terre pourrait mettre soudainement à la disposition d’un groupe beaucoup plus large de chercheurs, d’entreprises et de citoyens des informations et des connaissances extrêmement précieuses. En fin de compte, cela pourrait permettre à un plus grand nombre de personnes de travailler sur certains de nos problèmes climatiques les plus urgents ».
Analyser les systèmes environnementaux de notre planète
L’un des projets de cette collaboration vise à former un modèle de fondation d’intelligence géospatiale développé par IBM sur le jeu de données Harmonized Landsat Sentinel-2 (HLS) de la NASA, un registre des changements de couverture et d’utilisation des sols capturés par des satellites en orbite autour de la Terre. Grâce à HLS, les observations de la surface terrestre peuvent être acquises à une résolution spatiale sans précédent de 30 mètres tous les deux à trois jours.
Les pétaoctets de ces données satellitaire permettront d’analyser les impacts environnementaux des catastrophes naturelles, les rendements agricoles cycliques et les habitats de la faune et de la flore.
Un modèle de fondation pour la littérature scientifique terrestre
Un autre projet de cette collaboration vise à réaliser un corpus de la littérature scientifique terrestre. IBM a développé un modèle NLP entraîné sur près de 300 000 articles scientifiques spécialisés dans les sciences de la Terre, notamment des associations American Geophysical Union (AGU) et American Meteorological Society (AMS), pour organiser la littérature et faciliter la découverte de nouvelles connaissances.
Ce modèle NLP développé à l’aide des frameworks PyTorch et Ray serait l’une des plus grosses charges de travail d’IA entraîné sur la plateforme Red Hat OpenShift, déployée sur le cloud d’AWS.
Il utilise PrimeQA, le système de questions-réponses multilingue open source d’IBM. Au-delà de la fourniture d’un outil aux chercheurs, le nouveau modèle linguistique pour les sciences de la Terre pourrait être intégré dans les processus de gestion et d’intendance des données scientifiques de la NASA.
Outre ces deux projets conjoints, IBM et la NASA pourraient travailler également dans le cadre de cet accord à la construction d’un modèle de fondation pour les prévisions météorologiques et climatiques à l’aide de MERRA2, un ensemble de données d’observations atmosphériques. Cette collaboration s’inscrit dans le cadre de l’initiative “Open Source Science” de la NASA, qui vise à créer une communauté scientifique ouverte, inclusive, transparente et collaborative au cours de la prochaine décennie