SystemX, l’Institut de recherche technologique (IRT) dédié à l’ingénierie numérique des systèmes du futur, lance le projet “Sémantiques Métier pour l’exploitation de Données multisources” (SMD), troisième projet de son programme de recherche “Intelligence Artificielle et Ingénierie Augmentée” (IA2). Ce projet de R&D collaboratif d’une durée de 48 mois réunit plusieurs industriels et partenaires académiques.
L’objectif de l’initiative : développer, pour les métiers de la veille ou de la gestion des connaissances, des outils hybridant l’IA symbolique et l’IA par apprentissage pour construire et exploiter des connaissances sur des données hétérogènes multi-sources, afin de favoriser l’aide à la décision en environnement statique ou dynamique.
Un projet pour répondre à une problématique précise sur les volumes massifs de données hétérogènes
L’origine de ce projet tourne autour d’une problématique d’actualité : comment fabriquer une connaissance précise, pertinente et utile dans un contexte industriel ou commercial très ciblé à partir de volumes massifs de données hétérogènes (vidéo, image, texte, parole, graphique, etc.) provenant de sources multiples et variées ? C’est pour répondre à cette question que SystemX ainsi que Airbus Defence and Space SLC, Apsys, Ecosys, EDF, RTE et CentraleSupélec ont décidé de se regrouper afin de lancer le projet SMD. Sana Tmar, cheffe de projet SMD, IRT SystemX précise :
“Le contexte du projet part d’un constat réel et récurrent que toute entreprise industrielle pourrait faire face lors de son évolution numérique à l’avènement d’un volume important de données fortement hétérogènes, non structurées et multisources. Avec l’accroissement de la puissance de calcul des ordinateurs, on est de plus en plus capable d’en remonter des informations. Cependant, ces attributs utilisés seuls ne permettent pas de fournir une compréhension suffisante et comparable à celle de l’être humain, d’où l’importance de coupler plusieurs approches.”
À l’heure actuelle, les entreprises disposent d’une multitude de sources de données, souvent cloisonnées et contenant des informations de nature hétérogène d’un point de vue sémantique, structurel ou syntaxique. L’hétérogénéité réside également au niveau des systèmes et technologies utilisés. L’analyse de ces données dans un but décisionnel est souvent difficile à réaliser, d’autant plus lorsqu’il s’agit de croiser ces données internes avec des dires d’expert et autres données externes (open data, web, réseaux sociaux, etc.), et d’autant plus que les traitements doivent être opérés en temps réel.
5 cas d’usages identifiés dans le cadre du projet Sémantiques Métier pour l’exploitation de Données multisources
L’enjeu de ce projet est de prototyper des capacités à intégrer et analyser ces volumes très importants de données hétérogènes non structurées et multisources et de les rassembler dans un environnement commun pour réaliser des traitements sémantiques et offrir aux professionnels métier des connaissances nouvelles pertinentes, synthétiques et interprétables qui les aideront à prendre des décisions éclairées, comme pour l’identification de biais sur des ontologies de métier ou la détection d’une situation atypique par exemple.
Ci-dessous, retrouvez les cinq cas d’usage qui ont été identifiés :
- L’évaluation d’une intelligence artificielle qui traitera en temps réel des flux de données (principalement vidéos) pour faire de la détection à la volée de situations présentant un risque. Cette IA sera destinée aux opérateurs gérant des situations très denses et parfois complexes (secours sur accidents de grande ampleur par exemple). Elle nécessitera une hybridation entre les connaissances antérieures produites par les experts du domaine et les connaissances extraites par un algorithme de type Deep Learning (Airbus Defence and Space SLC).
- La digitalisation des modèles comportementaux d’installations industrielles (analyse de dangers, vulnérabilités) et exploiter des contenus pour élaborer des diagnostics safety / security par rapport aux enjeux de conformité réglementaire. Cela passera par l’analyse de tournures de phrases, de chaînes de défaillance, de communications irrégulières en langage naturel pour détecter des situations anormales pouvant constituer un risque de sécurité (Apsys).
- L’analyse de données hétérogènes généralement définies dans un format métier et la capacité à rendre l’utilisation autonome dans la création de modèles de données (ontologies en graphe), sans besoin d’expertise particulière (Ecosys).
- La refonte et la formalisation des exigences à partir de corpus de données hétérogènes : le besoin est de rationaliser le processus de rédaction des appels d’offres et de vérification des réponses afin d’en réduire le coût et de permettre aux experts d’être plus efficaces, et ce, grâce à l’hybridation des approches, pour une construction de connaissances plus efficace et pour un processus de découverte de correspondances entre ontologies (alignement d’ontologies) qui peuvent être issues de différents métiers et de différentes langues (EDF).
- L’intégration et le couplage des approches d’intelligence artificielle (IA symbolique et IA classique) avec les données métier dont sera construite une ontologie dans le but d’aider efficacement les opérateurs dans les centres d’exploitation du réseau électrique en anticipant les situations particulières pour mieux les gérer (période d’activité intense/gestion de travaux/incident, par exemple, une ligne hors tension) dans un contexte en très forte mutation (RTE).
Pour conclure, Sana Tmar évoque les ambitions du projet SMD :
“Le projet SMD ambitionne de lever un verrou important concernant l’hybridation des approches de représentation des connaissances et du raisonnement (IA symbolique) avec les approches récentes d’intelligence artificielle (par exemple le Deep Learning) pour l’analyse de données hétérogènes”