L’analyse automatique des données numériques est devenue un enjeu industriel, sociétal et scientifique majeur et doit faire face à la diversification et la multiplication exponentielle de ces données.
Après avoir ouvert en 2009 une chaire annuelle Informatique et sciences numériques, puis, en 2012, une chaire Algorithmes, machines et langages, l’Assemblée du Collège de France a décidé de créer une chaire entièrement consacrée aux sciences des données, domaine fondamental qui non seulement bouleverse des pans entiers de nos économies et de nos sociétés, mais ouvrent aussi de vastes perspectives scientifiques et technologiques. Le Pr Stéphane Mallat a été nommé titulaire de cette nouvelle chaire.
Algorithmes d’apprentissage et réseaux de neurones artificiels
Stéphane Mallat, Professeur de mathématiques et d’informatique à l’École normale supérieure, jusqu’en 2017, a consacré sa recherche aux mathématiques appliquées au traitement du signal et plus récemment à l’étude des algorithmes d’apprentissage et des réseaux de neurones profonds.
Si la performance des algorithmes d’analyse de données et l’intelligence artificielle ont fait un bond remarquable ces dernières années, on comprend encore mal les principes mathématiques qui permettent à ces techniques de fonctionner et on ne sait donc pas toujours correctement qualifier leurs résultats. Il faut pourtant pouvoir s’assurer scientifiquement de la non-existence de comportements aberrants, quand il s’agit par exemple de continuer à développer des applications médicales ou des applications utilisées pour la conduite de voitures autonomes. Un des enjeux fondamentaux est d’être capable de généraliser, d’acquérir la certitude que l’algorithme d’apprentissage ne se trompera pas face à un cas qu’il n’a jamais analysé et donc de comprendre la nature des régularités sous-jacentes.
« La beauté des concepts qui se dégagent s’enracine dans la beauté des correspondances entre domaines aussi différents que la reconnaissance d’images, la neurophysiologie, la chimie quantique, la cosmologie ou l’économie. Révéler ces correspondances est une des ambitions des mathématiques appliquées », S. Mallat.
Le vertige de la grande dimension
Les sciences des données ont pour but de répondre à des questions à partir de données ayant un très grand nombre de variables, qu’il s’agisse d’images, de sons, de textes, de données génomiques, de liens dans des réseaux sociaux ou de mesures physiques. Dans une image les variables sont les pixels, et il y en a plusieurs millions. Cette multitude de variables ouvre un champs gigantesque des possibles, ce que l’on appel la malédiction de la dimensionnalité.
Les algorithmes doivent faire face à cette malédiction, et extraire l’information pertinente en hiérarchisant les paramètres importants, grâce à des informations partielles sur la régularité des réponses. Comprendre les principes mathématiques et la nature des régularités qui gouvernent les algorithmes d’apprentissage, c’est l’objectif des travaux de Stéphane Mallat aux frontières des mathématiques et de l’informatique, en effectuant un aller-retour constant avec les applications.
Ses cours au Collège de France permettront d’introduire les outils mathématiques et informatiques fondamentaux nécessaires pour comprendre les grandes questions et défis posés par la modélisation et l’apprentissage en sciences des données. Son cycle de cours pour l’année académique 2017/2018, L’apprentissage face à la malédiction de la grande dimension, aura lieu les mercredis à 9h30 à partir du 17 janvier 2018. Sa leçon inaugurale du 11 janvier a reçu un formidable accueil et est disponible, tout comme l’ensemble de son enseignement, sur www.college-de-France.fr