Le machine learning de A à Z - Replay de la conférence d'Alexia Audevart au Salon de la Data

Le machine learning, l’IA, le deep learning, les statistiques, le data mining… bref, tous ces mots sont les buzz words du moment mais que se cache-t-il derrière ?
À travers des exemples concrets, Alexia Audevart, Data & Enthusiasm chez Ekito, présidente du meetup Toulouse Data Science et co-organisatrice du Devfest Toulouse, propose de parcourir les différentes approches du machine learning, les grandes familles d’algorithmes, puis les outils et les frameworks à la disposition des datascientists. (Salon de la data)

État des lieux

Le machine learning donne la possibilité à une machine d’apprendre à partir de données, sans qu’elle soit explicitement programmée pour, c’est-à-dire sans qu’on lui dise clairement ce qu’elle doit faire de bout en bout. Il permet de tirer de la valeur de tous les types de données (structurée, semi ou non), d’en extraire des patterns (corrélations) et de prédire des résultats.

Dans un premier temps, la machine consomme de l’expérience. On lui donne un ensemble de données organisées par features (une colonne ou une ligne regroupant le même type d’information), ainsi que le résultat. Par exemple : le prix de plusieurs maisons, avec pour chacune le nombre de chambres, le code postal, la surface. Ensuite, on donne à la machine la tâche à effectuer. Pour cela, la machine crée un modèle, avec des liens entre les différentes features et des pondérations. Par exemple : prédire le prix d’une maison.

Enfin, on vérifie l’indice de performance. L’objectif est que le résultat donné par la machine soit le plus près possible du résultat réel (que la machine ne connait pas en amont). La machine apprend par un processus itératif : si l’indice de performance n’est pas suffisamment bon, on lui donne les résultats effectivement attendus pour ce jeu de données, puis lui en donne un nouveau pour qu’elle affine son modèle.

Perspectives

L’open source se généralise : Alors qu’historiquement les chercheurs travaillaient plutôt en vase clos, les GAFA (Google, Apple, Facebook, Amazon) mettent aujourd’hui leurs codes sources à disposition de tous.

Le machine learning est de plus en plus présent : Le nombre de cas d’usage augmente, les performances s’améliorent et de plus en plus d’acteurs souhaitent utiliser le machine learning.

L’augmentation des capacités du hardware permet de traiter de plus en plus de données : C’est le cas notamment de la puce de Google TPU (Tensor Processor Unit) offrant des performances améliorées.

L’enjeu de l’auditabilité du code : Les acteurs du machine learning devront être en mesure de dire ce qu’apprend le code, pourquoi et comment, afin de répondre aux critiques sur la possibilité d’une prise de contrôle par les machines.