Gaël Varoquaux, chercheur en machine learning et imagerie cérébrale, travaillant au sein d’INRIA & INSERM a récemment présenté une nouvelle méthodologie d’encodage de variables catégorielles en présence de bruit. Visionnez la vidéo de cette présentation lors du petit-déjeuner de la chaire DAMI (Data Analytics & Management for Insurance) sous l’égide de la fondation du risque.
Comment traiter des jeux de données issues du monde réel, dans lequel les informations sont très fréquemment bruitées ? ( typos, champs libres de saisie, différences de conventions…).
Gaël Varoquaux présente tout d’abord des approches connues pour adresser des problématiques liées : nettoyage de bases de données (correspondance entre les enregistrements et dédoublonnage des données), les méthodes de normalisation utilisées en traitement automatisé du langage (stemmatisation..) et l’encodage par cible utilisé en Machine Learning.
Il présente ensuite l’approche basée sur l’encodage par similarité, fruit d’une collaboration avec Patricio Cerda et Balazs Kegl ( “Similarity encoding for learning with dirty categorical variables”, https://arxiv.org/pdf/1806.00979 ). Cette approche repose sur le principe de l’encodage one-hot couramment utilisé en machine learning, mais couple ses facultés de représentation vectorielle de l’appartenance aux catégories avec le lien de similarité entre les chaînes de caractères. Ainsi, au lieu d’être encodés sous forme binaire, les liens sont représentés par l’indice de similarité textuelle avec la catégorie de référence.
Il est possible de tester une implémentation python de cette approche sur : https://dirty-cat.github.io/stable/