apprentissage non supervisé
En machine learning, lorsque l’on souhaite regrouper des données sans les étiqueter, le recours à l’apprentissage non supervisé, sans aucune intervention humaine, s’impose.
L’apprentissage non supervisé, qu’est-ce que c’est ?
En machine learning, la technique de l’apprentissage non supervisé (ou unsupervised learning) consiste à entraîner des modèles, sans réaliser d’étiquetage manuel ou automatique des données au préalable. Les algorithmes regroupent les données en fonction de leur similitude, sans aucune intervention humaine.
Comment fonctionne l’apprentissage non supervisé ?
L’apprentissage non supervisé détecte des données ou individus présentant des caractéristiques ou des structures communes. Typiquement, l’unsupervised learning peut servir à développer un moteur de recommandation de produits, qui est conçu pour proposer à un visiteur des produits au regard des appétences des clients présentant les mêmes caractéristiques.
Quelle est la différence entre apprentissage non supervisé et apprentissage supervisé ?
A la différence de l’apprentissage supervisé qui fait appel à des données étiquetées ou annotées pour réaliser des prédictions, l’apprentissage non supervisé n’a pas besoin d’étiquette. Puisque les données ne sont pas étiquetées, il n’est pas possible pour le modèle de calculer des scores de réussite. En conséquence, alors que les systèmes supervisés se concentrent sur les tâches de régression et classification, la technique non supervisée est utilisée pour effectuer des regroupements ou des mises en grappe de données en fonction de leurs ressemblances ou différences.
Quelles sont les techniques de l’apprentissage non supervisé ?
En apprentissage supervisé, le clustering est l’algorithme le plus utilisé. Il consiste à regrouper des données hétérogènes en groupes de données ayant des caractéristiques homogènes. Comme indiqué plus haut, le clustering est très utilisé pour réaliser des segmentations de clients présentant des caractéristiques et comportements communs.
Il existe plusieurs types d’algorithmes de clustering. Parmi les plus populaires figurent la méthode des K-moyennes (voir question ci-dessous), l’algorithme apriori, le clustering hiérarchique ou encore la décomposition en valeurs singulières (SVD). Autre type d’algorithme non supervisé : l’analyse en composantes principales (ACP).