L’apprentissage non supervisé est un type d’apprentissage automatique (machine learning) où l’algorithme apprend sans étiquette, c’est-à-dire qu’on lui fournit des données brutes, sans indication de la réponse attendue.
Objectif : détecter des structures cachées, des groupes, des modèles ou des relations dans les données.
Principe :
Contrairement à l’apprentissage supervisé, ici aucune sortie n’est connue à l’avance. L’algorithme explore les données pour :
-
Regrouper les éléments similaires (clustering)
-
Réduire la dimension des données (réduction de dimensionnalité)
-
Identifier des structures sous-jacentes ou des anomalies
Exemples :
| Exemple | Données d’entrée | Résultat |
|---|---|---|
| Segmentation client | Données d’achats, âge, fréquence | Groupes de clients avec comportements similaires |
| Analyse de documents | Mots utilisés, longueurs de texte | Regroupement par thèmes ou sujets |
| Détection de fraude | Transactions bancaires | Repérage d’anomalies inhabituelles |
Applications courantes :
-
Regroupement de clients pour le marketing (segmentation)
-
Analyse de comportements sur un site web
-
Systèmes de recommandation basés sur la similarité
-
Réduction de données pour la visualisation (ex : t-SNE, PCA)
-
Détection d’anomalies (fraudes, erreurs industrielles)
Méthodes principales :
-
Clustering (regroupement)
-
Ex. : k-means, DBSCAN, hierarchical clustering
-
Objectif : former des groupes (clusters) d’individus similaires
-
-
Réduction de dimensionnalité
-
Ex. : PCA (analyse en composantes principales)
-
Objectif : simplifier les données tout en gardant l’essentiel
-
-
Détection d’anomalies
-
Ex. : Isolation Forest, One-Class SVM
-
Objectif : repérer les données “bizarres” qui sortent du lot
-
