Dans le domaine de l'intelligence artificielle, l'apprentissage non supervisé est un type de machine learning qui apprend à partir de données sans supervision humaine. Contrairement à l'apprentissage supervisé, les modèles de machine learning non supervisés reçoivent des données non étiquetées et identifient des modèles et des insights sans instructions ni consignes explicites.
Que vous vous en rendiez compte ou non, l'intelligence artificielle et le machine learning ont un impact sur tous les aspects de la vie quotidienne, contribuant à transformer les données en insights permettant d'améliorer l'efficacité, de réduire les coûts et de mieux éclairer la prise de décision. Aujourd'hui, les entreprises utilisent des algorithmes de machine learning (apprentissage automatique) pour proposer des recommandations personnalisées, des traductions en temps réel ou même la génération automatique de texte, d'images et d'autres types de contenus.
Nous allons aborder les principes de base du machine learning non supervisé, son fonctionnement et certaines de ses applications courantes dans la vie réelle.
Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer Vertex AI et d'autres produits Google Cloud.
Comme son nom l'indique, l'apprentissage non supervisé utilise des algorithmes d'auto-apprentissage, c'est-à-dire qu'il apprend sans étiquettes ni entraînement préalable. Au lieu de cela, le modèle reçoit des données brutes et non étiquetées, et doit inférer ses propres règles et structurer les informations en fonction des similitudes, des différences et des modèles, sans instructions explicites sur la façon de travailler avec chaque élément de données.
Les algorithmes d'apprentissage non supervisé sont mieux adaptés aux tâches de traitement plus complexes, telles que l'organisation de grands ensembles de données en clusters. Ils sont utiles pour identifier des modèles précédemment non détectés dans les données et peuvent aider à identifier les caractéristiques utiles pour catégoriser les données.
Imaginez que vous avez un grand jeu de données météorologiques. Un algorithme d'apprentissage non supervisé parcourt les données et identifie des tendances dans les points de données. Par exemple, il peut regrouper les données par température ou par modèles météorologiques similaires.
Bien que l'algorithme lui-même ne comprenne pas ces modèles grâce à des informations fournies précédemment, vous pouvez ensuite parcourir les regroupements de données et essayer de les classer en fonction de votre compréhension de l'ensemble de données. Par exemple, vous pourriez reconnaître que les différents groupes de températures représentent les quatre saisons ou que les modèles météorologiques sont séparés en différents types de conditions météorologiques, comme la pluie, le grésil ou la neige.
En général, il existe trois types de tâches d'apprentissage non supervisées: le clustering, les règles d'association et la réduction de la dimensionnalité.
Nous allons maintenant examiner plus en détail chaque type de technique d'apprentissage non supervisé.
Le clustering est une technique permettant d'explorer des données brutes et non étiquetées et de les diviser en groupes (ou clusters) en fonction de leurs similitudes ou différences. Il est utilisé dans diverses applications, y compris la segmentation de la clientèle, la détection des fraudes et l'analyse d'images. Les algorithmes de clustering divisent les données en groupes naturels en trouvant des structures ou des modèles similaires dans des données non catégorisées.
Le clustering est l'une des approches de machine learning non supervisé les plus populaires. Plusieurs types d'algorithmes d'apprentissage non supervisés sont utilisés pour le clustering: exclusifs, superposés, hiérarchiques et probabilistes.
L'extraction des règles d'association est une approche basée sur des règles qui permet de révéler des relations intéressantes entre des points de données dans de grands ensembles de données. Les algorithmes d'apprentissage non supervisé recherchent des associations "si-alors" (ou règles) fréquentes afin d'identifier les corrélations et les co-occurrences dans les données, ainsi que les différentes connexions entre les objets de données.
Elle est le plus souvent utilisée pour analyser les paniers d'achats ou les ensembles de données transactionnels afin de représenter la fréquence à laquelle certains articles sont achetés ensemble. Ces algorithmes identifient les modèles d'achat des clients et les relations auparavant cachées entre les produits, ce qui permet d'orienter les moteurs de recommandations ou d'autres opportunités de vente croisée. Vous connaissez peut-être ces règles des sections "Fréquemment achetés ensemble" et "Les personnes ayant acheté cet article ont également acheté" de votre boutique en ligne préférée.
Les règles d'association sont également souvent utilisées pour organiser les ensembles de données médicales pour les diagnostics cliniques. Le machine learning non supervisé et les règles d'association peuvent aider les médecins à identifier la probabilité d'un diagnostic spécifique en comparant les relations entre les symptômes de cas précédents.
En règle générale, les algorithmes Apriori sont les plus utilisés pour l'apprentissage de règles d'association afin d'identifier des collections d'éléments ou des ensembles d'éléments connexes. Cependant, d'autres types d'algorithme sont également utilisés, par exemple Eclat ou FP-Growth.
La réduction de la dimensionnalité est une technique d'apprentissage non supervisée qui réduit le nombre de caractéristiques, ou dimensions, dans un ensemble de données. Pour le machine learning, il est généralement préférable d'avoir la plus grande quantité de données possible à disposition. Cependant, cela peut aussi compliquer la visualisation des données.
La réduction de la dimensionnalité extrait les caractéristiques importantes de l'ensemble de données, réduisant ainsi le nombre de caractéristiques non pertinentes ou aléatoires présentes. Cette méthode utilise des algorithmes d'analyse en composantes principales (ACP) et de décomposition en valeur singulière (SVD) pour réduire le nombre d'entrées de données sans compromettre l'intégrité des propriétés contenues dans les données d'origine.
Maintenant que vous comprenez les principes de base de l'apprentissage non supervisé, examinons les cas d'utilisation les plus courants qui aident les entreprises à explorer rapidement d'importants volumes de données.
Voici quelques exemples concrets d'apprentissage non supervisé :
L'apprentissage non supervisé convient bien aux tâches qui nécessitent d'explorer de grandes quantités de données non étiquetées. Cette approche permet aux entreprises d'obtenir plus facilement des insights à partir des données lorsqu'aucune étiquette n'est présente. Cela les aide à comprendre la structure sous-jacente d'un ensemble de données, et à identifier des modèles et des relations entre les ensembles de données sans qu'une intervention humaine ne soit nécessaire.
La principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé est le type de données d'entrée que vous utilisez. Contrairement aux algorithmes de machine learning non supervisé, l'apprentissage supervisé s'appuie sur des données d'entraînement étiquetées pour déterminer si la reconnaissance de formes dans un ensemble de données est exacte.
Les objectifs des modèles d'apprentissage supervisé sont également prédéterminés, ce qui signifie que le type de sortie d'un modèle est déjà connu avant l'application des algorithmes. En d'autres termes, l'entrée est mappée à la sortie sur la base des données d'entraînement.
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.