Dans le domaine de l'intelligence artificielle, l'apprentissage non supervisé est un type de machine learning qui apprend à partir de données sans supervision humaine. Contrairement à l'apprentissage supervisé, les modèles de machine learning non supervisés reçoivent des données non étiquetées et identifient des modèles et des insights sans instructions ni consignes explicites.
Que vous vous en rendiez compte ou non, l'intelligence artificielle et le machine learning ont un impact sur tous les aspects de la vie quotidienne, contribuant à transformer les données en insights permettant d'améliorer l'efficacité, de réduire les coûts et de mieux éclairer la prise de décision. Aujourd'hui, les entreprises utilisent des algorithmes de machine learning (apprentissage automatique) pour proposer des recommandations personnalisées, des traductions en temps réel ou même la génération automatique de texte, d'images et d'autres types de contenus.
Nous allons aborder les principes de base du machine learning non supervisé, son fonctionnement et certaines de ses applications courantes dans la vie réelle.
Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer Vertex AI et d'autres produits Google Cloud.
Comme son nom l'indique, l'apprentissage non supervisé utilise des algorithmes d'auto-apprentissage. Ils apprennent sans étiquette ni entraînement préalable. Au lieu de cela, le modèle reçoit des données brutes et non étiquetées, et doit inférer ses propres règles et structurer les informations en fonction des similitudes, des différences et des modèles, sans instructions explicites sur la façon de travailler avec chaque élément de données.
Les algorithmes d'apprentissage non supervisé sont mieux adaptés aux tâches de traitement plus complexes, telles que l'organisation de grands ensembles de données en clusters. Ils sont utiles pour identifier des modèles précédemment non détectés dans les données et peuvent aider à identifier les caractéristiques utiles pour catégoriser les données.
Imaginez que vous disposez d'un grand jeu de données sur la météo. Un algorithme d'apprentissage non supervisé parcourt les données et identifie des modèles dans les points de données. Par exemple, il peut regrouper les données par température ou par modèles météorologiques similaires.
Bien que l'algorithme lui-même ne comprenne pas ces modèles sur la base des informations que vous avez fournies précédemment, vous pouvez alors passer en revue les regroupements de données et essayer de les classer en fonction de votre compréhension de l'ensemble de données. Par exemple, vous pourriez reconnaître que les différents groupes de températures représentent les quatre saisons ou que les modèles météorologiques sont séparés en différents types de conditions météorologiques, comme la pluie, le grésil ou la neige.
En général, il existe trois types de tâches d'apprentissage non supervisées: le clustering, les règles d'association et la réduction de la dimensionnalité.
Nous allons examiner de plus près chaque type de technique d'apprentissage non supervisé.
Le clustering est une technique permettant d'explorer des données brutes et non étiquetées et de les diviser en groupes (ou clusters) en fonction de leurs similitudes ou différences. Il est utilisé dans diverses applications, y compris la segmentation de la clientèle, la détection de fraudes et l'analyse d'images. Les algorithmes de clustering divisent les données en groupes naturels en trouvant des structures ou des modèles similaires dans des données non catégorisées.
Le clustering est l'une des approches de machine learning non supervisé les plus populaires. Plusieurs types d'algorithmes d'apprentissage non supervisés sont utilisés pour le clustering: exclusifs, superposés, hiérarchiques et probabilistes.
L'exploration de règles d'association est une approche basée sur des règles permettant de révéler des relations intéressantes entre les points de données de grands jeux de données. Les algorithmes d'apprentissage non supervisé recherchent des associations "si-alors" (ou règles) fréquentes afin d'identifier les corrélations et les co-occurrences dans les données, ainsi que les différentes connexions entre les objets de données.
Elle est le plus souvent utilisée pour analyser les paniers d'achats ou les ensembles de données transactionnels afin de représenter la fréquence à laquelle certains articles sont achetés ensemble. Ces algorithmes identifient les modèles d'achat des clients et les relations auparavant cachées entre les produits, ce qui permet d'orienter les moteurs de recommandations ou d'autres opportunités de vente croisée. Vous connaissez peut-être ces règles des sections "Fréquemment achetés ensemble" et "Les personnes ayant acheté cet article ont également acheté" de votre boutique en ligne préférée.
Les règles d'association sont également souvent utilisées pour organiser les ensembles de données médicales pour les diagnostics cliniques. Le machine learning non supervisé et les règles d'association peuvent aider les médecins à identifier la probabilité d'un diagnostic spécifique en comparant les relations entre les symptômes de cas précédents.
En règle générale, les algorithmes Apriori sont les plus couramment utilisés pour l'apprentissage des règles d'association afin d'identifier les collections d'éléments ou les ensembles d'éléments associés. Cependant, d'autres types sont utilisés, tels que les algorithmes Eclat et FP-growth.
La réduction de la dimensionnalité est une technique d'apprentissage non supervisée qui réduit le nombre de caractéristiques, ou dimensions, dans un ensemble de données. Il est généralement préférable d'avoir plus de données pour le machine learning, mais il peut aussi être plus difficile de les visualiser.
La réduction de la dimensionnalité extrait les caractéristiques importantes de l'ensemble de données, réduisant ainsi le nombre de caractéristiques non pertinentes ou aléatoires présentes. Cette méthode utilise l'analyse des composants (ACP) et les algorithmes de décomposition en valeur unique (SVD) pour réduire le nombre d'entrées de données sans compromettre l'intégrité des propriétés des données d'origine.
Maintenant que vous comprenez les principes de base de l'apprentissage non supervisé, examinons les cas d'utilisation les plus courants qui aident les entreprises à explorer rapidement d'importants volumes de données.
Voici quelques exemples concrets d'apprentissage non supervisé:
L'apprentissage non supervisé est bien adapté aux tâches qui nécessitent d'explorer de grandes quantités de données non étiquetées. Cette approche permet aux entreprises d'obtenir plus facilement des insights à partir de données lorsqu'aucune étiquette n'est présente. Elles peuvent ainsi comprendre la structure sous-jacente d'un ensemble de données, et identifier les modèles et les relations entre les ensembles de données sans qu'un humain ait besoin de les enseigner.
La principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé réside dans le type de données d'entrée que vous utilisez. Contrairement aux algorithmes de machine learning non supervisé, l'apprentissage supervisé s'appuie sur des données d'entraînement étiquetées pour déterminer si la reconnaissance de formes dans un ensemble de données est exacte.
Les objectifs des modèles d'apprentissage supervisé sont également prédéterminés, ce qui signifie que le type de sortie d'un modèle est déjà connu avant l'application des algorithmes. En d'autres termes, l'entrée est mappée à la sortie en fonction des données d'entraînement.
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.