Présentation du clustering

Le clustering est une technique de machine learning non supervisé que vous pouvez utiliser pour regrouper des enregistrements similaires. Cette approche est utile lorsque vous souhaitez comprendre les groupes ou les clusters que vous avez dans vos données, mais que vous ne disposez pas de données libellées pour entraîner un modèle. Par exemple, si vous disposez de données non libellées sur les achats de billets de métro, vous pouvez les regrouper par heure d'achat des billets pour mieux comprendre les périodes d'utilisation du métro les plus importantes. Pour en savoir plus, consultez la section Qu'est-ce que le clustering ?

Les modèles de clustering en k-moyennes sont largement utilisés pour effectuer un clustering. Vous pouvez utiliser des modèles k-moyennes avec la fonction ML.PREDICT pour regrouper des données ou avec la fonction ML.DETECT_ANOMALIES pour effectuer une détection d'anomalies.

Les modèles k-moyennes utilisent le clustering basé sur le centroïde pour organiser les données en clusters. Pour obtenir des informations sur les centroïdes d'un modèle de k-moyennes, vous pouvez utiliser la fonction ML.CENTROIDS.

En utilisant les paramètres par défaut des instructions CREATE MODEL et des fonctions d'inférence, vous pouvez créer et utiliser un modèle de clustering, même sans beaucoup de connaissances en ML. Toutefois, disposer de connaissances de base sur le développement du ML, et en particulier sur les modèles de clustering, vous aide à optimiser vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML: