Présentation du clustering

Le clustering est une technique de machine learning non supervisé que vous pouvez utiliser pour regrouper des enregistrements similaires. Cette approche est utile lorsque vous souhaitez comprendre les groupes ou les clusters que vous avez dans vos données, mais que vous ne disposez pas de données libellées pour entraîner un modèle. Par exemple, si vous disposez de données non libellées sur les achats de billets de métro, vous pouvez les regrouper par heure d'achat des billets pour mieux comprendre les périodes d'utilisation du métro les plus intenses. Pour en savoir plus, consultez la section Qu'est-ce que le clustering ?

Les modèles de clustering en k-moyennes sont largement utilisés pour effectuer un clustering. Vous pouvez utiliser des modèles k-moyennes avec la fonction ML.PREDICT pour regrouper des données ou avec la fonction ML.DETECT_ANOMALIES pour effectuer une détection d'anomalies.

Les modèles k-moyennes utilisent le clustering basé sur le centroïde pour organiser les données en clusters. Pour obtenir des informations sur les centroïdes d'un modèle de k-moyennes, vous pouvez utiliser la fonction ML.CENTROIDS.