Descripción general de la agrupación en clústeres
El agrupamiento en clústeres es una técnica de aprendizaje automático no supervisado que puedes usar para agrupar registros similares. Es un enfoque útil cuando quieres saber qué grupos o clústeres hay en tus datos, pero no tienes datos etiquetados para entrenar un modelo. Por ejemplo, si tienes datos sin etiquetar sobre las compras de billetes de metro, puedes agruparlos por hora de compra para saber en qué periodos se usa más el metro. Para obtener más información, consulta ¿Qué es la agrupación en clústeres?
Los modelos de k-medias
se usan mucho para realizar agrupaciones en clústeres. Puedes usar modelos de k-means con la función ML.PREDICT
para agrupar datos o con la función ML.DETECT_ANOMALIES
para realizar una detección de anomalías.
Los modelos de k-medias usan el agrupamiento en clústeres basado en centroides para organizar los datos en clústeres.
Para obtener información sobre los centroides de un modelo de k-means, puedes usar la función ML.CENTROIDS
.
Conocimientos recomendados
Si usas la configuración predeterminada en las instrucciones CREATE MODEL
y las funciones de inferencia, puedes crear y usar un modelo de clustering aunque no tengas muchos conocimientos de aprendizaje automático. Sin embargo, tener conocimientos básicos sobre el desarrollo de aprendizaje automático y, en concreto, sobre los modelos de clustering, te ayuda a optimizar tanto tus datos como tu modelo para obtener mejores resultados. Te recomendamos que utilices los siguientes recursos para familiarizarte con las técnicas y los procesos de aprendizaje automático:
- Curso intensivo de aprendizaje automático
- Introducción al aprendizaje automático
- Aprendizaje automático intermedio
- Clustering