Panoramica del clustering
Il clustering è una tecnica di machine learning non supervisionata che puoi utilizzare per raggruppare insieme record simili. Si tratta di un approccio utile quando vuoi comprendere quali gruppi o cluster sono presenti nei tuoi dati, ma non hai dati etichettati su cui addestrare un modello. Ad esempio, se disponi di dati non etichettati sugli acquisti di biglietti della metropolitana, puoi raggrupparli in base all'ora di acquisto per comprendere meglio quali periodi di tempo registrano il maggiore utilizzo della metropolitana. Per ulteriori informazioni, consulta Che cos'è il clustering?
I modelli K-means
sono ampiamente utilizzati per eseguire il clustering. Puoi utilizzare i modelli k-means con la
funzione ML.PREDICT
per raggruppare i dati o con la
funzione ML.DETECT_ANOMALIES
per eseguire il rilevamento di anomalie.
I modelli K-means utilizzano il
clustering basato sui centroidi per organizzare i dati in cluster.
Per ottenere informazioni sui centroidi di un modello k-means, puoi utilizzare la
funzione ML.CENTROIDS
.
Conoscenze consigliate
Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL
e nelle funzioni di inferenza, puoi creare e utilizzare un modello di clustering anche senza molte conoscenze di ML. Tuttavia, avere conoscenze di base sullo sviluppo dell'ML e sui modelli di clustering in particolare ti aiuta a ottimizzare sia i dati sia il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e le procedure di ML:
- Machine Learning Crash Course
- Introduzione al machine learning
- Machine learning intermedio
- Clustering