Panoramica del clustering

Il clustering è una tecnica di machine learning non supervisionata che puoi utilizzare per raggruppare insieme record simili. Si tratta di un approccio utile quando vuoi comprendere quali gruppi o cluster sono presenti nei tuoi dati, ma non hai dati etichettati su cui addestrare un modello. Ad esempio, se disponi di dati non etichettati sugli acquisti di biglietti della metropolitana, puoi raggrupparli in base all'ora di acquisto per comprendere meglio quali periodi di tempo registrano il maggiore utilizzo della metropolitana. Per ulteriori informazioni, consulta Che cos'è il clustering?

I modelli K-means sono ampiamente utilizzati per eseguire il clustering. Puoi utilizzare i modelli k-means con la funzione ML.PREDICT per raggruppare i dati o con la funzione ML.DETECT_ANOMALIES per eseguire il rilevamento di anomalie.

I modelli K-means utilizzano il clustering basato sui centroidi per organizzare i dati in cluster. Per ottenere informazioni sui centroidi di un modello k-means, puoi utilizzare la funzione ML.CENTROIDS.

Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL e nelle funzioni di inferenza, puoi creare e utilizzare un modello di clustering anche senza molte conoscenze di ML. Tuttavia, avere conoscenze di base sullo sviluppo dell'ML e sui modelli di clustering in particolare ti aiuta a ottimizzare sia i dati sia il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e le procedure di ML: