Vista geral do clustering

O clustering é uma técnica de aprendizagem automática não supervisionada que pode usar para agrupar registos semelhantes. É uma abordagem útil quando quer compreender que grupos ou clusters tem nos seus dados, mas não tem dados etiquetados para preparar um modelo. Por exemplo, se tiver dados não etiquetados sobre as compras de bilhetes de metro, pode agrupar esses dados por hora de compra do bilhete para compreender melhor os períodos com maior utilização do metro. Para mais informações, consulte O que é o agrupamento?

Os modelos K-means são amplamente usados para realizar o agrupamento. Pode usar modelos de k-means com a função ML.PREDICT para agrupar dados ou com a função ML.DETECT_ANOMALIES para realizar a deteção de anomalias.

Os modelos K-means usam a agrupamento baseado em centroides para organizar os dados em clusters. Para obter informações sobre os centroides de um modelo k-means, pode usar a função ML.CENTROIDS.

Ao usar as predefinições nas declarações CREATE MODEL e nas funções de inferência, pode criar e usar um modelo de agrupamento mesmo sem muitos conhecimentos de ML. No entanto, ter conhecimentos básicos sobre o desenvolvimento de ML e, em particular, sobre modelos de agrupamento, ajuda a otimizar os seus dados e o seu modelo para oferecer melhores resultados. Recomendamos que use os seguintes recursos para desenvolver familiaridade com as técnicas e os processos de ML: