Visão geral do clustering

O clustering é uma técnica de machine learning não supervisionado que pode ser usada para agrupar registros semelhantes. É uma abordagem útil quando você quer entender quais grupos ou clusters você tem nos seus dados, mas não tem dados rotulados para treinar um modelo. Por exemplo, se você tivesse dados não rotulados sobre as compras de passagens de metrô, poderia agrupar esses dados por horário de compra para entender melhor quais períodos têm o uso mais intenso do metrô. Para mais informações, consulte O que é agrupamento?

Os modelos K-means (link em inglês) são muito usados para realizar a criação de clusters. É possível usar modelos k-means com a função ML.PREDICT para agrupar dados ou com a função ML.DETECT_ANOMALIES para realizar a detecção de anomalias.

Os modelos K-means usam agrupamento baseado em centroide para organizar dados em clusters. Para receber informações sobre os centróides de um modelo k-means, use a função ML.CENTROIDS.

Usando as configurações padrão nas instruções CREATE MODEL e nas funções de inferência, é possível criar e usar um modelo de agrupamento mesmo sem muito conhecimento de ML. No entanto, ter conhecimento básico sobre o desenvolvimento de ML e modelos de agrupamento, em particular, ajuda a otimizar os dados e o modelo para gerar resultados melhores. Recomendamos o uso dos seguintes recursos para se familiarizar com as técnicas e os processos de ML: