Visão geral do clustering
O clustering é uma técnica de machine learning não supervisionado que pode ser usada para agrupar registros semelhantes. É uma abordagem útil quando você quer entender quais grupos ou clusters você tem nos seus dados, mas não tem dados rotulados para treinar um modelo. Por exemplo, se você tivesse dados não rotulados sobre as compras de passagens de metrô, poderia agrupar esses dados por horário de compra para entender melhor quais períodos têm o uso mais intenso do metrô. Para mais informações, consulte O que é agrupamento?
Os modelos K-means (link em inglês)
são muito usados para realizar a criação de clusters. É possível usar modelos k-means com a
função ML.PREDICT
para agrupar dados ou com a
função ML.DETECT_ANOMALIES
para realizar a detecção de anomalias.
Os modelos K-means usam agrupamento baseado em centroide para organizar dados em clusters.
Para receber informações sobre os centróides de um modelo k-means, use a
função ML.CENTROIDS
.
Conhecimento recomendado
Usando as configurações padrão nas instruções CREATE MODEL
e nas
funções de inferência, é possível criar e usar um modelo de agrupamento mesmo
sem muito conhecimento de ML. No entanto, ter conhecimento básico sobre o desenvolvimento de ML e modelos de agrupamento, em particular, ajuda a otimizar os dados e o modelo para gerar resultados melhores. Recomendamos o uso dos seguintes recursos para se familiarizar
com as técnicas e os processos de ML:
- Curso intensivo de machine learning
- Introdução ao aprendizado de máquina
- Aprendizado de máquina intermediário
- Clustering