Visão geral da redução de dimensionalidade

Redução de dimensionalidade é o termo comum para um conjunto de técnicas matemáticas usado para capturar a forma e as relações de dados em um espaço de alta dimensionalidade e traduzir essas informações para um espaço de baixa dimensionalidade.

Reduzir a dimensionalidade é importante quando você trabalha com grandes conjuntos de dados que podem conter milhares de atributos. Em um espaço de dados tão grande, o maior intervalo de distâncias entre os pontos de dados pode dificultar a interpretação da saída do modelo. Por exemplo, fica difícil entender quais pontos de dados estão mais próximos e, portanto, representam dados mais semelhantes. A redução de dimensionalidade ajuda a reduzir o número de atributos, mantendo as características mais importantes do conjunto de dados. Reduzir o número de recursos também ajuda a reduzir o tempo de treinamento de todos os modelos que usam os dados como entrada.

O BigQuery ML oferece os seguintes modelos para redução de dimensionalidade:

É possível usar modelos de PCA e autoencoder com as funções ML.PREDICT ou ML.GENERATE_EMBEDDING para incorporar dados a um espaço de menor dimensão e com a função ML.DETECT_ANOMALIES para realizar a detecção de anomalias.

É possível usar a saída dos modelos de redução de dimensionalidade para tarefas como:

  • Pesquisa de similaridade: encontre pontos de dados semelhantes com base nos embeddings. Isso é ótimo para encontrar produtos relacionados, recomendar conteúdo semelhante ou identificar itens duplicados ou anormais.
  • Agrupamento de dados: use embeddings como recursos de entrada para modelos k-means para agrupar pontos de dados com base nas semelhanças deles. Isso pode ajudar a descobrir padrões e insights ocultos nos seus dados.
  • Machine learning: use embeddings como recursos de entrada para modelos de classificação ou regressão.