Visão geral da redução de dimensionalidade
Redução de dimensionalidade é o termo comum para um conjunto de técnicas matemáticas usado para capturar a forma e as relações de dados em um espaço de alta dimensionalidade e traduzir essas informações para um espaço de baixa dimensionalidade.
Reduzir a dimensionalidade é importante quando você trabalha com grandes conjuntos de dados que podem conter milhares de atributos. Em um espaço de dados tão grande, o maior intervalo de distâncias entre os pontos de dados pode dificultar a interpretação da saída do modelo. Por exemplo, fica difícil entender quais pontos de dados estão mais próximos e, portanto, representam dados mais semelhantes. A redução de dimensionalidade ajuda a reduzir o número de atributos, mantendo as características mais importantes do conjunto de dados. Reduzir o número de recursos também ajuda a reduzir o tempo de treinamento de todos os modelos que usam os dados como entrada.
O BigQuery ML oferece os seguintes modelos para redução de dimensionalidade:
É possível usar modelos de PCA e autoencoder com as funções
ML.PREDICT
ou
ML.GENERATE_EMBEDDING
para incorporar dados a um espaço de menor dimensão e com a
função ML.DETECT_ANOMALIES
para realizar a detecção de anomalias.
É possível usar a saída dos modelos de redução de dimensionalidade para tarefas como:
- Pesquisa de similaridade: encontre pontos de dados semelhantes com base nos embeddings. Isso é ótimo para encontrar produtos relacionados, recomendar conteúdo semelhante ou identificar itens duplicados ou anormais.
- Agrupamento de dados: use embeddings como recursos de entrada para modelos k-means para agrupar pontos de dados com base nas semelhanças deles. Isso pode ajudar a descobrir padrões e insights ocultos nos seus dados.
- Machine learning: use embeddings como recursos de entrada para modelos de classificação ou regressão.