Esta página foi traduzida pela API Cloud Translation.

Visão geral da redução de dimensionalidade

Redução de dimensionalidade é o termo comum para um conjunto de técnicas matemáticas usado para capturar a forma e as relações de dados em um espaço de alta dimensionalidade e traduzir essas informações para um espaço de baixa dimensionalidade.

Reduzir a dimensionalidade é importante quando você trabalha com grandes conjuntos de dados que podem conter milhares de atributos. Em um espaço de dados tão grande, o maior intervalo de distâncias entre os pontos de dados pode dificultar a interpretação da saída do modelo. Por exemplo, fica difícil entender quais pontos de dados estão mais próximos e, portanto, representam dados mais semelhantes. A redução de dimensionalidade ajuda a reduzir o número de atributos, mantendo as características mais importantes do conjunto de dados. Reduzir o número de recursos também ajuda a reduzir o tempo de treinamento de todos os modelos que usam os dados como entrada.

O BigQuery ML oferece os seguintes modelos para redução de dimensionalidade:

É possível usar modelos de PCA e autoencoder com as funções ML.PREDICT ou ML.GENERATE_EMBEDDING para incorporar dados em um espaço de menor dimensão e com a função ML.DETECT_ANOMALIES para realizar a detecção de anomalias.

É possível usar a saída dos modelos de redução de dimensionalidade para tarefas como:

Pesquisa de similaridade: encontre pontos de dados semelhantes uns aos outros com base nos embeddings. Isso é ótimo para encontrar produtos relacionados, recomendar conteúdo semelhante ou identificar itens duplicados ou anormais.
Agrupamento de dados: use embeddings como recursos de entrada para modelos k-means para agrupar pontos de dados com base nas semelhanças deles. Isso pode ajudar a descobrir padrões e insights ocultos nos seus dados.
Machine learning: use embeddings como recursos de entrada para modelos de classificação ou regressão.

Conhecimento recomendado

Usando as configurações padrão nas instruções CREATE MODEL e nas funções de inferência, é possível criar e usar um modelo de redução de dimensionalidade mesmo sem muito conhecimento de ML. No entanto, ter conhecimentos básicos sobre o desenvolvimento de ML ajuda a otimizar os dados e o modelo para obter melhores resultados. Recomendamos o uso dos seguintes recursos para se familiarizar com as técnicas e os processos de ML: