Vista geral da redução da dimensionalidade

A redução da dimensionalidade é o termo comum para um conjunto de técnicas matemáticas usadas para captar a forma e as relações dos dados num espaço de alta dimensionalidade e traduzir estas informações num espaço de baixa dimensionalidade.

A redução da dimensionalidade é importante quando trabalha com grandes conjuntos de dados que podem conter milhares de caraterísticas. Num espaço de dados tão grande, o intervalo mais amplo de distâncias entre pontos de dados pode dificultar a interpretação da saída do modelo. Por exemplo, torna difícil compreender que pontos de dados estão mais próximos e, por conseguinte, representam dados mais semelhantes. A redução da dimensionalidade ajuda a reduzir o número de funcionalidades, ao mesmo tempo que retém as caraterísticas mais importantes do conjunto de dados. Reduzir o número de funcionalidades também ajuda a reduzir o tempo de preparação de quaisquer modelos que usem os dados como entrada.

O BigQuery ML oferece os seguintes modelos para redução da dimensionalidade:

Pode usar modelos de PCA e autoencoder com as funções ML.PREDICT ou ML.GENERATE_EMBEDDING para incorporar dados num espaço de menor dimensão e com a função ML.DETECT_ANOMALIES para realizar a deteção de anomalias.

Pode usar o resultado dos modelos de redução da dimensionalidade para tarefas como as seguintes:

  • Pesquisa de semelhanças: encontre pontos de dados semelhantes entre si com base nas respetivas incorporações. Isto é ideal para encontrar produtos relacionados, recomendar conteúdo semelhante ou identificar itens duplicados ou anómalos.
  • Agrupamento: use incorporações como caraterísticas de entrada para modelos k-means de forma a agrupar pontos de dados com base nas respetivas semelhanças. Isto pode ajudar a descobrir padrões e estatísticas ocultos nos seus dados.
  • Aprendizagem automática: use incorporações como funcionalidades de entrada para modelos de classificação ou regressão.

Ao usar as predefinições nas declarações CREATE MODEL e nas funções de inferência, pode criar e usar um modelo de redução de dimensionalidade, mesmo sem muitos conhecimentos de ML. No entanto, ter conhecimentos básicos sobre o desenvolvimento de ML ajuda a otimizar os dados e o modelo para oferecer melhores resultados. Recomendamos que use os seguintes recursos para desenvolver familiaridade com as técnicas e os processos de ML: