Vista geral da redução da dimensionalidade
A redução da dimensionalidade é o termo comum para um conjunto de técnicas matemáticas usadas para captar a forma e as relações dos dados num espaço de alta dimensionalidade e traduzir estas informações num espaço de baixa dimensionalidade.
A redução da dimensionalidade é importante quando trabalha com grandes conjuntos de dados que podem conter milhares de caraterísticas. Num espaço de dados tão grande, o intervalo mais amplo de distâncias entre pontos de dados pode dificultar a interpretação da saída do modelo. Por exemplo, torna difícil compreender que pontos de dados estão mais próximos e, por conseguinte, representam dados mais semelhantes. A redução da dimensionalidade ajuda a reduzir o número de funcionalidades, ao mesmo tempo que retém as caraterísticas mais importantes do conjunto de dados. Reduzir o número de funcionalidades também ajuda a reduzir o tempo de preparação de quaisquer modelos que usem os dados como entrada.
O BigQuery ML oferece os seguintes modelos para redução da dimensionalidade:
Pode usar modelos de PCA e autoencoder com as funções
ML.PREDICT
ou
ML.GENERATE_EMBEDDING
para incorporar dados num espaço de menor dimensão e com a função
ML.DETECT_ANOMALIES
para realizar a deteção de anomalias.
Pode usar o resultado dos modelos de redução da dimensionalidade para tarefas como as seguintes:
- Pesquisa de semelhanças: encontre pontos de dados semelhantes entre si com base nas respetivas incorporações. Isto é ideal para encontrar produtos relacionados, recomendar conteúdo semelhante ou identificar itens duplicados ou anómalos.
- Agrupamento: use incorporações como caraterísticas de entrada para modelos k-means de forma a agrupar pontos de dados com base nas respetivas semelhanças. Isto pode ajudar a descobrir padrões e estatísticas ocultos nos seus dados.
- Aprendizagem automática: use incorporações como funcionalidades de entrada para modelos de classificação ou regressão.
Conhecimentos recomendados
Ao usar as predefinições nas declarações CREATE MODEL
e nas funções de inferência, pode criar e usar um modelo de redução de dimensionalidade, mesmo sem muitos conhecimentos de ML. No entanto, ter conhecimentos básicos sobre o desenvolvimento de ML ajuda a otimizar os dados e o modelo para oferecer melhores resultados. Recomendamos que use os seguintes recursos para desenvolver
familiaridade com as técnicas e os processos de ML:
- Machine Learning Crash Course
- Introdução à aprendizagem automática
- Aprendizagem automática intermédia