Présentation de la réduction de la dimensionnalité
La réduction de la dimensionnalité est le terme couramment utilisé pour désigner un ensemble de techniques mathématiques permettant de capturer la forme et les relations des données dans un espace à haute dimensionnalité, puis de traduire ces informations dans un espace à faible dimensionnalité.
La réduction de la dimensionnalité est importante lorsque vous travaillez avec de grands ensembles de données pouvant contenir des milliers de caractéristiques. Dans un espace de données aussi vaste, la plage de distances plus large entre les points de données peut rendre la sortie du modèle plus difficile à interpréter. Par exemple, il est difficile de comprendre quels points de données sont plus proches et représentent donc des données plus similaires. La réduction de la dimensionnalité vous aide à réduire le nombre de caractéristiques tout en conservant les caractéristiques les plus importantes de l'ensemble de données. Réduire le nombre de fonctionnalités permet également de réduire le temps d'entraînement de tous les modèles qui utilisent les données comme entrée.
BigQuery ML propose les modèles suivants pour la réduction de la dimensionnalité:
Vous pouvez utiliser des modèles d'ACP et d'auto-encodeur avec les fonctions ML.PREDICT
ou ML.GENERATE_EMBEDDING
pour intégrer des données dans un espace à dimension inférieure, et avec la fonction ML.DETECT_ANOMALIES
pour effectuer une détection d'anomalies.
Vous pouvez utiliser la sortie des modèles de réduction de dimensionnalité pour des tâches telles que:
- Recherche de similarité: recherchez des points de données similaires en fonction de leurs représentations vectorielles continues. Cela permet de trouver des produits associés, de recommander des contenus similaires ou d'identifier des éléments en double ou anormaux.
- Clustering: utilisez des représentations vectorielles continues comme caractéristiques d'entrée pour les modèles k-moyennes afin de regrouper des points de données en fonction de leurs similitudes. Cela peut vous aider à découvrir des tendances et des insights cachés dans vos données.
- Machine learning: utilisez des représentations vectorielles continues comme caractéristiques d'entrée pour les modèles de classification ou de régression.