Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Présentation de la réduction de la dimensionnalité
La réduction de la dimensionnalité est le terme courant désignant un ensemble de techniques mathématiques utilisées pour capturer la forme et les relations des données dans un espace de grande dimension et traduire ces informations dans un espace de petite dimension.
La réduction de la dimensionnalité est importante lorsque vous travaillez avec de grands ensembles de données pouvant contenir des milliers de caractéristiques. Dans un espace de données aussi vaste, la plus grande variété de distances entre les points de données peut rendre la sortie du modèle plus difficile à interpréter. Par exemple, il est difficile de comprendre quels points de données sont les plus proches et représentent donc des données plus similaires.
La réduction de la dimensionnalité vous aide à réduire le nombre de caractéristiques tout en conservant les caractéristiques les plus importantes de l'ensemble de données. La réduction du nombre de caractéristiques permet également de réduire le temps d'entraînement de tous les modèles qui utilisent les données comme entrée.
BigQuery ML propose les modèles suivants pour la réduction de la dimensionnalité :
Vous pouvez utiliser la sortie des modèles de réduction de la dimensionnalité pour des tâches telles que les suivantes :
Recherche par similarité : trouvez des points de données qui se ressemblent en fonction de leurs embeddings. C'est un excellent moyen de trouver des produits associés, de recommander des contenus similaires ou d'identifier des éléments en double ou anormaux.
Clustering : utilisez des embeddings comme caractéristiques d'entrée pour les modèles k-means afin de regrouper les points de données en fonction de leurs similitudes.
Cela peut vous aider à découvrir des modèles et des insights cachés dans vos données.
Machine learning : utilisez les embeddings comme caractéristiques d'entrée pour les modèles de classification ou de régression.
Connaissances recommandées
En utilisant les paramètres par défaut dans les instructions CREATE MODEL et les fonctions d'inférence, vous pouvez créer et utiliser un modèle de réduction de dimensionnalité même sans grandes connaissances en ML. Toutefois, des connaissances de base sur le développement du ML vous aideront à optimiser à la fois vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML :
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eDimensionality reduction uses mathematical techniques to translate data from a high-dimensional space to a lower-dimensional space while retaining key characteristics.\u003c/p\u003e\n"],["\u003cp\u003eReducing dimensionality simplifies large datasets with numerous features, making model output more interpretable by showing which data points are most similar.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery ML offers Principal Component Analysis (PCA) and Autoencoder models for dimensionality reduction, which can then be used to perform tasks such as similarity search, clustering, or machine learning.\u003c/p\u003e\n"],["\u003cp\u003eUsing dimensionality reduction models such as PCA and autoencoder can reduce the number of features and significantly reduce model training time.\u003c/p\u003e\n"],["\u003cp\u003eEven without extensive machine learning knowledge, you can create and use dimensionality reduction models with default settings, however, basic knowledge of machine learning will allow you to optimize both the data and model.\u003c/p\u003e\n"]]],[],null,["# Dimensionality reduction overview\n=================================\n\nDimensionality reduction is the common term for a set of mathematical techniques\nused to capture the shape and relationships of data in a high-dimensional space\nand translate this information into a low-dimensional space.\n\nReducing dimensionality is important when you are working with large datasets\nthat can contain thousands of features. In such a large data space, the wider\nrange of distances between data points can make model output harder to\ninterpret. For example, it makes it difficult to understand which data points\nare more closely situated and therefore represent more similar data.\nDimensionality reduction helps you reduce the number of features while retaining\nthe most important characteristics of the dataset. Reducing the number of\nfeatures also helps reduce the training time of any models that use the data as\ninput.\n\nBigQuery ML offers the following models for dimensionality reduction:\n\n- [Principal component analysis (PCA)](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-pca)\n- [Autoencoder](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-autoencoder)\n\nYou can use PCA and autoencoder models with the\n[`ML.PREDICT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-predict)\nor\n[`ML.GENERATE_EMBEDDING`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-embedding)\nfunctions to embed data into a lower-dimensional space, and with the\n[`ML.DETECT_ANOMALIES` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-detect-anomalies)\nto perform [anomaly detection](/bigquery/docs/anomaly-detection-overview).\n\nYou can use the output from dimensionality reduction models for tasks such as\nthe following:\n\n- **Similarity search**: Find data points that are similar to each other based on their embeddings. This is great for finding related products, recommending similar content, or identifying duplicate or anomalous items.\n- **Clustering**: Use embeddings as input features for k-means models in order to group data points together based on their similarities. This can help you discover hidden patterns and insights in your data.\n- **Machine learning**: Use embeddings as input features for classification or regression models.\n\nRecommended knowledge\n---------------------\n\nBy using the default settings in the `CREATE MODEL` statements and the\ninference functions, you can create and use a dimensionality reduction model\neven without much ML knowledge. However, having basic knowledge about\nML development helps you optimize both your data and your model to\ndeliver better results. We recommend using the following resources to develop\nfamiliarity with ML techniques and processes:\n\n- [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course)\n- [Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)\n- [Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning)"]]