Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Descripción general de la reducción de dimensionalidad
La reducción de dimensionalidad es el término común para un conjunto de técnicas matemáticas que se usan para capturar la forma y las relaciones de los datos en un espacio de alta dimensionalidad y traducir esta información a un espacio de baja dimensionalidad.
Reducir la dimensionalidad es importante cuando se trabaja con conjuntos de datos grandes
que pueden contener miles de atributos. En un espacio de datos tan grande, el rango más amplio de distancias entre los puntos de datos puede dificultar la interpretación del resultado del modelo. Por ejemplo, dificulta comprender qué datos están más cerca y, por lo tanto, representan datos más similares.
La reducción de dimensionalidad te ayuda a reducir la cantidad de atributos y, al mismo tiempo, a retener
las características más importantes del conjunto de datos. Reducir la cantidad de atributos también ayuda a reducir el tiempo de entrenamiento de los modelos que usan los datos como entrada.
BigQuery ML ofrece los siguientes modelos para la reducción de dimensionalidad:
Puedes usar el resultado de los modelos de reducción de dimensionalidad para tareas como las siguientes:
Búsqueda de similitud: Encuentra datos que sean similares entre sí según sus incorporaciones. Esto es muy útil para encontrar productos relacionados, recomendar contenido similar o identificar elementos duplicados o anómalos.
Agrupamiento en clústeres: Usa incorporaciones como atributos de entrada para los modelos k-means para agrupar los datos en función de sus similitudes.
Esto puede ayudarte a descubrir patrones y estadísticas ocultos en tus datos.
Aprendizaje automático: Usa incorporaciones como atributos de entrada para modelos de clasificación o regresión.
Conocimientos recomendados
Si usas la configuración predeterminada en las sentencias CREATE MODEL y las funciones de inferencia, puedes crear y usar un modelo de reducción de dimensiones incluso sin mucho conocimiento de AA. Sin embargo, tener conocimientos básicos sobre
el desarrollo de AA te ayuda a optimizar tus datos y tu modelo para
obtener mejores resultados. Te recomendamos que uses los siguientes recursos para familiarizarte con las técnicas y los procesos de la IA:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eDimensionality reduction uses mathematical techniques to translate data from a high-dimensional space to a lower-dimensional space while retaining key characteristics.\u003c/p\u003e\n"],["\u003cp\u003eReducing dimensionality simplifies large datasets with numerous features, making model output more interpretable by showing which data points are most similar.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery ML offers Principal Component Analysis (PCA) and Autoencoder models for dimensionality reduction, which can then be used to perform tasks such as similarity search, clustering, or machine learning.\u003c/p\u003e\n"],["\u003cp\u003eUsing dimensionality reduction models such as PCA and autoencoder can reduce the number of features and significantly reduce model training time.\u003c/p\u003e\n"],["\u003cp\u003eEven without extensive machine learning knowledge, you can create and use dimensionality reduction models with default settings, however, basic knowledge of machine learning will allow you to optimize both the data and model.\u003c/p\u003e\n"]]],[],null,["# Dimensionality reduction overview\n=================================\n\nDimensionality reduction is the common term for a set of mathematical techniques\nused to capture the shape and relationships of data in a high-dimensional space\nand translate this information into a low-dimensional space.\n\nReducing dimensionality is important when you are working with large datasets\nthat can contain thousands of features. In such a large data space, the wider\nrange of distances between data points can make model output harder to\ninterpret. For example, it makes it difficult to understand which data points\nare more closely situated and therefore represent more similar data.\nDimensionality reduction helps you reduce the number of features while retaining\nthe most important characteristics of the dataset. Reducing the number of\nfeatures also helps reduce the training time of any models that use the data as\ninput.\n\nBigQuery ML offers the following models for dimensionality reduction:\n\n- [Principal component analysis (PCA)](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-pca)\n- [Autoencoder](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-autoencoder)\n\nYou can use PCA and autoencoder models with the\n[`ML.PREDICT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-predict)\nor\n[`ML.GENERATE_EMBEDDING`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-embedding)\nfunctions to embed data into a lower-dimensional space, and with the\n[`ML.DETECT_ANOMALIES` function](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-detect-anomalies)\nto perform [anomaly detection](/bigquery/docs/anomaly-detection-overview).\n\nYou can use the output from dimensionality reduction models for tasks such as\nthe following:\n\n- **Similarity search**: Find data points that are similar to each other based on their embeddings. This is great for finding related products, recommending similar content, or identifying duplicate or anomalous items.\n- **Clustering**: Use embeddings as input features for k-means models in order to group data points together based on their similarities. This can help you discover hidden patterns and insights in your data.\n- **Machine learning**: Use embeddings as input features for classification or regression models.\n\nRecommended knowledge\n---------------------\n\nBy using the default settings in the `CREATE MODEL` statements and the\ninference functions, you can create and use a dimensionality reduction model\neven without much ML knowledge. However, having basic knowledge about\nML development helps you optimize both your data and your model to\ndeliver better results. We recommend using the following resources to develop\nfamiliarity with ML techniques and processes:\n\n- [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course)\n- [Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)\n- [Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning)"]]