Descripción general de la reducción de dimensionalidad

La reducción de dimensionalidad es el término común para un conjunto de técnicas matemáticas que se usan para capturar la forma y las relaciones de los datos en un espacio de alta dimensionalidad y traducir esta información a un espacio de baja dimensionalidad.

Reducir la dimensionalidad es importante cuando se trabaja con conjuntos de datos grandes que pueden contener miles de atributos. En un espacio de datos tan grande, el rango más amplio de distancias entre los puntos de datos puede dificultar la interpretación del resultado del modelo. Por ejemplo, dificulta comprender qué datos están más cerca y, por lo tanto, representan datos más similares. La reducción de dimensionalidad te ayuda a reducir la cantidad de atributos y, al mismo tiempo, a retener las características más importantes del conjunto de datos. Reducir la cantidad de atributos también ayuda a reducir el tiempo de entrenamiento de los modelos que usan los datos como entrada.

BigQuery ML ofrece los siguientes modelos para la reducción de dimensionalidad:

Puedes usar modelos de PCA y de codificador automático con las funciones ML.PREDICT o ML.GENERATE_EMBEDDING para incorporar datos en un espacio de menor dimensión y con la función ML.DETECT_ANOMALIES para realizar la detección de anomalías.

Puedes usar el resultado de los modelos de reducción de dimensionalidad para tareas como las siguientes:

  • Búsqueda de similitud: Encuentra datos que sean similares entre sí según sus incorporaciones. Esto es muy útil para encontrar productos relacionados, recomendar contenido similar o identificar elementos duplicados o anómalos.
  • Agrupamiento en clústeres: Usa incorporaciones como atributos de entrada para los modelos k-means para agrupar los datos en función de sus similitudes. Esto puede ayudarte a descubrir patrones y estadísticas ocultos en tus datos.
  • Aprendizaje automático: Usa incorporaciones como atributos de entrada para modelos de clasificación o regresión.