Descripción general de la reducción de la dimensionalidad
Reducción de dimensionalidad es el término común para un conjunto de técnicas matemáticas que se usan para capturar la forma y las relaciones de los datos en un espacio de alta dimensionalidad y traducir esta información a un espacio de baja dimensionalidad.
La reducción de la dimensionalidad es importante cuando se trabaja con conjuntos de datos grandes que pueden contener miles de características. En un espacio de datos tan grande, el mayor intervalo de distancias entre los puntos de datos puede dificultar la interpretación de los resultados del modelo. Por ejemplo, resulta difícil saber qué puntos de datos están más cerca y, por lo tanto, representan datos más similares. La reducción de dimensionalidad te ayuda a reducir el número de características y, al mismo tiempo, a conservar las características más importantes del conjunto de datos. Reducir el número de características también ayuda a reducir el tiempo de entrenamiento de los modelos que usan los datos como entrada.
BigQuery ML ofrece los siguientes modelos para reducir la dimensionalidad:
Puede usar modelos de PCA y de codificador automático con las funciones
ML.PREDICT
o
ML.GENERATE_EMBEDDING
para insertar datos en un espacio de menor dimensión y con la función
ML.DETECT_ANOMALIES
para realizar una detección de anomalías.
Puedes usar los resultados de los modelos de reducción de la dimensionalidad para tareas como las siguientes:
- Búsqueda por similitud: busca puntos de datos que sean similares entre sí en función de sus inserciones. Es una función muy útil para encontrar productos relacionados, recomendar contenido similar o identificar elementos duplicados o anómalos.
- Clustering: usa las incrustaciones como características de entrada para los modelos de k-means con el fin de agrupar los puntos de datos en función de sus similitudes. Esto puede ayudarte a descubrir patrones e información valiosa ocultos en tus datos.
- Aprendizaje automático: usa las inserciones como funciones de entrada para modelos de clasificación o regresión.
Conocimientos recomendados
Si usas la configuración predeterminada en las instrucciones CREATE MODEL
y las funciones de inferencia, puedes crear y usar un modelo de reducción de la dimensionalidad aunque no tengas muchos conocimientos de aprendizaje automático. Sin embargo, tener conocimientos básicos sobre el desarrollo de aprendizaje automático te ayuda a optimizar tanto tus datos como tu modelo para obtener mejores resultados. Te recomendamos que utilices los siguientes recursos para familiarizarte con las técnicas y los procesos de aprendizaje automático:
- Curso intensivo de aprendizaje automático
- Introducción al aprendizaje automático
- Aprendizaje automático intermedio