Preprocesado manual de funciones
Puede usar la cláusula TRANSFORM
de la instrucción CREATE MODEL
junto con funciones de preprocesamiento manual para definir un preprocesamiento de datos personalizado. También puedes usar estas funciones de preprocesamiento manual fuera de la cláusula TRANSFORM
.
Si quieres separar el preprocesamiento de datos del entrenamiento del modelo, puedes crear un modelo de solo transformación que solo realice transformaciones de datos mediante la cláusula TRANSFORM
.
Puedes usar la función
ML.TRANSFORM
para aumentar la transparencia del preprocesamiento de las características. Esta función te permite devolver los datos preprocesados de una cláusula TRANSFORM
de un modelo para que puedas ver los datos de entrenamiento reales que se introducen en el entrenamiento del modelo, así como los datos de predicción reales que se introducen en el servicio del modelo.
Para obtener información sobre la compatibilidad con el preprocesamiento de características en BigQuery ML, consulta el artículo sobre el preprocesamiento de características.
Tipos de funciones de preprocesamiento
Hay varios tipos de funciones de preprocesamiento manual:
- Las funciones escalares operan en una sola fila. Por ejemplo,
ML.BUCKETIZE
. - Las funciones con valores de tabla operan en todas las filas y generan una tabla. Por ejemplo,
ML.FEATURES_AT_TIME
. Las funciones analíticas operan en todas las filas y muestran el resultado de cada fila en función de las estadísticas recogidas en todas las filas. Por ejemplo,
ML.QUANTILE_BUCKETIZE
.Siempre debe usar una cláusula
OVER()
vacía con las funciones analíticas de aprendizaje automático.Cuando usas funciones analíticas de AA dentro de la cláusula
TRANSFORM
durante el entrenamiento, las mismas estadísticas se aplican automáticamente a la entrada en la predicción.
En las siguientes secciones se describen las funciones de preprocesamiento disponibles.
Funciones generales
Usa la siguiente función en expresiones de cadena o numéricas para limpiar los datos:
Funciones numéricas
Usa las siguientes funciones en expresiones numéricas para regularizar los datos:
ML.BUCKETIZE
ML.MAX_ABS_SCALER
ML.MIN_MAX_SCALER
ML.NORMALIZER
ML.POLYNOMIAL_EXPAND
ML.QUANTILE_BUCKETIZE
ML.ROBUST_SCALER
ML.STANDARD_SCALER
Funciones categóricas
Usa las siguientes funciones en los datos categorizados:
Funciones de texto
Usa las siguientes funciones en expresiones de cadenas de texto:
Funciones de imagen
Usa las siguientes funciones en los datos de imagen:
Limitaciones conocidas
- BigQuery ML admite tanto el preprocesamiento automático como el manual en la exportación de modelos. Consulta los tipos de datos y las funciones admitidos para exportar modelos entrenados con la cláusula BigQuery ML
TRANSFORM
.
Siguientes pasos
Para obtener más información sobre las instrucciones y funciones de SQL admitidas en los modelos que admiten el preprocesamiento manual de características, consulta los siguientes documentos:
- Recorridos de usuario integrales para modelos de aprendizaje automático
- Recorrido del usuario para el análisis de contribución