Prétraitement manuel des caractéristiques
Vous pouvez utiliser la clause TRANSFORM
de l'instruction CREATE MODEL
en combinaison avec des fonctions de prétraitement manuel pour définir un prétraitement des données personnalisé. Vous pouvez également utiliser ces fonctions de prétraitement manuel en dehors de la clause TRANSFORM
.
Si vous souhaitez dissocier le prétraitement des données de l'entraînement d'un modèle, vous pouvez créer un modèle à base de transformations uniquement, qui n'effectue que des transformations de données à l'aide de la clause TRANSFORM
.
Vous pouvez utiliser la fonction ML.TRANSFORM
pour augmenter la transparence du prétraitement des caractéristiques. Cette fonction vous permet d'afficher les données prétraitées de la clause TRANSFORM
d'un modèle afin de pouvoir consulter les données d'entraînement réelles qui sont utilisées pour l'entraînement du modèle, ainsi que les données de prédiction réelles qui sont utilisées pour la diffusion du modèle.
Pour en savoir plus sur la compatibilité du prétraitement des caractéristiques dans BigQuery ML, consultez la Présentation du prétraitement des caractéristiques.
Pour en savoir plus sur les instructions et les fonctions SQL compatibles avec chaque type de modèle, consultez la section Parcours utilisateur de bout en bout pour chaque modèle.
Types de fonctions de prétraitement
Il existe plusieurs types de fonctions de prétraitement manuel :
- Les fonctions scalaires opèrent sur une seule ligne. Par exemple,
ML.BUCKETIZE
. - Les fonctions de valeur de table opèrent sur toutes les lignes et génèrent une table. Par exemple,
ML.FEATURES_AT_TIME
. Les fonctions d'analyse opèrent sur toutes les lignes et génèrent le résultat pour chaque ligne sur la base des statistiques collectées sur l'ensemble des lignes. Par exemple,
ML.QUANTILE_BUCKETIZE
.Vous devez toujours utiliser une clause
OVER()
vide avec des fonctions d'analyse ML.Lorsque vous utilisez des fonctions d'analyse ML dans la clause
TRANSFORM
pendant l'entraînement, les mêmes statistiques sont automatiquement appliquées à l'entrée dans la prédiction.
Les sections suivantes décrivent les fonctions de prétraitement disponibles.
Fonctions générales
Utilisez la fonction suivante sur les expressions de chaîne ou numériques pour effectuer un nettoyage des données :
Fonctions numériques
Utilisez les fonctions suivantes sur les expressions numériques pour régulariser les données :
ML.BUCKETIZE
ML.MAX_ABS_SCALER
ML.MIN_MAX_SCALER
ML.NORMALIZER
ML.POLYNOMIAL_EXPAND
ML.QUANTILE_BUCKETIZE
ML.ROBUST_SCALER
ML.STANDARD_SCALER
Fonctions catégorielles
Utilisez les fonctions suivantes sur les données de catégorie :
Fonctions de texte
Utilisez les fonctions suivantes sur les expressions de chaîne de texte :
Fonctions d'image
Utilisez les fonctions suivantes sur les données d'image :
Limitations connues
- BigQuery ML accepte le prétraitement automatique et le prétraitement manuel dans l'exportation de modèle. Consultez les types de données et les fonctions acceptés pour exporter des modèles entraînés avec la clause BigQuery ML
TRANSFORM
.