Prétraitement manuel des caractéristiques

Vous pouvez utiliser la clause TRANSFORM de l'instruction CREATE MODEL en combinaison avec des fonctions de prétraitement manuel pour définir un prétraitement des données personnalisé. Vous pouvez également utiliser ces fonctions de prétraitement manuel en dehors de la clause TRANSFORM.

Si vous souhaitez dissocier le prétraitement des données de l'entraînement d'un modèle, vous pouvez créer un modèle à base de transformations uniquement, qui n'effectue que des transformations de données à l'aide de la clause TRANSFORM.

Vous pouvez utiliser la fonction ML.TRANSFORM pour augmenter la transparence du prétraitement des caractéristiques. Cette fonction vous permet d'afficher les données prétraitées de la clause TRANSFORM d'un modèle afin de pouvoir consulter les données d'entraînement réelles qui sont utilisées pour l'entraînement du modèle, ainsi que les données de prédiction réelles qui sont utilisées pour la diffusion du modèle.

Pour en savoir plus sur la compatibilité du prétraitement des caractéristiques dans BigQuery ML, consultez la Présentation du prétraitement des caractéristiques.

Pour en savoir plus sur les instructions et les fonctions SQL compatibles avec chaque type de modèle, consultez la section Parcours utilisateur de bout en bout pour chaque modèle.

Types de fonctions de prétraitement

Il existe plusieurs types de fonctions de prétraitement manuel :

  • Les fonctions scalaires opèrent sur une seule ligne. Par exemple, ML.BUCKETIZE.
  • Les fonctions de valeur de table opèrent sur toutes les lignes et génèrent une table. Par exemple, ML.FEATURES_AT_TIME.
  • Les fonctions d'analyse opèrent sur toutes les lignes et génèrent le résultat pour chaque ligne sur la base des statistiques collectées sur l'ensemble des lignes. Par exemple, ML.QUANTILE_BUCKETIZE.

    Vous devez toujours utiliser une clause OVER() vide avec des fonctions d'analyse ML.

    Lorsque vous utilisez des fonctions d'analyse ML dans la clause TRANSFORM pendant l'entraînement, les mêmes statistiques sont automatiquement appliquées à l'entrée dans la prédiction.

Les sections suivantes décrivent les fonctions de prétraitement disponibles.

Fonctions générales

Utilisez la fonction suivante sur les expressions de chaîne ou numériques pour effectuer un nettoyage des données :

Fonctions numériques

Utilisez les fonctions suivantes sur les expressions numériques pour régulariser les données :

Fonctions catégorielles

Utilisez les fonctions suivantes sur les données de catégorie :

Fonctions de texte

Utilisez les fonctions suivantes sur les expressions de chaîne de texte :

Fonctions d'image

Utilisez les fonctions suivantes sur les données d'image :

Limitations connues