Présentation des pondérations de modèle BigQuery ML

Ce document décrit la façon dont BigQuery ML assure la visibilité des pondérations des modèles de machine learning (ML).

Un modèle de ML est un artefact enregistré après l'exécution d'un algorithme de ML sur des données d'entraînement. Le modèle représente les règles, les nombres et toute autre structure de données spécifique à un algorithme nécessaires pour réaliser des prédictions. Voici quelques exemples :

Un modèle de régression linéaire est composé d'un vecteur de coefficients ayant des valeurs spécifiques.
Un modèle en arbre de décision est composé d'une ou de plusieurs arborescences d'instructions if-then ayant des valeurs spécifiques.
Un modèle de réseau de neurones profond est composé d'une structure de graphique avec des vecteurs ou des matrices de pondérations ayant des valeurs spécifiques.

Dans BigQuery ML, le terme pondérations du modèle est utilisé pour décrire les composants d'un modèle.

Pour en savoir plus sur les instructions et les fonctions SQL compatibles avec chaque type de modèle, consultez la page Parcours utilisateur de bout en bout pour chaque modèle.

Offres de pondérations de modèle dans BigQuery ML

BigQuery ML propose plusieurs fonctions permettant de récupérer les pondérations de différents modèles.

Catégorie de modèle	Types de modèles	Fonctions de pondération de modèle	Fonction
Modèles supervisés	Régression linéaire et logistique	`ML.WEIGHTS`	Récupère les coefficients de caractéristiques et l'interception.
Modèles non supervisés	K-moyennes	`ML.CENTROIDS`	Récupère les coefficients de caractéristiques de tous les centroïdes.
	Factorisation matricielle	`ML.WEIGHTS`	Récupère les pondérations de tous les facteurs latents. Elles représentent les deux matrices décomposées, la matrice utilisateur et la matrice d'éléments.
	PCA	`ML.PRINCIPAL_COMPONENTS`	Récupère les coefficients de caractéristiques de tous les composants principaux, également appelés eigenvectors.
	PCA	`ML.PRINCIPAL_COMPONENT_INFO`	Récupère les statistiques de chaque composant principal, par exemple eigenvalue.
Modèles de séries temporelles	ARIMA_PLUS	`ML.ARIMA_COEFFICIENTS`	Récupère les coefficients du modèle ARIMA, utilisés pour modéliser le composant de tendance de la série temporelle d'entrée. Pour obtenir des informations sur d'autres composants (par exemple, les tendances saisonnières) présents dans la série temporelle, utilisez `ML.ARIMA_EVALUATE`.

BigQuery ML n'accepte pas les fonctions de pondération pour les types de modèles suivants :

Pour afficher les pondérations de tous ces types de modèles, à l'exception des modèles AutoML Tables, exportez le modèle de BigQuery ML vers Cloud Storage. Vous pouvez ensuite utiliser la bibliothèque XGBoost pour visualiser l'arborescence des modèles en arbre de décision à boosting et en forêt d'arbres décisionnels, ou la bibliothèque TensorFlow pour visualiser la structure du graphique pour les modèles DNN et wide et deep learning. Aucune méthode ne permet d'obtenir des informations sur la pondération des modèles AutoML Tables.

Pour en savoir plus sur l'exportation d'un modèle, consultez les sections Instruction EXPORT MODEL et Exporter un modèle BigQuery ML pour la prédiction en ligne.