Présentation des pondérations de modèle BigQuery ML
Ce document décrit la façon dont BigQuery ML assure la visibilité des pondérations des modèles de machine learning (ML).
Un modèle de ML est un artefact enregistré après l'exécution d'un algorithme de ML sur des données d'entraînement. Le modèle représente les règles, les nombres et toute autre structure de données spécifique à un algorithme nécessaires pour réaliser des prédictions. Voici quelques exemples :
- Un modèle de régression linéaire est composé d'un vecteur de coefficients ayant des valeurs spécifiques.
- Un modèle en arbre de décision est composé d'une ou de plusieurs arborescences d'instructions if-then ayant des valeurs spécifiques.
- Un modèle de réseau de neurones profond est composé d'une structure de graphique avec des vecteurs ou des matrices de pondérations ayant des valeurs spécifiques.
Dans BigQuery ML, le terme pondérations du modèle est utilisé pour décrire les composants d'un modèle.
Pour en savoir plus sur les instructions et les fonctions SQL compatibles avec chaque type de modèle, consultez la page Parcours utilisateur de bout en bout pour chaque modèle.
Offres de pondérations de modèle dans BigQuery ML
BigQuery ML propose plusieurs fonctions permettant de récupérer les pondérations de différents modèles.
Catégorie de modèle | Types de modèles | Fonctions de pondération de modèle | Fonction |
---|---|---|---|
Modèles supervisés | Régression linéaire et logistique | ML.WEIGHTS |
Récupère les coefficients de caractéristiques et l'interception. |
Modèles non supervisés | K-moyennes | ML.CENTROIDS |
Récupère les coefficients de caractéristiques de tous les centroïdes. |
Factorisation matricielle | ML.WEIGHTS |
Récupère les pondérations de tous les facteurs latents. Elles représentent les deux matrices décomposées, la matrice utilisateur et la matrice d'éléments. | |
PCA | ML.PRINCIPAL_COMPONENTS |
Récupère les coefficients de caractéristiques de tous les composants principaux, également appelés eigenvectors. | |
ML.PRINCIPAL_COMPONENT_INFO |
Récupère les statistiques de chaque composant principal, par exemple eigenvalue. | ||
Modèles de séries temporelles | ARIMA_PLUS | ML.ARIMA_COEFFICIENTS |
Récupère les coefficients du modèle ARIMA, utilisés pour modéliser le composant de tendance de la série temporelle d'entrée. Pour obtenir des informations sur d'autres composants (par exemple, les tendances saisonnières) présents dans la série temporelle, utilisez ML.ARIMA_EVALUATE . |
BigQuery ML n'accepte pas les fonctions de pondération pour les types de modèles suivants :
- Boosting sur arbre de décision
- Forêt d'arbres décisionnels
- Réseau de neurones profond (DNN, Deep Neural Network)
- Wide et deep learning
- AutoML Tables
Pour afficher les pondérations de tous ces types de modèles, à l'exception des modèles AutoML Tables, exportez le modèle de BigQuery ML vers Cloud Storage. Vous pouvez ensuite utiliser la bibliothèque XGBoost pour visualiser l'arborescence des modèles en arbre de décision à boosting et en forêt d'arbres décisionnels, ou la bibliothèque TensorFlow pour visualiser la structure du graphique pour les modèles DNN et wide et deep learning. Aucune méthode ne permet d'obtenir des informations sur la pondération des modèles AutoML Tables.
Pour en savoir plus sur l'exportation d'un modèle, consultez les sections Instruction EXPORT MODEL
et Exporter un modèle BigQuery ML pour la prédiction en ligne.