Présentation de Explainable AI pour BigQuery

Ce document explique comment BigQuery ML prend en charge Explainable Artificial Intelligence (parfois appelé XAI).

Explainable AI vous aide à comprendre les résultats générés par votre modèle de machine learning prédictif pour les tâches de classification et de régression en définissant la manière dont chaque caractéristique d'une ligne de données a contribué au résultat prédit. On parle souvent d'attribution de caractéristiques. Vous pouvez exploiter ces informations pour vérifier que le modèle se comporte comme prévu, identifier ses biais et obtenir des idées pour améliorer votre modèle et vos données d'entraînement.

Pour en savoir plus sur les instructions et les fonctions SQL compatibles avec chaque type de modèle, consultez la section Parcours utilisateur de bout en bout pour chaque modèle.

Explicabilité locale et globale

Il existe deux types d'explicabilités : l'explicabilité locale et l'explicabilité globale. On parle également d'importance des caractéristiques locales et d'importance des caractéristiques globales, respectivement.

  • L'explicabilité locale renvoie des valeurs d'attribution des caractéristiques pour chaque exemple expliqué. Ces valeurs décrivent l'impact d'une caractéristique particulière sur la prédiction par rapport à la prédiction de référence.
  • L'explicabilité globale renvoie l'influence globale de la caractéristique sur le modèle, et est souvent obtenue en agrégeant les attributions de caractéristiques sur l'ensemble de données complet. Une valeur absolue plus élevée indique que la caractéristique a une plus grande influence sur les prédictions du modèle.

Offres Explainable AI dans BigQuery ML

Explainable AI dans BigQuery ML est compatible avec divers modèles de machine learning, y compris les modèles de série temporelle et ceux ne correspondant pas à des séries temporelles. Chacun des modèles utilise une méthode d'explicabilité différente.

Si vous souhaitez utiliser Explainable AI sur des modèles BigQuery ML que vous avez enregistrés dans Model Registry, vous devez suivre des exigences distinctes. Pour en savoir plus, consultez la page Appliquer Explainable AI sur les modèles BigQuery ML.

Catégorie de modèle Types de modèles Méthode d'explicabilité Explication de base de la méthode Fonctions d'explication locales Fonctions d'explication globales
Modèles supervisés Régression linéaire et logistique Valeurs de Shapley Les valeurs de Shapley pour les modèles linéaires sont égales à model weight * feature value, où les valeurs de caractéristiques sont standardisées et les pondérations de modèle sont entraînées avec les valeurs de caractéristiques standardisées. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Erreurs standards et valeurs p Les erreurs et les valeurs P standards permettent d'effectuer des tests de pertinence par rapport aux pondérations de modèle. N/A ML.ADVANCED_WEIGHTS4
Arbre de décision à boosting

Forêt d'arbres décisionnels
Arbre SHAP L'arbre SHAP est un algorithme permettant de calculer des valeurs SHAP exactes pour les modèles basés sur les arbres de décision. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Contribution approximative des caractéristiques Estimation approximative des valeurs de contribution des caractéristiques. Cette méthode est plus rapide et plus simple que l'arbre SHAP. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Importance des caractéristiques basée sur l'indice de Gini Score d'importance des caractéristiques globales qui indique l'utilité ou la valeur de chaque caractéristique dans la création de l'arbre de décision à boosting ou du modèle de forêt d'arbres décisionnels pendant l'entraînement. N/A ML.FEATURE_IMPORTANCE
Réseau de neurones profond (DNN)

Wide et deep
Gradients intégrés Méthode basée sur les gradients permettant de calculer efficacement les attributions de caractéristiques avec les mêmes propriétés axiomatiques que les valeurs de Shapley. Elle fournit une approximation d'échantillonnage des attributions de caractéristiques exactes. Sa précision est contrôlée par le paramètre integrated_gradients_num_steps. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
AutoML Tables Échantillonnage des valeurs de Shapley L'échantillonnage des valeurs de Shapley attribue un crédit de résultats du modèle à chaque caractéristique et tient compte des diverses permutations de caractéristiques. Cette méthode fournit une approximation d'échantillonnage de valeurs de Shapley exactes. N/A ML.GLOBAL_EXPLAIN2
Modèles de séries temporelles ARIMA_PLUS Décomposition des séries temporelles Décompose les séries temporelles en plusieurs composants s'ils figurent dans la série temporelle. Les composants incluent les tendances, les variations saisonnières, les vacances, les modifications graduelles, les pics et les baisses. Pour en savoir plus, consultez le pipeline de modélisation ARIMA_PLUS. ML.EXPLAIN_FORECAST3 N/A
ARIMA_PLUS_XREG Décomposition des séries temporelles
et
valeurs de Shapley
Décompose les séries temporelles en plusieurs composants, y compris les tendances, les variations saisonnières, les vacances, les modifications graduelles, les pics et les baisses (semblable à ARIMA_PLUS). L'attribution de chaque régresseur externe est calculée en fonction des valeurs de Shapley, qui sont égales à model weight * feature value. ML.EXPLAIN_FORECAST3 N/A

1 ML_EXPLAIN_PREDICT est une version étendue de ML.PREDICT.

2ML.GLOBAL_EXPLAIN renvoie l'explicabilité globale obtenue en prenant l'attribution absolue moyenne que chaque caractéristique reçoit pour toutes les lignes de l'ensemble de données d'évaluation.

3 ML.EXPLAIN_FORECAST est une version étendue de ML.FORECAST.

4 ML.ADVANCED_WEIGHTS est une version étendue de ML.WEIGHTS.