Présentation de Explainable AI pour BigQuery

Ce document explique comment BigQuery ML prend en charge Explainable Artificial Intelligence (parfois appelé XAI).

Explainable AI vous aide à comprendre les résultats générés par votre modèle de machine learning prédictif pour les tâches de classification et de régression en définissant la manière dont chaque caractéristique d'une ligne de données a contribué au résultat prédit. On parle souvent d'attribution de caractéristiques. Vous pouvez exploiter ces informations pour vérifier que le modèle se comporte comme prévu, identifier ses biais et obtenir des idées pour améliorer votre modèle et vos données d'entraînement.

BigQuery ML et Vertex AI proposent tous deux des offres Explainable AI qui offrent des explications basées sur les caractéristiques. Vous pouvez effectuer l'explicabilité dans BigQuery ML ou enregistrer votre modèle dans Vertex AI et y effectuer l'explicabilité.

Pour en savoir plus sur les instructions et les fonctions SQL compatibles avec chaque type de modèle, consultez la section Parcours utilisateur de bout en bout pour chaque modèle.

Explicabilité locale et globale

Il existe deux types d'explicabilités : l'explicabilité locale et l'explicabilité globale. On parle également d'importance des caractéristiques locales et d'importance des caractéristiques globales, respectivement.

  • L'explicabilité locale renvoie des valeurs d'attribution des caractéristiques pour chaque exemple expliqué. Ces valeurs décrivent l'impact d'une caractéristique particulière sur la prédiction par rapport à la prédiction de référence.
  • L'explicabilité globale renvoie l'influence globale de la caractéristique sur le modèle, et est souvent obtenue en agrégeant les attributions de caractéristiques sur l'ensemble de données complet. Une valeur absolue plus élevée indique que la caractéristique a une plus grande influence sur les prédictions du modèle.

Offres Explainable AI dans BigQuery ML

Explainable AI dans BigQuery ML est compatible avec divers modèles de machine learning, y compris les modèles de série temporelle et ceux ne correspondant pas à des séries temporelles. Chacun des modèles utilise une méthode d'explicabilité différente.

Catégorie de modèle Types de modèles Méthode d'explicabilité Explication de base de la méthode Fonctions d'explication locales Fonctions d'explication globales
Modèles supervisés Régression linéaire et logistique Valeurs de Shapley Les valeurs de Shapley pour les modèles linéaires sont égales à model weight * feature value, où les valeurs de caractéristiques sont standardisées et les pondérations de modèle sont entraînées avec les valeurs de caractéristiques standardisées. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Erreurs standards et valeurs p Les erreurs et les valeurs P standards permettent d'effectuer des tests de pertinence par rapport aux pondérations de modèle. N/A ML.ADVANCED_WEIGHTS4
Arbre de décision à boosting

Forêt d'arbres décisionnels
Arbre SHAP L'arbre SHAP est un algorithme permettant de calculer des valeurs SHAP exactes pour les modèles basés sur les arbres de décision. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Contribution approximative des caractéristiques Estimation approximative des valeurs de contribution des caractéristiques. Cette méthode est plus rapide et plus simple que l'arbre SHAP. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Importance des caractéristiques basée sur l'indice de Gini Score d'importance des caractéristiques globales qui indique l'utilité ou la valeur de chaque caractéristique dans la création de l'arbre de décision à boosting ou du modèle de forêt d'arbres décisionnels pendant l'entraînement. N/A ML.FEATURE_IMPORTANCE
Réseau de neurones profond (DNN)

Wide et deep
Gradients intégrés Méthode basée sur les gradients permettant de calculer efficacement les attributions de caractéristiques avec les mêmes propriétés axiomatiques que les valeurs de Shapley. Elle fournit une approximation d'échantillonnage des attributions de caractéristiques exactes. Sa précision est contrôlée par le paramètre integrated_gradients_num_steps. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
AutoML Tables Échantillonnage des valeurs de Shapley L'échantillonnage des valeurs de Shapley attribue un crédit de résultats du modèle à chaque caractéristique et tient compte des diverses permutations de caractéristiques. Cette méthode fournit une approximation d'échantillonnage de valeurs de Shapley exactes. N/A ML.GLOBAL_EXPLAIN2
Modèles de séries temporelles ARIMA_PLUS Décomposition des séries temporelles Décompose les séries temporelles en plusieurs composants s'ils figurent dans la série temporelle. Les composants incluent les tendances, les variations saisonnières, les vacances, les modifications graduelles, les pics et les baisses. Pour en savoir plus, consultez le pipeline de modélisation ARIMA_PLUS. ML.EXPLAIN_FORECAST3 N/A
ARIMA_PLUS_XREG Décomposition des séries temporelles
et
valeurs de Shapley
Décompose les séries temporelles en plusieurs composants, y compris les tendances, les variations saisonnières, les vacances, les modifications graduelles, les pics et les baisses (semblable à ARIMA_PLUS). L'attribution de chaque régresseur externe est calculée en fonction des valeurs de Shapley, qui sont égales à model weight * feature value. ML.EXPLAIN_FORECAST3 N/A

1 ML_EXPLAIN_PREDICT est une version étendue de ML.PREDICT.

2ML.GLOBAL_EXPLAIN renvoie l'explicabilité globale obtenue en prenant l'attribution absolue moyenne que chaque caractéristique reçoit pour toutes les lignes de l'ensemble de données d'évaluation.

3 ML.EXPLAIN_FORECAST est une version étendue de ML.FORECAST.

4 ML.ADVANCED_WEIGHTS est une version étendue de ML.WEIGHTS.

Explainable AI dans Vertex AI

Explainable AI est disponible dans Vertex AI pour le sous-ensemble de modèles d'apprentissage supervisé exportables suivants:

Type de modèle Méthode Explainable AI
dnn_classifier Gradients intégrés
dnn_regressor Gradients intégrés
dnn_linear_combined_classifier Gradients intégrés
dnn_linear_combined_regressor Gradients intégrés
boosted_tree_regressor Échantillonnage des valeurs de Shapley
boosted_tree_classifier Échantillonnage des valeurs de Shapley
random_forest_regressor Échantillonnage des valeurs de Shapley
random_forest_classifier Échantillonnage des valeurs de Shapley

Pour en savoir plus sur ces méthodes, consultez la page Méthodes d'attribution des caractéristiques.

Activer Explainable AI dans Model Registry

Lorsque votre modèle BigQuery ML est enregistré dans Model Registry et qu'il s'agit d'un type de modèle compatible avec Explainable AI, vous pouvez activer Explainable AI lors du déploiement sur un point de terminaison. Lorsque vous enregistrez votre modèle BigQuery ML, toutes les métadonnées associées sont renseignées pour vous.

  1. Enregistrez votre modèle BigQuery ML dans le Model Registry.
  2. Accédez à la page Model Registry de la section BigQuery dans la console Google Cloud.
  3. Dans le registre de modèles, sélectionnez le modèle BigQuery ML, puis cliquez sur la version du modèle pour être redirigé vers la page des détails du modèle.
  4. Sélectionnez Autres actions dans la version du modèle.
  5. Cliquez sur Déployer sur un point de terminaison.
  6. Définissez votre point de terminaison : créez un nom de point de terminaison, puis cliquez sur "Continuer".
  7. Sélectionnez un type de machine, par exemple n1-standard-2.
  8. Sous Paramètres du modèle, dans la section "Journalisation", cochez la case pour activer les options d'explicabilité.
  9. Cliquez sur OK, puis sur Continuer pour le déployer sur le point de terminaison.

Pour apprendre à utiliser XAI sur vos modèles à partir de Model Registry, consultez la page Obtenir une explication en ligne en utilisant votre modèle déployé. Pour en savoir plus sur l'IA explicable dans Vertex AI, consultez Obtenir des explications.

Étape suivante