Visão geral explicável da IA do BigQuery

Neste documento, descrevemos como o BigQuery ML oferece suporte à inteligência artificial (IA) explicável, às vezes chamada de XAI.

A Explainable AI ajuda a entender os resultados que seu modelo de machine learning preditivo gera para tarefas de classificação e regressão definindo como cada atributo em uma linha de dados contribuiu para o resultado previsto. Isso geralmente é chamado de atribuição de recursos. É possível usar essas informações para verificar se o modelo está se comportando conforme esperado, reconhecer vieses e informar maneiras de melhorar o modelo e os dados de treinamento.

Para informações sobre as funções e instruções SQL compatíveis com cada tipo de modelo, consulte Jornada do usuário completa de cada modelo.

Explicabilidade local x global

Há dois tipos de explicabilidade: explicabilidade local e explicabilidade global. Elas também são conhecidas, respectivamente, como importância do recurso local e importância do recurso global.

  • A explicabilidade local retorna valores de atribuição de recursos para cada exemplo explicado. Esses valores descrevem o quanto um atributo específico afetou a previsão em relação à previsão de referência.
  • A explicabilidade global retorna a influência geral do atributo no modelo e geralmente é obtida agregando as atribuições de recursos em todo o conjunto de dados. Um valor absoluto mais alto indica que o recurso teve maior influência nas previsões do modelo.

Ofertas explicáveis de IA no BigQuery ML

A Explainable AI no BigQuery ML é compatível com uma variedade de modelos de machine learning, incluindo séries temporais e séries não temporais. Cada um deles usa um método de explicabilidade diferente.

Se você quiser usar a Explainable AI em modelos do BigQuery ML registrados no Model Registry, precisará seguir requisitos separados. Para saber mais, consulte Aplicar a Explainable AI em modelos do BigQuery ML.

Categoria do modelo Tipos de modelos Método de explicação Explicação básica do método Funções de explicação local Funções de explicação global
Modelos supervisionados Regressão linear e logística Valores de Shapley Os valores de Shapley para modelos lineares são iguais a model weight * feature value, em que os valores de atributos são padronizados e os pesos de modelo são treinados com esses valores. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Erros padrão e valores-p Erros padrão e valores-p são usados para testes de significância em relação aos pesos do modelo. Não relevante ML.ADVANCED_WEIGHTS4
Árvores aprimoradas

Floresta aleatória
Árvore SHAP O Tree SHAP é um algoritmo para calcular valores SHAP exatos para modelos baseados em árvores de decisão. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Contribuição aproximada de recursos Aproxima os valores de contribuição do recurso. É mais rápido e simples em comparação com o Tree SHAP. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
Importância do recurso com base no índice da Gini Pontuação de importância global de recursos que indica a utilidade ou importância de cada recurso na construção da árvore otimizada ou do modelo de floresta aleatória durante o treinamento. Não relevante ML.FEATURE_IMPORTANCE
Rede neural profunda (DNN)

Ampla e profunda
Gradientes integrados Um método baseado em gradientes que calcula com eficiência as atribuições de atributos com as mesmas propriedades axiomáticas do valor de Shapley. Fornece uma amostra de estimativas de atribuições de recursos exatas. A precisão é controlada pelo parâmetro integrated_gradients_num_steps. ML.EXPLAIN_PREDICT1 ML.GLOBAL_EXPLAIN2
AutoML Tables Amostragem de Shapley O Sampled Shapley atribui crédito pelo resultado do modelo a cada recurso e considera permutações diferentes dos recursos. Esse método oferece uma aproximação de amostragem dos valores exatos de Shapley. Não relevante ML.GLOBAL_EXPLAIN2
Modelos de série temporal ARIMA_PLUS Decomposição de séries temporais Decompõe a série temporal em vários componentes se eles estiverem presentes na série temporal. Os componentes incluem tendência, sazonal, feriado, alterações nos passos, pico e quedas. Consulte o pipeline de modelagem ARIMA_PLUS para mais detalhes. ML.EXPLAIN_FORECAST3 Não relevante
ARIMA_PLUS_XREG Decomposição da série temporal
e
Valores de Shapley
Decompõe a série temporal em vários componentes, incluindo tendência, sazonal, feriado, alterações de etapas e pico e quedas (semelhante a ARIMA_PLUS). A atribuição de cada regressor externo é calculada com base nos valores de Shapley, que são iguais a model weight * feature value. ML.EXPLAIN_FORECAST3 Não relevante

1ML_EXPLAIN_PREDICT é uma versão estendida de ML.PREDICT.

2ML.GLOBAL_EXPLAIN retorna a explicabilidade global recebida considerando a atribuição absoluta média que cada recurso recebe para todas as linhas no conjunto de dados de avaliação.

3ML.EXPLAIN_FORECAST é uma versão estendida de ML.FORECAST.

4ML.ADVANCED_WEIGHTS é uma versão estendida de ML.WEIGHTS.