Visão geral explicável da IA do BigQuery

Neste documento, descrevemos como o BigQuery ML oferece suporte à inteligência artificial (IA) explicável, às vezes chamada de XAI.

A Explainable AI ajuda a entender os resultados que seu modelo de machine learning preditivo gera para tarefas de classificação e regressão definindo como cada atributo em uma linha de dados contribuiu para o resultado previsto. Isso geralmente é chamado de atribuição de recursos. É possível usar essas informações para verificar se o modelo está se comportando conforme esperado, reconhecer vieses e informar maneiras de melhorar o modelo e os dados de treinamento.

Para informações sobre as funções e instruções SQL compatíveis com cada tipo de modelo, consulte Jornada do usuário completa de cada modelo.

Explicabilidade local x global

Há dois tipos de explicabilidade: explicabilidade local e explicabilidade global. Elas também são conhecidas, respectivamente, como importância do recurso local e importância do recurso global.

A explicabilidade local retorna valores de atribuição de recursos para cada exemplo explicado. Esses valores descrevem o quanto um atributo específico afetou a previsão em relação à previsão de referência.
A explicabilidade global retorna a influência geral do atributo no modelo e geralmente é obtida agregando as atribuições de recursos em todo o conjunto de dados. Um valor absoluto mais alto indica que o recurso teve maior influência nas previsões do modelo.

Ofertas explicáveis de IA no BigQuery ML

A Explainable AI no BigQuery ML é compatível com uma variedade de modelos de machine learning, incluindo séries temporais e séries não temporais. Cada um deles usa um método de explicabilidade diferente.

Se você quiser usar a Explainable AI em modelos do BigQuery ML registrados no Model Registry, precisará seguir requisitos separados. Para saber mais, consulte Aplicar a Explainable AI em modelos do BigQuery ML.

Categoria do modelo	Tipos de modelos	Método de explicação	Explicação básica do método	Funções de explicação local	Funções de explicação global
Modelos supervisionados	Regressão linear e logística	Valores de Shapley	Os valores de Shapley para modelos lineares são iguais a `model weight * feature value`, em que os valores de atributos são padronizados e os pesos de modelo são treinados com esses valores.	`ML.EXPLAIN_PREDICT`¹	`ML.GLOBAL_EXPLAIN`²
	Regressão linear e logística	Erros padrão e valores-p	Erros padrão e valores-p são usados para testes de significância em relação aos pesos do modelo.	Não relevante	`ML.ADVANCED_WEIGHTS`⁴
	Árvores aprimoradas Floresta aleatória	Árvore SHAP	O Tree SHAP é um algoritmo para calcular valores SHAP exatos para modelos baseados em árvores de decisão.	`ML.EXPLAIN_PREDICT`¹	`ML.GLOBAL_EXPLAIN`²
		Contribuição aproximada de recursos	Aproxima os valores de contribuição do recurso. É mais rápido e simples em comparação com o Tree SHAP.	`ML.EXPLAIN_PREDICT`¹	`ML.GLOBAL_EXPLAIN`²
		Importância do recurso com base no índice da Gini	Pontuação de importância global de recursos que indica a utilidade ou importância de cada recurso na construção da árvore otimizada ou do modelo de floresta aleatória durante o treinamento.	Não relevante	`ML.FEATURE_IMPORTANCE`
	Rede neural profunda (DNN) Ampla e profunda	Gradientes integrados	Um método baseado em gradientes que calcula com eficiência as atribuições de atributos com as mesmas propriedades axiomáticas do valor de Shapley. Fornece uma amostra de estimativas de atribuições de recursos exatas. A precisão é controlada pelo parâmetro `integrated_gradients_num_steps`.	`ML.EXPLAIN_PREDICT`¹	`ML.GLOBAL_EXPLAIN`²
	AutoML Tables	Amostragem de Shapley	O Sampled Shapley atribui crédito pelo resultado do modelo a cada recurso e considera permutações diferentes dos recursos. Esse método oferece uma aproximação de amostragem dos valores exatos de Shapley.	Não relevante	`ML.GLOBAL_EXPLAIN`²
Modelos de série temporal	ARIMA_PLUS	Decomposição de séries temporais	Decompõe a série temporal em vários componentes se eles estiverem presentes na série temporal. Os componentes incluem tendência, sazonal, feriado, alterações nos passos, pico e quedas. Consulte o pipeline de modelagem ARIMA_PLUS para mais detalhes.	`ML.EXPLAIN_FORECAST`³	Não relevante
Modelos de série temporal	ARIMA_PLUS_XREG	Decomposição da série temporal e Valores de Shapley	Decompõe a série temporal em vários componentes, incluindo tendência, sazonal, feriado, alterações de etapas e pico e quedas (semelhante a ARIMA_PLUS). A atribuição de cada regressor externo é calculada com base nos valores de Shapley, que são iguais a `model weight * feature value`.	`ML.EXPLAIN_FORECAST`³	Não relevante

¹ML_EXPLAIN_PREDICT é uma versão estendida de ML.PREDICT.

²ML.GLOBAL_EXPLAIN retorna a explicabilidade global recebida considerando a atribuição absoluta média que cada recurso recebe para todas as linhas no conjunto de dados de avaliação.

³ML.EXPLAIN_FORECAST é uma versão estendida de ML.FORECAST.

⁴ML.ADVANCED_WEIGHTS é uma versão estendida de ML.WEIGHTS.