用于预测的特征归因

简介

本页面从概念上简要介绍了 Vertex AI 提供的特征归因方法。如需查看对技术的深入讨论，请参阅 AI Explanations 白皮书。

全局特征重要性（模型特征归因）显示每个特征对模型的影响程度。其数值以每个特征的百分比形式呈现：百分比越高，特征对模型训练的影响就越大。例如，在查看模型的全局特征重要性后，您可能会得出以下结论：“该模型发现，上个月的销售数据通常是下个月销售数据的最强预测指标。虽然客户数量和促销等因素很重要，但它们对销售数据的影响较小。”

如需查看模型的全局特征重要性，请检查评估指标。

时序模型的局部特征归因量化了模型中每个特征对推理结果的贡献度。它们是以一个输入基准为参照，衡量特征对推理结果的贡献度。对于销售等数值特征，基准输入为销售额中位数。对于产品名称等分类特征，基准输入是最常见的产品名称。所有归因的总和并不构成推理结果。这个总和表示的是推理结果与基准推理结果（即所有输入都采用基准输入所获得的推理结果）之间的差异。

特征归因根据针对反事实的预测确定。一个示例预测如下：如果将 2020-11-21 的广告值 TRUE 替换为其最常见的值 FALSE，预测结果会是什么？所需的反事实数量根据列数和路径数（生成的服务）进行扩缩。由此产生的推理次数可能比一个普通的推理任务要大几个数量级，并且预期的运行时间也会相应地大幅增加。

您可以借助使用 AutoML 进行预测或预测表格工作流生成和查询局部特征归因。“使用 AutoML 进行预测”仅支持批量推理。“预测表格工作流”支持批量推理和在线推理。

优点

如果您在训练数据集中检查特定实例并汇总特征归因，就可以更深入地了解模型的工作原理。请考虑以下优点：

调试模型：特征归因有助于检测出数据中通常被标准模型评估技术忽略的问题。
优化模型：您可以识别和移除不太重要的特征，从而生成更有效率的模型。

概念限制

请考虑特征归因的以下限制：

特征归因（例如 AutoML 提供的局部特征重要性）是针对每一次具体的推理进行的解释。分析某次推理的特征归因或许能提供有用的洞见信息，但该洞见未必能普适于该实例所属的整个类，或整个模型。

如需获得更通用的 AutoML 模型数据分析，请参阅模型特征重要性。如需获得针对其他模型的更多数据洞见，请通过数据集内的子集或整个数据集聚合归因。
每个归因只会反映特征对该特定样本的推理结果的影响程度。单一归因可能无法反映模型的总体行为。如需了解模型在处理整个数据集方面的大致行为，请对整个数据集进行归因汇总。
尽管特征归因有助于模型调试，但它们并不总能清晰地指明一个问题是源于模型本身，还是源于训练模型所用的数据。您必须尽量正确地做出判断，并诊断常见的数据问题，以筛查出可能的原因。
归因完全取决于模型以及用于训练该模型的数据。它们只能展示模型在数据中发现的模式，而无法检测到数据中的任何基本关系。某个特征是否存在强有力的归因并不意味着该特征与目标之间是否存在关系。归因仅仅表明了模型在其推理中是否使用了该特征。
您不能仅凭归因，就判断模型是否公平、无偏差或可靠。除了相应归因之外，您还要仔细评估训练数据和评估指标。

如需详细了解限制，请参阅 AI Explanations 白皮书。

改善特征归因

以下因素对特征归因的影响最大：

归因方法只会大致估计 Shapley 值。您可以通过增加采样 Shapley 方法的路径数来提高近似值的精确率。因此，归因可能会发生巨大变化。
归因只是量化了特征对推理值相较于基准值的变化造成了多大影响。请确保选择有意义的基准，该基准应与您向模型询问的问题相关。归因值及其解释可能会随着基准的改变而发生显著变化。

您可以在解释参数和元数据中查看路径计数和基准信息。

查看说明元数据和参数

说明参数和元数据包含以下内容：

static_value：用于生成说明的基准。
pathCount：路径数，即生成特征归因所需时间量的一个因素。
historical_values、prediction_values：预测时可用的列。
historical_values：预测时的列不可用。

该模型可以使用 Vertex AI REST API 查看，且包含说明规范。

REST

在使用任何请求数据之前，请先进行以下替换：

LOCATION：存储模型的区域
PROJECT：您的项目 ID。
MODEL_ID：模型资源的 ID

HTTP 方法和网址：

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID

如需发送请求，请选择以下方式之一：

curl

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI，或者使用了 Cloud Shell，这会使您自动登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

执行以下命令：

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID"

PowerShell

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/models/MODEL_ID" | Select-Object -Expand Content

AutoML 模型训练完成后，您应该会看到类似如下所示的输出。

响应

{
  "name": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
  "displayName": "MODEL_DISPLAYNAME",
  ...
  "explanationSpec": {
    "parameters": {
      "sampledShapleyAttribution": {
        "pathCount": 6
      },
      "topK": -1
    },
    "metadata": {
      "inputs": {
        "prediction_values": {
          "inputBaselines": [
            [
              {
                "date": "2016-11-17",
                "advertisement": "0",
                "holiday": "0"
              }
            ]
          ]
        },
        "static_value": {
          "inputBaselines": [
            {
              "product": "product_0",
              "store": "store_0"
            }
          ]
        },
        "historical_values": {
          "inputBaselines": [
            [
              {
                "date": "2016-11-17",
                "advertisement": "0",
                "holiday": "0",
                "sales": 371.03544292464909
              }
            ]
          ]
        }
      },
      "outputs": {
        "value": {}
      },
      "featureAttributionsSchemaUri": "..."
    }
  }
}

算法

Vertex AI 使用 Shapley 值提供特征归因，这是一种合作博弈论算法，用于根据游戏结果为特定玩家分配积分。应用到机器学习模型中，就意味着每个模型特征都被视作游戏中的一个“玩家”，而积分则依据其对特定推理结果的贡献度来分配。对于结构化数据模型，Vertex AI 使用精确 Shapley 值的采样近似值，称为采样 Shapley。

如需深入了解采样的 Shapley 方法的工作原理，请参阅论文《限定采样 Shapley 值逼近法的估计误差》。

后续步骤

以下资源提供了更多有用的教育材料：