Vertex AI 模型监控简介

本页面简要介绍了适用于表格 AutoML 和表格自定义训练模型的 Vertex AI 模型监控。如需启用 Vertex AI 模型监控,请参阅使用模型监控

概览

在生产环境中部署的模型最适合与训练数据类似的预测输入数据。当输入数据与用于训练模型的数据存在差异时,即使模型本身未更改,模型的性能也会降低。

为了帮助您保持模型的性能,模型监控功能会监控模型的预测输入数据,以获取特征偏差和偏移:

  • 当生产中的特征数据分布与用于训练模型的特征数据分布存在差异时,就会发生训练-应用偏差。如果原始训练数据可用,您可以启用偏差检测,监控模型以执行训练-应用偏差。

  • 当生产环境中的特征数据分布随时间发生显著变化时发生预测偏移。如果原始训练数据不可用,您可以启用偏移检测来监控输入数据随时间的变化。

您可以同时启用偏差检测和偏移检测。

模型监控支持分类和数值特征的特征偏差和偏移检测:

  • 分类特征是受可能值数量限制的数据,通常按定性属性分组。例如,商品类型、国家/地区或客户类型等类别。

  • 数值特征是可为任何数值的数据。例如,重量和高度。

一旦模型特征的偏差或偏移超过您设置的提醒阈值,模型监控就会向您发送电子邮件提醒。您还可以查看每个特征在一段时间内的分布情况,以评估是否需要重新训练模型。

计算训练-应用偏差和预测偏移

为了检测训练-应用偏差和预测偏移,Model Monitoring 会根据以下流程使用 TensorFlow Data Validation (TFDV) 计算分布和距离得分

  1. 计算基准统计分布:

    • 对于偏差检测,基准是训练数据中特征值的统计分布。

    • 对于偏移检测,基准是近期生产中特征值的统计分布。

    分类和数值特征的分布按如下方式计算:

    • 对于分类特征,计算分布为特征每个可能值的实例数量或百分比。

    • 对于数值特征,模型监控功能会将可能特征值的范围划分为等间隔,并计算每个间隔中的特征值的数量或百分比。

    基准是在创建模型监控作业时计算的,并且仅在您更新作业的训练数据集时才会重新计算。

  2. 计算生产环境中最新特征值的统计分布。

  3. 通过计算距离得分,将最新特征值在生产环境中的分布与基准分布进行比较:

  4. 当两个统计分布之间的距离得分超过您指定的阈值时,模型监控会将异常值标识为偏差或偏移。

以下示例展示了分类特征的基准分布和最新分布之间的偏差或偏移:

基准分布

基准数据集的特征分布示例。

最新分布

最新数据集的特征分布示例。

以下示例展示了数值特征的基准分布和最新分布之间的偏差或偏移:

基准分布

基准数据集的特征分布示例。

最新分布

最新数据集的特征分布示例。

使用模型监控时的注意事项

  • 为了提高成本效益,您可以设置预测请求采样率,以监控模型的部分生产输入。

  • 您可以设置监控已部署的模型最近记录的输入是否存在偏差或偏移的频率。监控频率决定了每次监控运行中分析的所记录数据的时间范围或监控窗口大小。

  • 您可以为要监控的每个特征指定提醒阈值。当输入特征分布与其对应的基准之间的统计距离超过指定的阈值时,系统会记录提醒。默认情况下,每个分类和数值特征都会受监控,并且阈值为 0.3。

  • 在线预测端点可以托管多个模型。如果您对某个端点启用偏差或偏移检测,则会在该端点上托管的所有模型之间共享以下配置参数:

    • 检测类型
    • 监控频率
    • 监控输入请求的比例

    对于其他配置参数,您可以为每个模型设置不同的值。

后续步骤