适用于 Vertex AI 的 Cloud Monitoring 指标

Vertex AI 将指标导出到 Cloud Monitoring。Vertex AI 还会显示 Vertex AI Google Cloud 控制台中的一些指标。您可以使用 Cloud Monitoring 创建信息中心,或根据指标配置提醒。例如,如果 Vertex AI 中的模型的预测延迟时间过高,您会收到提醒。

以下部分介绍了 Vertex AI Google Cloud 控制台中提供的指标,这可能是 Vertex AI 发送到 Cloud Monitoring 的直接指标或计算得出的指标。

如需查看 Vertex AI 导出到 Cloud Monitoring 的大多数指标的列表,请参阅 Monitoring Google Cloud 指标页面上的“aiplatform”部分。对于自定义训练指标,请参阅该页面的“ml”部分中以 training 开头的指标类型。

自定义训练监控指标

执行自定义训练时,您可以监控每个训练节点的以下类型的资源使用情况:

  • 每个训练节点的 CPU 或 GPU 利用率
  • 每个训练节点的内存利用率
  • 网络用量(每秒发送的字节数和每秒接收的字节数)

如果您使用的是超参数微调,则可以查看每次试验的指标。

如需在启动自定义训练后查看这些指标,请执行以下操作:

  1. 在 Google Cloud 控制台中,根据您是否使用超参数调节,前往以下页面之一:

  2. 点击自定义训练资源的名称。

    如果您创建了自定义 TrainingPipeline 资源,则点击 TrainingPipeline 创建的作业的名称;例如 TRAINING_PIPELINE_NAME-custom-jobTRAINING_PIPELINE_NAME-hyperparameter-tuning-job

  3. 点击 CPUGPU网络标签页,以查看您感兴趣的指标的利用率图表。

    如果您使用的是超参数调节,则可以点击超参数调节试验表中的一行以查看特定试验的指标。

如需查看旧指标或自定义查看指标的方式,请使用 Monitoring。Vertex AI 会将自定义训练指标作为前缀为 ml.googleapis.com/training 的指标类型导出到 Monitoring。 受监控的资源类型是 cloudml_job

请注意,AI Platform Training 会将指标类型和资源类型相同的指标导出到 Monitoring。

端点监控指标

将模型部署到端点后,您可以监控端点以了解模型的性能和资源使用情况。您可以跟踪流量模式、错误率、延迟时间和资源利用率等指标,以确保模型始终以可预测的方式响应请求。例如,您可以使用其他机器类型重新部署模型,以优化费用。进行更改后,您可以监控模型以检查更改是否对其性能产生了不利影响。

在 Cloud Monitoring 中,已部署模型的受监控资源类型为 aiplatform.googleapis.com/Endpoint

性能指标

性能指标可帮助您查找模型的流量模式、错误和延迟时间等信息。您可以在 Google Cloud 控制台中查看以下性能指标。

  • 每秒预测次数:在线预测和批量预测中每秒的预测数量。如果每个请求涉及多个实例,则每个实例都会计入此图表。
  • 预测错误百分比:您的模型产生的错误率。较高的错误率可能表示模型存在问题,或对该模型的请求存在问题。查看响应代码图表以确定发生了哪些错误。
  • 模型延迟时间(仅适用于表格和自定义模型):执行计算所花费的时间。
  • 开销延迟时间(仅适用于表格模型和自定义模型):处理请求(在计算范围之外)所用的总时间。
  • 总延迟时间:请求在服务中所花费的总时间,即模型延迟时间加上开销延迟时间。

资源使用情况

资源使用情况指标可帮助您跟踪模型的 CPU 使用率、内存使用情况和网络使用情况。您可以在 Google Cloud 控制台中查看以下用量指标。

  • 副本数:已部署模型使用的有效副本数。
  • 副本目标:已部署模型所需的有效副本数。
  • CPU 使用率:已部署的模型副本的当前 CPU 核心使用率。100% 表示一个充分利用的 CPU 核心,因此如果副本的机器类型具有多个核心,则副本的利用率可能超过 100%。
  • 内存用量:部署的模型副本分配的内存用量以及当前正在使用的内存量。
  • 发送的网络字节数:已部署的模型副本通过网络发送的字节数。
  • 收到的网络字节数:部署的模型副本通过网络接收的字节数。
  • 加速器平均工作周期:过去一个或多个加速器主动处理的平均时长。
  • 加速器内存使用量:已部署的模型副本分配的内存量。

查看端点监控指标图表

  1. 前往 Google Cloud 控制台中的 Vertex AI 端点页面。

    前往“端点”页面

  2. 点击端点的名称可查看其指标。

  3. 在图表间隔时间下方,点击性能资源使用情况以查看性能或资源使用情况指标。

    您可以选择不同的图表间隔,以查看特定时间段(例如 1 小时、12 小时或 14 天)的指标值。

    如果您已将多个模型部署到端点,则可以选择或取消选择模型,以查看或隐藏特定模型的指标。如果您选择多个模型,控制台会将一些模型指标组合到一个图表。例如,如果指标仅为每个模型提供一个值,则控制台会将模型指标分组为单个图表,例如 CPU 使用率。对于每个模型可以具有多个值的指标,控制台会为每个模型提供一个图表。例如,控制台会为每个模型提供一个响应代码图表。

Vertex AI Feature Store 监控指标

构建特征存储区后,您可以监控其性能和资源利用率,例如在线存储投放延迟时间或在线存储节点的数量。例如,您可以更新特征存储区的在线存储节点的数量,然后监控在线存储投放指标的更改。

在 Cloud Monitoring 中,特征存储区的受监控资源类型为 aiplatform.googleapis.com/Featurestore

指标

  • 请求大小:按特征存储区中实体类型划分的请求大小。
  • 用于流式写入的离线存储写入:为离线存储处理的流式写入请求的数量。
  • 流式写入离线存储的延迟时间:调用写入 API 与写入离线存储之间的时间长度(以秒为单位)。
  • 节点数:特征存储区的在线传送节点数。
  • 延迟时间:在线传送或流式注入请求在服务中花费的总时间。
  • 每秒查询次数:特征存储区处理的在线传送或流式注入查询的数量。
  • 错误百分比:特征存储区在处理在线传送或流式注入请求时生成的错误百分比。
  • CPU 利用率:特征存储区分配当前正在使用的 CPU 的比例。如果在线服务存储空间过载,则此数值可能会超过 100%。请考虑增加特征存储区的在线服务节点的数量以降低 CPU 利用率。
  • CPU 利用率 - 最热节点:特征存储区在线存储空间中最热节点的 CPU 负载。
  • 离线总存储空间:存储在特征存储区的离线存储空间中的数据量。
  • 在线总存储空间:存储在特征存储区的在线存储空间中的数据量。
  • 在线投放吞吐量:在线投放请求的吞吐量(以 MB/秒为单位)。

查看特征存储区监控指标图表

  1. 前往 Google Cloud 控制台中的 Vertex AI 特征页面。

    进入“特征”页面

  2. Featurestore 列中,点击特征存储区的名称以查看其指标。

    您可以选择不同的图表间隔,以查看特定时间段(例如 1 小时、1 天或 1 周)的指标值。

    对于某些在线服务指标,您可以选择查看特定方法的指标,这会按实体类型进一步细分指标。例如,您可以查看 ReadFeatureValues 方法或 StreamingReadFeatureValues 方法的延迟时间。