监控模型版本

了解模型的性能是管理机器学习模型的重要部分。您可以监控模型的流量模式、错误率、延迟时间和资源利用率,以帮助发现模型存在的问题,并找到合适的机器类型来优化延迟和成本。

您还可以使用 Cloud Monitoring 根据指标配置提醒。举例来说,如果模型预测延迟时间过长,您会收到提醒。AI Platform Prediction 会将指标导出到 Cloud Monitoring。 每个 AI Platform Prediction 指标类型的名称中均包含“prediction”;例如 ml.googleapis.com/prediction/online/replicasml.googleapis.com/prediction/online/accelerator/duty_cycle

监控性能指标

您可以在 Google Cloud 控制台中找到模型流量模式、错误和延迟的相关信息。版本详情页面的性能标签页上提供以下图表:

  • 预测数:每秒的预测数量(包括在线预测和批量预测)。如果每个请求涉及多个实例,则每个实例都会计入此图表。
  • 错误率:模型产生的错误率。错误率高通常表示模型存在问题或对该模型的请求存在问题。响应代码可用于确定发生了哪些错误。
  • 模型延迟时间和总延迟时间:模型的延迟时间。总延迟时间是指服务中花费的总请求时间。模型延迟时间指执行计算所花费的时间。

如需查看性能图表,请按以下步骤操作:

  1. 转到 Google Cloud 控制台中的 AI Platform Prediction 模型页面。

    转到“模型”页面

  2. 点击列表中的模型名称,以转到模型详情页面。

  3. 点击列表中的版本名称,以转到版本详情页面。

  4. 如果尚未进行选择,请点击性能标签页。

  5. 滚动查看每个图表。

监控资源消耗

Google Cloud 控制台中提供了使用 Compute Engine (N1) 机器类型的模型版本的资源利用率图表。您可以在版本详情页面的资源使用情况标签页上查看以下图表:

  • 副本数:您的版本的副本数量。如果您使用手动扩缩,此图表会显示您在部署或上次更新版本时选择的节点数量。如果您启用了自动扩缩,则该图表会显示模型的副本数如何随时间变化以响应流量变化。
  • CPU 用量、内存用量、加速器平均工作周期和加速器内存用量:版本每个副本的 CPU、GPU 和内存利用率。
  • 发送的网络字节数和收到的网络字节数:作业的网络用量,以每秒字节数为单位。

如需查看资源利用率图表,请按以下步骤操作:

  1. 转到 Google Cloud 控制台中的 AI Platform Prediction 模型页面。

    转到“模型”页面

  2. 点击列表中的模型名称,以转到模型详情页面。

  3. 点击列表中的版本名称,以转到版本详情页面。

  4. 点击资源使用情况标签页。

  5. 滚动查看每个图表。

后续步骤