了解模型的性能是管理机器学习模型的重要部分。您可以监控模型的流量模式、错误率、延迟时间和资源利用率,以帮助发现模型存在的问题,并找到合适的机器类型来优化延迟和成本。
您还可以使用 Cloud Monitoring 根据指标配置提醒。举例来说,如果模型预测延迟时间过长,您会收到提醒。AI Platform Prediction 会将指标导出到 Cloud Monitoring。
每个 AI Platform Prediction 指标类型的名称中均包含“prediction”;例如 ml.googleapis.com/prediction/online/replicas
或 ml.googleapis.com/prediction/online/accelerator/duty_cycle
。
监控性能指标
您可以在 Google Cloud 控制台中找到模型流量模式、错误和延迟的相关信息。版本详情页面的性能标签页上提供以下图表:
- 预测数:每秒的预测数量(包括在线预测和批量预测)。如果每个请求涉及多个实例,则每个实例都会计入此图表。
- 错误率:模型产生的错误率。错误率高通常表示模型存在问题或对该模型的请求存在问题。响应代码可用于确定发生了哪些错误。
- 模型延迟时间和总延迟时间:模型的延迟时间。总延迟时间是指服务中花费的总请求时间。模型延迟时间指执行计算所花费的时间。
如需查看性能图表,请按以下步骤操作:
转到 Google Cloud 控制台中的 AI Platform Prediction 模型页面。
点击列表中的模型名称,以转到模型详情页面。
点击列表中的版本名称,以转到版本详情页面。
如果尚未进行选择,请点击性能标签页。
滚动查看每个图表。
监控资源消耗
Google Cloud 控制台中提供了使用 Compute Engine (N1) 机器类型的模型版本的资源利用率图表。您可以在版本详情页面的资源使用情况标签页上查看以下图表:
- 副本数:您的版本的副本数量。如果您使用手动扩缩,此图表会显示您在部署或上次更新版本时选择的节点数量。如果您启用了自动扩缩,则该图表会显示模型的副本数如何随时间变化以响应流量变化。
- CPU 用量、内存用量、加速器平均工作周期和加速器内存用量:版本每个副本的 CPU、GPU 和内存利用率。
发送的网络字节数和收到的网络字节数:作业的网络用量,以每秒字节数为单位。
如需查看资源利用率图表,请按以下步骤操作:
转到 Google Cloud 控制台中的 AI Platform Prediction 模型页面。
点击列表中的模型名称,以转到模型详情页面。
点击列表中的版本名称,以转到版本详情页面。
点击资源使用情况标签页。
滚动查看每个图表。