此旧版 AI Platform Prediction 已弃用，2025 年 1 月 31 日之后将不再在 Google Cloud 上提供。2025 年 1 月 31 日之后，所有模型、关联的元数据和部署都将被删除。将资源迁移至 Vertex AI 即可获取 AI Platform 没有的新机器学习功能。

此页面由 Cloud Translation API 翻译。

监控模型版本

了解模型的性能是管理机器学习模型的重要部分。您可以监控模型的流量模式、错误率、延迟时间和资源利用率，以帮助发现模型存在的问题，并找到合适的机器类型来优化延迟和成本。

您还可以使用 Cloud Monitoring 根据指标配置提醒。举例来说，如果模型预测延迟时间过长，您会收到提醒。AI Platform Prediction 会将指标导出到 Cloud Monitoring。每个 AI Platform Prediction 指标类型的名称中均包含“prediction”；例如 ml.googleapis.com/prediction/online/replicas 或 ml.googleapis.com/prediction/online/accelerator/duty_cycle。

监控性能指标

您可以在 Google Cloud 控制台中找到模型流量模式、错误和延迟的相关信息。版本详情页面的性能标签页上提供以下图表：

预测数：每秒的预测数量（包括在线预测和批量预测）。如果每个请求涉及多个实例，则每个实例都会计入此图表。
错误率：模型产生的错误率。错误率高通常表示模型存在问题或对该模型的请求存在问题。响应代码可用于确定发生了哪些错误。
模型延迟时间和总延迟时间：模型的延迟时间。总延迟时间是指服务中花费的总请求时间。模型延迟时间指执行计算所花费的时间。

如需查看性能图表，请按以下步骤操作：

转到 Google Cloud 控制台中的 AI Platform Prediction 模型页面。

转到“模型”页面
点击列表中的模型名称，以转到模型详情页面。
点击列表中的版本名称，以转到版本详情页面。
如果尚未进行选择，请点击性能标签页。
滚动查看每个图表。

监控资源消耗

Google Cloud 控制台中提供了使用 Compute Engine (N1) 机器类型的模型版本的资源利用率图表。您可以在版本详情页面的资源使用情况标签页上查看以下图表：

副本数：您的版本的副本数量。如果您使用手动扩缩，此图表会显示您在部署或上次更新版本时选择的节点数量。如果您启用了自动扩缩，则该图表会显示模型的副本数如何随时间变化以响应流量变化。
CPU 用量、内存用量、加速器平均工作周期和加速器内存用量：版本每个副本的 CPU、GPU 和内存利用率。
发送的网络字节数和收到的网络字节数：作业的网络用量，以每秒字节数为单位。

注意：收到的网络字节数图表可显示自动调节模型版本不符合预期的值。我们已注意到该问题，正在努力解决。

如需查看资源利用率图表，请按以下步骤操作：

转到 Google Cloud 控制台中的 AI Platform Prediction 模型页面。

转到“模型”页面
点击列表中的模型名称，以转到模型详情页面。
点击列表中的版本名称，以转到版本详情页面。
点击资源使用情况标签页。
滚动查看每个图表。

后续步骤

排查模型版本的问题。
选择一种机器类型以缩短延迟时间或降低成本。