持续评估概览

持续评估定期对已部署到 AI Platform Prediction 的经过训练的机器学习模型中的预测输入和输出进行采样。AI Platform 数据标签服务随后指派人工审核者为您的预测输入提供评估依据标签;您也可以提供自己的评估依据标签。数据标签服务将模型的预测结果与评估依据标签进行比较,以持续反馈您的模型在一段时间内的效果。

工作原理

如需使用持续评估,您必须已将经过训练的机器学习模型作为模型版本部署到 AI Platform Prediction。然后,您可以为该模型版本创建评估作业

为模型版本创建评估作业时,会发生以下两种情况:

  • 随着模型版本提供在线预测服务,部分预测的输入和输出会保存在 BigQuery 表中。只要您的模型提供预测服务,就会经常发生采样。您可以自定义采样数据量。
  • 评估作业间歇性运行,并生成评估指标

您可以在 Google Cloud Console 中查看生成的评估指标。

标准答案

标准答案标签是人工判定为适用于机器学习任务的标签。持续评估会将这些标签用作响应键,并通过将模型版本的预测结果与评估依据标签进行比较来计算指标。创建评估作业时,您必须决定要为预测数据生成评估依据标签的方式。您可以选择以下两种方法:

  • Data Labeling Service 指派人工审核者为您的预测数据提供标准答案标签。
  • 您自行提供标准答案标签。

运行评估作业

默认情况下,评估作业每天的运行时间为世界协调时间 (UTC) 上午 10 点。运行期间发生的情况取决于您决定生成评估依据标签的方式。

如果由 Data Labeling Service 提供标准答案标签

评估作业运行时,数据标签服务会创建一个数据集,其中包含自上次运行后 BigQuery 中的所有新行。这些行包含从模型版本中采样的预测输入和输出。

然后,数据标签服务会根据此数据集提交标签请求,让人工审核者提供评估依据标签。

标签请求完成后,数据标签服务会使用新的评估依据标签和模型版本的预测结果来计算评估指标。

尤其是当您将大量预测数据采样到 BigQuery 表中时,人工标签添加者可能需要超过一天的时间才能完成您的标签请求。如果发生这种情况,您的评估作业仍会在次日根据其时间安排再次运行。这意味着该作业并行运行多次。每次运行都会对预测数据进行单独的采样:模型版本在运行前一天的预测结果。无论运行多长时间,它们都会针对特定的预测日期生成评估指标。

如果您自行提供标准答案标签

如上一部分所述,运行评估作业时,数据标签服务会创建一个数据集,其中包含自上次运行后 BigQuery 中的所有新行。但在这种情况下,您必须已在该表的 groundtruth 列中添加了评估依据标签,然后才能运行。评估作业会跳过没有评估依据标签的所有行,这些行不能包含在未来的评估作业运行中。

创建数据集后,数据标签服务会立即计算评估指标。

如果您使用此方法,则必须在评估作业运行前每天为新预测添加评估依据标签。

价格

如果数据标签服务指派人工审核者提供评估依据标签,则数据标签服务价格适用。除此之外,没有任何具体的持续评估费用。

如需使用持续评估,您还必须使用 AI Platform PredictionBigQueryCloud Storage。这些产品可能会产生费用。

后续步骤

了解您在创建评估作业之前需要执行的操作。