科学方法的关键部分是记录观察结果和实验参数。在数据科学中,跟踪机器学习 (ML) 实验中使用的参数、工件和指标也至关重要。此元数据可以帮助您:
- 分析生产机器学习系统的运行情况,了解预测质量的变化。
- 分析机器学习实验以比较不同超参数集的有效性。
- 跟踪机器学习工件(例如数据集和模型)的沿袭,以了解具体是哪些因素有助于创建工件,或者如何使用工件来创建后代工件。
- 使用相同的工件和参数重新运行机器学习工作流。
- 跟踪机器学习工件的下游使用情况以用于治理。
借助 Vertex ML Metadata,您可以记录机器学习系统生成的元数据和工件,并查询该元数据以帮助分析、调试和审核机器学习系统或其生成的工件的性能。
Vertex ML Metadata 基于 Google 的 TensorFlow Extended 团队开发的开源机器学习元数据 (MLMD) 库中使用的概念构建而成。
Vertex ML Metadata 概览
Vertex ML Metadata 以图表形式拍摄机器学习系统的元数据截图。
在元数据图中,工件和执行作业是节点,而事件是将工件作为执行作业的输入或输出进行关联的边缘。上下文代表用于对工件和执行作业集进行逻辑分组的子图。
您可以将键值对元数据应用于工件、执行作业和上下文。例如,模型可以具有一些元数据,描述用于训练模型和性能指标(例如模型的准确率、精确率和召回率)的框架。
详细了解如何跟踪机器学习系统的元数据。如果您有兴趣分析 Vertex AI Pipelines 的元数据,请查看此分步教程。
机器学习工件沿袭
为了了解机器学习系统的性能变化,您必须能够分析机器学习工作流生成的元数据及其工件的沿袭。工件的沿袭包括促使其创建的所有因素,以及源自此工件的工件和元数据。
例如,模型的沿袭可包括以下各项:
- 用于创建模型的训练、测试和评估数据。
- 模型训练期间使用的超参数。
- 用于训练模型的代码。
- 在训练和评估过程中记录的元数据,例如模型的准确率。
- 源自该模型的工件,例如批量预测的结果。
通过使用 Vertex ML Metadata 跟踪机器学习系统的元数据,您可以回答如下问题:
- 使用了哪个数据集来训练特定模型?
- 使用特定数据集训练了组织的哪些模型?
- 哪次运行产生的模型最准确,以及使用了哪些超参数来训练模型?
- 哪些部署目标是部署到的特定模型以及何时部署?
- 使用了哪个模型版本在给定时间点创建预测?
详细了解如何分析机器学习系统的元数据。