使用 Vertex AI Pipelines 创建的每个流水线运行都有多个关联的制品和参数,例如模型、数据集、流水线模板和组件。流水线制品的沿袭包括促使其创建的各种因素,以及从制品派生的制品和元数据。例如,模型的沿袭可包括以下各项:
用于创建模型的训练、测试和评估数据。
模型训练期间使用的超参数。
在训练和评估过程中记录的元数据,例如模型的准确率。
源自该模型的制品,例如批量预测的结果。
您可以使用此元数据来帮助回答诸如以下问题:
为什么某些流水线运行会产生特别准确的模型?
哪次流水线运行产生的模型最准确,以及使用了哪些超参数来训练模型?
根据流水线中的步骤,您或许可以回答系统治理问题。例如,您可以使用元数据来确定在给定时间点生产环境中的模型的版本。
如需查看和分析流水线制品沿袭,您可以使用 Vertex ML Metadata 或 Dataplex。
下表概述了 Vertex ML Metadata 和 Dataplex 之间的差异:
特征 | Vertex ML Metadata | Dataplex |
---|---|---|
捕获的流水线元数据类型 | 流水线运行生成的所有输入和输出制品。 | 可以映射到 Dataplex 支持的完全限定名称 (FQN) 的输入和输出工件(通常使用 Google Cloud 流水线组件)。 |
地理位置 | 单个区域读取。 | 全局读取,即跨多个区域。 |
项目 | 单个项目读取。 | 跨多个项目的组织级读取。 |
集成服务 | 与 Vertex AI Pipelines、Vertex AI Experiments、Vertex AI Model Registry 和数据集集成。 | 与 Vertex AI、BigQuery、Cloud Composer 和 Dataproc 等多种 Google Cloud 产品集成。 |
选择启用? | 不,始终开启。 | 通过启用 Data Lineage API 为每个项目选择启用。 |
将 Vertex ML Metadata 制品映射到 Dataplex
如需将 Vertex ML Metadata 制品映射到 Dataplex 中的 FQN,您需要执行以下操作:
在创建 Vertex AI 模型和托管式数据集时使用 Google Cloud 流水线组件。
在
metadata
字段中指定模型或托管式数据集资源名称时,使用自定义架构标题(google.VertexDataset
或google.VertexModel
),如以下示例所示:
{
"name": "projects/example-project/locations/us-central1/metadataStores/default/artifacts/example-artifact",
"displayName": "My dataset",
"uri": "https://us-central1-aiplatform.googleapis.com/v1/projects/example-project/locations/us-central1/datasets/example-dataset",
...
"schemaTitle": "google.VertexDataset",
"schemaVersion": "0.0.1",
"metadata": {
"resourceName": "projects/example-project/locations/us-central1/datasets/example-dataset"
}
}
使用 Vertex ML Metadata 分析流水线制品的沿袭
使用 Vertex AI Pipelines 运行流水线时,使用 Vertex ML Metadata 存储流水线运行的工件和参数。通过 Vertex ML Metadata,您可以降低跟踪流水线元数据的难度来轻松分析流水线工件的沿袭。
如果您刚开始接触 Vertex ML Metadata,请阅读 Vertex ML Metadata 简介。
按照以下说明查看使用 Vertex ML Metadata 的流水线制品的沿袭图表:
在 Google Cloud 控制台的 Vertex AI 部分中,前往元数据页面。
“元数据”页面列出了已在默认元数据存储区中创建的工件。
在区域下拉列表中,选择在其中创建运行的区域。
点击工件的显示名称可查看其沿袭图表。
系统会显示一个静态图标,其中显示属于此沿袭图表的工件和作业。
点击相应的制品或执行作业可了解详情。
使用 Dataplex 分析流水线制品的沿袭
Dataplex 会发现Google Cloud 资源中的元数据,包括 Vertex AI Pipelines 工件(如 Vertex AI 模型)、托管式数据集,以及在 Dataplex 中可发现的其他Google Cloud 资源。您可以使用 Dataplex 的元数据搜索功能发现这些工件并查看其沿袭图。
如需详细了解 Dataplex 元数据搜索功能,请参阅在 Dataplex Catalog 中搜索资源。
请注意,Dataplex 可能并非适用于支持 Vertex AI Pipelines 的所有区域。如果您的区域不支持 Dataplex,请使用 Vertex ML Metadata。查看 Dataplex 支持的区域列表。
请按照以下说明在 Dataplex 上查看流水线制品的沿袭图表:
如需在 Google Cloud 控制台中启动 Dataplex 搜索查询,请前往 Dataplex Catalog 搜索页面。
使用过滤条件搜索制品。例如,您可以使用数据类型过滤条件来指定制品类型,例如模型、数据集或 BigQuery 表。如需详细了解 Dataplex Catalog 搜索,请参阅在 Dataplex Catalog 中搜索资源。
您也可以在搜索字段中定义查询。
如需查看制品的沿袭,请点击制品的名称,然后点击沿袭标签页。
在谱系图中,Vertex AI 进程前面会带有
。其中包括流水线制品、流水线组件和流水线模板。
如需查看某个进程的详细信息,请点击谱系图中的相应进程。
对于基于流水线运行中的流水线任务的流程,您可以执行以下操作:
- 在详细信息标签页中,点击在 Vertex AI 中打开,即可在 Vertex AI 中查看流水线运行情况。如需查看流水线运行的运行时详细信息(例如状态、时间戳和属性),请点击更多。如需在 Vertex AI 中查看流水线运行情况,请点击在 Vertex AI 中打开。
对于基于流水线模板的流程,您可以执行以下操作:
在详细信息标签页中,点击在 Vertex AI 中打开,即可在 Vertex AI 中查看模板详情。
在 Runs(运行)标签页中查看在流水线运行中创建的流水线任务列表。如需在 Vertex AI 中查看流水线模板的详细信息,请点击更多,然后点击在 Vertex AI 中打开。
后续步骤
- 了解如何运行流水线。
- 开始直观呈现和分析流水线结果。
- 了解如何构建机器学习流水线。