跟踪流水线工件的沿袭

使用 Vertex AI Pipelines 创建的每个流水线运行都有多个关联的制品和参数,例如模型、数据集、流水线模板和组件。流水线制品的沿袭包括促使其创建的各种因素,以及从制品派生的制品和元数据。例如,模型的沿袭可包括以下各项:

  • 用于创建模型的训练、测试和评估数据。

  • 模型训练期间使用的超参数。

  • 在训练和评估过程中记录的元数据,例如模型的准确率。

  • 源自该模型的制品,例如批量预测的结果。

您可以使用此元数据来帮助回答诸如以下问题:

  • 为什么某些流水线运行会产生特别准确的模型?

  • 哪次流水线运行产生的模型最准确,以及使用了哪些超参数来训练模型?

  • 根据流水线中的步骤,您也许能够回答系统治理问题。例如,您可以使用元数据来确定在给定时间点生产环境中的模型的版本。

如需查看和分析流水线制品沿袭,您可以使用 Vertex ML Metadata 或 Dataplex。

下表概述了 Vertex ML Metadata 和 Dataplex 之间的差异:

特征 Vertex ML Metadata Dataplex
捕获的流水线元数据类型 流水线运行生成的所有输入和输出制品。 可以映射到 Dataplex 支持的完全限定名称 (FQN) 的输入和输出制品(通常使用 Google Cloud 流水线组件)
地理位置 单区域读取。 全局读取,即跨多个区域。
项目 单项目读取。 可跨多个项目进行组织范围内的读取。
集成服务 与 Vertex AI Pipelines、Vertex AI Experiments、Vertex AI Model Registry 和 Datasets 集成 与 Vertex AI、BigQuery、Cloud Composer 和 Dataproc 等多种 Google Cloud 产品集成。
选择启用? 不,始终开启。 每个机器学习元数据存储区都需要选择启用。

将 Vertex ML Metadata 制品映射到 Dataplex

如需将 Vertex ML Metadata 制品映射到 Dataplex 中的 FQN,您需要执行以下操作:

  • 在创建 Vertex AI 模型和托管式数据集时使用 Google Cloud 流水线组件。

  • metadata 字段中指定模型或托管式数据集资源名称时,使用自定义架构标题(google.VertexDatasetgoogle.VertexModel),如以下示例所示:

{
  "name": "projects/example-project/locations/us-central1/metadataStores/default/artifacts/example-artifact",
  "displayName": "My dataset",
  "uri": "https://us-central1-aiplatform.googleapis.com/v1/projects/example-project/locations/us-central1/datasets/example-dataset",
   ...
  "schemaTitle": "google.VertexDataset",
  "schemaVersion": "0.0.1",
  "metadata": {
    "resourceName": "projects/example-project/locations/us-central1/datasets/example-dataset"
  }
}

使用 Vertex ML Metadata 分析流水线制品的沿袭

使用 Vertex AI Pipelines 运行流水线时,使用 Vertex ML Metadata 存储流水线运行的工件和参数。通过 Vertex ML Metadata,您可以降低跟踪流水线元数据的难度来轻松分析流水线工件的沿袭

如果您刚开始接触 Vertex ML Metadata,请阅读 Vertex ML Metadata 简介

按照以下说明查看使用 Vertex ML Metadata 的流水线制品的沿袭图表:

  1. 在 Google Cloud 控制台的 Vertex AI 部分中,前往元数据页面。

    前往“元数据”

    “元数据”页面列出了已在默认元数据存储区中创建的工件。

  2. 区域下拉列表中,选择在其中创建运行的区域。

  3. 点击工件的显示名称可查看其沿袭图表。

    系统会显示一个静态图标,其中显示属于此沿袭图表的工件和作业。

  4. 点击相应的制品或执行作业可了解详情。

使用 Dataplex 分析流水线制品的沿袭

Dataplex Data Catalog 会发现 Google Cloud 资源中的元数据,包括 Vertex AI Pipelines 制品(如 Vertex AI 模型)、托管式数据集,以及在 Data Catalog 中可发现的其他 Google Cloud 资源。您可以使用 Data Catalog 的元数据搜索功能发现这些制品并查看其沿袭图。

如需详细了解 Data Catalog 元数据搜索功能,请参阅使用 Data Catalog 搜索和查看数据资产

请按照以下说明在 Dataplex 上查看流水线制品的沿袭图表:

  1. 如需在 Google Cloud 控制台中启动 Dataplex 搜索查询,请进入 Dataplex 搜索页面。

    转到“Dataplex 搜索”

  2. 使用过滤条件搜索制品。例如,您可以使用数据类型过滤条件来指定制品类型,例如模型、数据集或 BigQuery 表。如需详细了解 Data Catalog 搜索,请参阅搜索数据资产

    您还可以在搜索字段中定义查询

  3. 如需查看制品的沿袭,请点击制品的名称,然后点击沿袭标签页。

    在沿袭图表中,Vertex AI 进程以 Vertex AI 沿袭图标 开头。其中包括流水线制品、流水线组件和流水线模板。

    • 如需查看流程的详细信息,请点击沿袭图表中的流程。

    • 对于基于流水线运行中的流水线任务的流程,您可以执行以下操作:

      • 点击“详细信息”标签页中的在 Vertex AI 中打开,以查看 Vertex AI 中的流水线运行。如需查看流水线运行的运行时详细信息(例如状态、时间戳和属性),请点击更多。如需在 Vertex AI 中查看流水线运行,请点击在 Vertex AI 中打开
    • 对于基于流水线模板的流程,您可以执行以下操作:

      • 点击“详细信息”标签页中的在 Vertex AI 中打开,以查看 Vertex AI 中的模板详细信息。

      • 运行标签页中查看在流水线运行中创建的流水线任务列表。如需在 Vertex AI 中查看流水线模板的详细信息,请点击更多,然后点击在 Vertex AI 中打开

后续步骤