Google Cloud 流水线组件简介

Google Cloud 流水线组件 (GCPC) SDK 提供了一组预构建的 Kubeflow Pipelines 组件,它们达到生产质量、具备高性能且易于使用。您可以使用 Google Cloud 流水线组件在 Vertex AI Pipelines 和其他符合 Kubeflow Pipelines 的机器学习流水线执行后端中定义和运行机器学习流水线。

例如,您可以使用这些组件来完成以下操作:

  • 创建新数据集,并将不同的数据类型加载到数据集中(图片、表格、文本或视频)。
  • 将数据从数据集导出到 Cloud Storage。
  • 通过 AutoML 使用图片、表格、文本或视频数据训练模型。
  • 使用自定义容器或 Python 软件包运行自定义训练作业。
  • 将现有模型上传到 Vertex AI 以进行批量预测。
  • 创建新端点并向其部署模型以进行在线预测。

此外,这些预建的 Google Cloud 流水线组件在 Vertex AI Pipelines 中也受支持,并具有以下优势:

  • 简化调试:显示从组件启动的底层资源以简化调试。
  • 标准化工件类型:提供一致的接口以使用标准工件类型进行输入和输出。这些标准工件在 Vertex 机器学习元数据中跟踪,便于您更轻松地分析流水线工件的沿袭。如需详细了解工件沿袭,请参阅跟踪流水线工件的沿袭
  • 使用结算标签了解流水线费用:资源标签会自动传播到 Google Cloud 流水线组件在您的流水线运行作业中生成的 Google Cloud 服务。您可以将结算标签与将 Cloud Billing 数据导出到 BigQuery 这一功能结合使用来查看流水线运行作业的费用。如需详细了解如何使用标签了解流水线运行作业的费用,请参阅了解流水线运行作业的费用。如需详细了解系统如何将标签从流水线运行作业传播到由 Google Cloud 流水线组件生成的资源,请参阅 Vertex AI Pipelines 中的资源加标签功能
  • 成本效益*:Vertex AI Pipelines 通过启动 Google Cloud 资源来优化这些组件的执行,而无需启动容器。这可缩短启动延迟时间并降低频繁等待容器的费用。

后续步骤