Google Cloud 流水线组件 (GCPC) SDK 提供了一组预构建的 Kubeflow Pipelines 组件,它们达到生产质量、具备高性能且易于使用。您可以使用 Google Cloud 流水线组件在 Vertex AI Pipelines 和其他符合 Kubeflow Pipelines 的机器学习流水线执行后端中定义和运行机器学习流水线。
例如,您可以使用这些组件来完成以下操作:
- 创建新数据集,并将不同的数据类型加载到数据集中(图片、表格、文本或视频)。
- 将数据从数据集导出到 Cloud Storage。
- 通过 AutoML 使用图片、表格、文本或视频数据训练模型。
- 使用自定义容器或 Python 软件包运行自定义训练作业。
- 将现有模型上传到 Vertex AI 以进行批量预测。
- 创建新端点并向其部署模型以进行在线预测。
此外,这些预建的 Google Cloud 流水线组件在 Vertex AI Pipelines 中也受支持,并具有以下优势:
- 简化调试:显示从组件启动的底层资源以简化调试。
- 标准化工件类型:提供一致的接口以使用标准工件类型进行输入和输出。这些标准工件在 Vertex 机器学习元数据中跟踪,便于您更轻松地分析流水线工件的沿袭。如需详细了解工件沿袭,请参阅跟踪流水线工件的沿袭。
- 使用结算标签了解流水线费用:资源标签会自动传播到 Google Cloud 流水线组件在您的流水线运行作业中生成的 Google Cloud 服务。您可以将结算标签与将 Cloud Billing 数据导出到 BigQuery 这一功能结合使用来查看流水线运行作业的费用。如需详细了解如何使用标签了解流水线运行作业的费用,请参阅了解流水线运行作业的费用。如需详细了解系统如何将标签从流水线运行作业传播到由 Google Cloud 流水线组件生成的资源,请参阅 Vertex AI Pipelines 中的资源加标签功能。
- 成本效益*:Vertex AI Pipelines 通过启动 Google Cloud 资源来优化这些组件的执行,而无需启动容器。这可缩短启动延迟时间并降低频繁等待容器的费用。
* | 此功能仅适用于以下组件:
|
后续步骤
- 查看所有使用
google_cloud_pipeline_components
SDK 的教程。 - 如需详细了解特定 Google Cloud 流水线组件,请参阅参考部分。
- 阅读官方
google_cloud_pipeline_components
SDK 参考文档。 - 请参阅 Kubeflow Pipelines SDK 代码库中的 Google Cloud 流水线组件部分。