Dataflow 组件

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

借助 DataflowPythonJobOp,您可以创建 Vertex AI Pipelines 组件,以通过将用 Python 编写的 Apache Beam 作业提交到 Dataflow 来执行数据准备。

Python Beam 代码使用 Dataflow Runner 运行。使用 Dataflow 服务运行流水线时,运行程序会将可执行代码(由 python_module_path 指定)和依赖项上传到 Cloud Storage 存储桶(由 temp_location 指定),并创建 Dataflow 作业以对 Google Cloud 中的代管式资源执行 Apache Beam 流水线。

如需详细了解 Dataflow Runner,请参阅使用 Dataflow Runner

Dataflow Python 组件接受通过 Beam 运行程序传递到 Apache Beam 代码的参数列表。这些参数由 args 指定。例如,您可以使用这些参数来设置 apache_beam.options.pipeline_options 以指定网络、子网、客户管理的加密密钥 (CMEK)。和其他选项。

WaitGcpResourcesOp

Dataflow 作业通常需要很长时间才能完成。busy-wait 容器(启动 Dataflow 作业并等待结果的容器)的费用可能会昂贵。

相反,通过 Beam 运行程序提交 Dataflow 作业后,DataflowPythonJobOp 组件将立即终止。Ajob_id将由组件以序列化gcp_resourcesproto。此输出可传递给 WaitGcpResourcesOp 组件以等待 Dataflow 作业