使用 Dataflow Runner v2

使用 Dataflow 运行流水线时，Dataflow Runner 会将流水线代码和依赖项上传到 Cloud Storage 存储桶并创建 Dataflow 作业。此 Dataflow 作业在Google Cloud中的托管式资源上运行流水线。

对于使用 Apache Beam Java SDK 2.54.0 或更高版本的批处理流水线，Runner v2 默认处于启用状态。
对于使用 Apache Beam Java SDK 的流水线，在运行多语言流水线、使用自定义容器，或者使用 Spanner 或 Bigtable 变更数据流流水线时，Runner v2 是必需的。在其他情况下，请使用默认运行程序。
对于使用 Apache Beam Python SDK 2.21.0 或更高版本的流水线，Runner v2 默认处于启用状态。对于使用 Apache Beam Python SDK 2.45.0 版及更高版本的流水线，Dataflow Runner v2 是唯一可用的 Dataflow 运行程序。
对于 Go 版 Apache Beam SDK，Dataflow Runner v2 是唯一可用的 Dataflow 运行程序。

Runner v2 使用基于服务的架构，这对某些流水线有利：

Dataflow Runner v2 可让您预构建 Python 容器，这有助于缩短虚拟机启动时间和提升横向自动扩缩性能。如需了解详情，请参阅预构建的 Python 依赖项。
Dataflow Runner v2 支持多语言流水线，该功能使 Apache Beam 流水线能够使用其他 Apache Beam SDK 中定义的转换。Dataflow Runner v2 支持在 Python SDK 流水线中使用 Java 转换以及在 Java SDK 流水线中使用 Python 转换。当您在没有 Runner v2 的情况下运行 Apache Beam 流水线时，Dataflow 运行程序会使用特定于语言的工作器。

局限和限制

Dataflow Runner v2 具有以下要求：

Dataflow Runner v2 需要将 Streaming Engine 用于流作业。
由于 Dataflow Runner v2 需要 Streaming Engine 来流式传输作业，因此任何需要 Dataflow Runner v2 的 Apache Beam 转换还需要使用 Streaming Engine 来流式传输作业。例如，Python 版 Apache Beam SDK 的 Pub/Sub Lite I/O 连接器是一种需要 Dataflow Runner v2 的跨语言转换。如果您尝试为使用此转换的作业或模板停用 Streaming Engine，则作业将失败。
对于使用 Apache Beam Java SDK 的流式处理流水线，Runner v2 不支持 MapState 和 SetState 类。如需将 MapState 和 SetState 类与 Java 流水线搭配使用，请启用 Streaming Engine，停用 Runner v2，并使用 Apache Beam SDK 2.58.0 版或更高版本。
对于使用 Apache Beam Java SDK 的批处理和流式处理流水线，不支持 AfterSynchronizedProcessingTime 类。
Dataflow 经典模板无法使用与构建时使用的 Dataflow 运行程序不同的版本运行。这意味着，Google 提供的经典模板无法启用 Runner v2。如需为自定义模板启用 Runner v2，请在构建模板时设置 --experiments=use_runner_v2 标志。
由于存在已知的自动扩缩问题，对于需要有状态处理的批处理 Java 流水线，Runner v2 默认处于停用状态。您仍然可以为这些流水线启用 Runner v2（请参阅启用 Runner v2），但流水线性能可能会严重受限。

如需启用 Dataflow Runner v2，请按照 Apache Beam SDK 的配置说明进行操作。

Dataflow Runner v2 需要使用 Apache Beam Java SDK 2.30.0 或更高版本，建议使用 2.44.0 版或更高版本。

对于使用 Apache Beam Java SDK 2.54.0 或更高版本的批处理流水线，Runner v2 默认处于启用状态。

如需启用 Runner v2，请在运行作业时使用 use_runner_v2 实验。如需了解详情，请参阅设置实验性流水线选项。

对于使用 Apache Beam Python SDK 2.21.0 或更高版本的流水线，Runner v2 默认处于启用状态。

Apache Beam Python SDK 2.20.0 及更低版本不支持 Dataflow Runner v2。

在某些情况下，虽然流水线在受支持的 SDK 版本上运行，但流水线可能不使用 Runner v2。如需使用 Runner v2 运行作业，请设置 use_runner_v2 实验。如需了解详情，请参阅设置实验性流水线选项。

Dataflow Runner v2 是唯一适用于 Go 版 Apache Beam SDK 的 Dataflow Runner。Runner v2 默认处于启用状态。

如需停用 Dataflow Runner v2，请按照 Apache Beam SDK 的配置说明进行操作。

如需停用 Runner v2，请设置 disable_runner_v2 实验。如需了解详情，请参阅设置实验性流水线选项。

Apache Beam Python SDK 2.45.0 版及更高版本不支持停用 Runner v2。

对于早期版本的 Python SDK，如果您的作业被标识为使用 auto_runner_v2 实验，您可以通过设置 disable_runner_v2 实验来停用运行程序 v2。如需了解详情，请参阅设置实验性流水线选项。

无法在 Go 中停用 Dataflow Runner v2。Runner v2 是 Go 版 Apache Beam SDK 唯一可用的 Dataflow 运行程序。

使用监控界面可查看 Dataflow 作业指标，例如内存利用率、CPU 利用率等。

您可以通过 Logs Explorer 和 Dataflow 监控界面获取工作器虚拟机日志。工作器虚拟机日志包括来自运行程序自动化测试框架进程的日志和来自 SDK 进程的日志。您可以使用虚拟机日志来排查作业问题。

如需使用 Dataflow Runner v2 排查作业问题，请按照标准流水线问题排查步骤进行操作。以下列表提供了有关 Dataflow Runner v2 工作原理的其他信息：

Dataflow Runner v2 作业在工作器虚拟机上运行两种类型的进程：SDK 进程和运行程序自动化测试框架进程。根据流水线和虚拟机类型，可能有一个或多个 SDK 进程，但每台虚拟机只有一个运行程序自动化测试框架进程。
SDK 进程运行用户代码和其他特定于语言的功能。运行程序自动化测试框架进程管理其他一切。
在开始从 Dataflow 请求工作之前，运行程序自动化测试框架进程会等待所有 SDK 进程与其连接。
如果工作器虚拟机在 SDK 进程启动期间下载并安装依赖项，则作业可能会延迟。如果在 SDK 过程中（例如启动或安装库时）出现问题，则工作器会将其状态报告为运行状况不佳。如果启动时间增加，请在项目上启用 Cloud Build API，并使用以下参数提交您的流水线：--prebuild_sdk_container_engine=cloud_build。
由于 Dataflow Runner v2 使用检查点，因此每个工作器可能会在缓冲更改时等待长达 5 秒，然后再发送更改以进行进一步处理。因此，预计延迟时间约为 6 秒。