在 Dataflow 中使用自定义容器

您可以通过提供自定义容器映像来自定义 Dataflow 流水线中用户代码的运行时环境。使用 Dataflow Runner v2 的流水线支持自定义容器。

当 Dataflow 启动工作器虚拟机时,它会使用 Docker 容器映像在工作器上启动容器化的 SDK 进程。默认情况下,流水线使用预构建的 Apache Beam 映像。但是,您可以为 Dataflow 作业提供自定义容器映像。您指定自定义容器映像后,Dataflow 会启动拉取指定映像的工作器。

出于以下原因,您可能会使用自定义容器:

  • 预安装流水线依赖项以减少工作器启动时间。
  • 预安装公共代码库中不可用的流水线依赖项。
  • 停用对公共代码库的访问权限时预安装流水线依赖项。出于安全考虑,系统可能会关闭访问权限。
  • 预先准备大型文件以减少工作器启动时间。
  • 在后台启动第三方软件。
  • 自定义执行环境。

如需详细了解 Apache Beam 中的自定义容器,请参阅 Apache Beam 自定义容器指南。如需查看使用自定义容器的 Python 流水线示例,请参阅 Dataflow 自定义容器

后续步骤