English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

联系我们免费开始使用吧

在 Dataflow 中使用自定义容器

您可以通过提供自定义容器映像来自定义 Dataflow 流水线中用户代码的运行时环境。使用 Dataflow Runner v2 的流水线支持自定义容器。

当 Dataflow 启动工作器虚拟机时，它会使用 Docker 容器映像在工作器上启动容器化的 SDK 进程。默认情况下，流水线使用预构建的 Apache Beam 映像。但是，您可以为 Dataflow 作业提供自定义容器映像。您指定自定义容器映像后，Dataflow 会启动拉取指定映像的工作器。

出于以下原因，您可能会使用自定义容器：

预安装流水线依赖项以减少工作器启动时间。
预安装公共代码库中不可用的流水线依赖项。
在关闭对公共代码库的访问权限时，预安装流水线依赖项。出于安全原因，访问权限可能会被关闭。
预先准备大型文件以减少工作器启动时间。
在后台启动第三方软件。
自定义执行环境。

如需详细了解 Apache Beam 中的自定义容器，请参阅 Apache Beam 自定义容器指南。如需查看使用自定义容器的 Python 流水线示例，请参阅 Dataflow 自定义容器。

后续步骤

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-10-06。