在 Dataflow 中使用自定义容器
bookmark_borderbookmark
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
您可以通过提供自定义容器映像来自定义 Dataflow 流水线中用户代码的运行时环境。使用 Dataflow Runner v2 的流水线支持自定义容器。
当 Dataflow 启动工作器虚拟机时,它会使用 Docker 容器映像在工作器上启动容器化的 SDK 进程。默认情况下,流水线使用预构建的 Apache Beam 映像。但是,您可以为 Dataflow 作业提供自定义容器映像。您指定自定义容器映像后,Dataflow 会启动拉取指定映像的工作器。
出于以下原因,您可能会使用自定义容器:
- 预安装流水线依赖项以减少工作器启动时间。
- 预安装公共代码库中不可用的流水线依赖项。
- 在停用对公共代码库的访问权限时预安装流水线依赖项。出于安全考虑,系统可能会停用访问权限。
- 预先准备大型文件以减少工作器启动时间。
- 在后台启动第三方软件。
- 自定义执行环境。
如需详细了解 Apache Beam 中的自定义容器,请参阅 Apache Beam 自定义容器指南。如需查看使用自定义容器的 Python 流水线示例,请参阅 Dataflow 自定义容器。
后续步骤
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-01-23。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-01-23。"],[],[]]