重复使用集群
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本页介绍了如何在 Cloud Data Fusion 中重复使用 Dataproc 集群来运行流水线。如需了解详情,请参阅何时重复使用集群和针对现有 Dataproc 集群运行流水线。
准备工作
- 您必须使用 Cloud Data Fusion 实例 6.5.0 或更高版本。
启用集群重复使用
您可以在新的计算配置文件中重复使用集群,也可以在已部署的流水线中使用的计算配置文件中重复使用集群。
在新配置文件中启用集群重复使用
前往您的实例:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
转到实例
依次点击系统管理 > 配置 > 系统计算配置文件。
点击创建新的付款资料。
选择 Dataproc 预配程序。
在为 Dataproc 创建配置文件窗口中,输入集群的详细信息:
- 在配置文件标签和配置文件名称字段中,输入用于标识配置文件的名称,例如
execution_compute-profile
。
- 在说明字段中,说明配置文件的用途,例如
Profile used for pipeline execution
。
- 在最大空闲时间字段中,输入一个值。如需了解详情,请参阅设置最大空闲时间。
- 将跳过集群删除字段设置为
True
。如需了解详情,请参阅何时重复使用集群。
- 可选:配置其他可选字段。
- 点击创建。
在已部署的流水线中启用集群重复使用
前往您的实例:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
转到实例
点击列表。
点击已部署标签页,然后点击流水线名称。部署的流水线会在 Cloud Data Fusion 网页界面的 Studio 页面上打开。
点击配置。
在 Compute config 窗口中,前往所选配置文件,然后点击自定义。
在随即打开的窗口中,输入以下值:
- 在最大空闲时间字段中,输入一个值。如需了解详情,请参阅设置最大空闲时间。
- 将跳过集群删除设置为
True
。如需了解详情,请参阅何时重复使用集群。
点击完成。
后续步骤
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-14。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-14。"],[],[]]