计算配置文件指定执行流水线的方式和位置。它封装了设置和删除流水线物理执行环境所需的任何信息。计算配置文件指定 provisioner 名称以及该预配工具的配置设置。
每个计算配置文件都有一个范围:system 或 user。您可以为其下的任何命名空间使用系统计算配置文件。用户计算配置文件 命名空间,并且只有该命名空间中的流水线才能使用用户计算配置文件。 计算配置文件可以分配给批处理流水线。将计算配置文件分配给流水线后,系统会使用配置文件中指定的预配程序创建将运行流水线的集群。
例如,管理员可以决定创建小型、中型和大型计算配置文件。他们使用在公司 Google Cloud 账号中创建和删除 Dataproc 集群所需的 Google Cloud 凭据配置每个配置文件。
- 小型配置文件配置为创建包含 5 个节点的集群。
- 中等配置文件配置为创建一个 20 节点集群。
- 大型配置文件配置为创建一个 50 个节点的集群。
管理员将小型配置文件分配给计划 每小时运行一次少量数据。他们会将大型配置文件分配给安排每天对大量数据运行的流水线。
默认计算配置文件
默认情况下,Cloud Data Fusion 使用自动扩缩作为计算配置文件。 估算工作负载的适当集群工作器(节点)数量如下: 整个流水线的单个集群规模通常并不理想。 Dataproc 自动扩缩功能提供自动管理集群资源的机制,还启用了集群工作器虚拟机的自动扩缩功能。有关 请参阅自动扩缩。
在计算配置页面(您可以在其中查看配置文件列表)上,有一个总核心数列,其中显示了配置文件可扩容到的最大 vCPU 数量,例如 Up to 84
。
系统和用户计算配置文件
计算配置文件用于指明在创建集群时要使用哪个预配程序,并指定集群配置。还会指定预配工具 和创建集群时使用的配置
- 如需创建系统计算配置文件,请前往 Cloud Data Fusion Studio 中的系统管理页面。本页面列出了所有系统计算配置文件 并用于创建新的系统计算配置文件
- 如需创建用户计算配置文件,请前往 Cloud Data Fusion Studio 中的命名空间管理页面,然后选择要用于创建配置文件的命名空间。然后,您可以创建一个仅在该命名空间中存在的配置文件。
计算配置文件分配
您可以通过以下方式向批处理流水线分配计算配置文件:
- 为 Cloud Data Fusion 实例分配默认配置文件。
- 为特定命名空间分配默认配置文件。
- 为批处理流水线分配一个配置文件,以用于已启动的运行作业 。
- 为流水线时间表分配配置文件。
如果在触发运行的安排中设置了配置文件,或者您手动运行流水线且有配置文件分配给该流水线,Cloud Data Fusion 会使用该计算配置文件。
如果未设置配置文件,则 Cloud Data Fusion 会将默认配置文件用于 命名空间。如果没有为命名空间设置默认配置文件,
Cloud Data Fusion 使用系统默认配置文件。如果系统默认 系统会使用内置配置文件。
分配默认计算配置
如需向 Cloud Data Fusion 命名空间或实例分配默认配置文件,请前往 Cloud Data Fusion Studio,然后依次点击系统管理 > 配置 > 系统计算配置文件。要选择 默认,请点击个人资料旁边的 星形图标 名称。
可选:使用偏好设置微服务设置默认个人资料
- 如需设置默认配置文件,请在 Cloud Data Fusion 上设置偏好设置
键为 system.profile.name 且值为
system:<profile-name>
的实例。 - 如需为命名空间设置默认配置文件,请在所选命名空间上设置键为
system.profile.name
且值为<scope>:<profile-name>
的偏好设置。
为手动运行分配计算配置文件
如需为手动流水线运行分配要使用的配置文件,请按以下步骤操作:
- 前往流水线详情页面。
- 点击配置 >计算配置。
- 选择配置文件,然后点击保存。每次手动运行流水线时,系统都会使用所选配置文件。
或者,您也可以使用“Preferences Microservices”来为
通过对具有键的 DataPipelineWorkflow
实体设置偏好设置来手动运行
system.profile.name
,值为 <scope>:<profile-name>
。
将计算配置文件分配给时间表
每次为流水线创建时间表时,您都可以为其分配配置文件。 每当时间表触发流水线运行时,它都会为该运行使用该配置文件。对于时间表和其他流水线的时间表 触发。
替换计算配置文件配置
创建配置文件后,每个配置设置均可通过以下方法设置为不可变: 我就会锁定它不过,如果未锁定配置设置 会在运行时被替换如需替换配置文件配置,请按以下步骤操作:
- 在“流水线列表”页面中,选择要运行的已部署流水线。
- 在“流水线详情”页面中,点击配置。
- 选择计算配置文件,然后点击自定义。
- 更改所需设置,然后点击保存。
您可以使用运行时参数和时间表属性来修改集群大小和其他设置。
- 要替换使用的配置文件,请使用 键设置运行时参数
system.profile.name
,值为<scope>:<profile-name>
。 - 如需替换配置文件属性,请设置一个键为
system.profile.properties.<property-name>
且值等于该属性值的运行时参数。
例如,如需将 numWorkerssetting
替换成值 10
,请将
带有该键的偏好设置或运行时参数
system.profile.properties.numWorkers
和值 10
。
后续步骤
- 详细了解 Cloud Data Fusion 中的预配工具。
- 详细了解 Dataproc 集群配置。