计算配置文件指定执行流水线的方式和位置。它包含设置和删除流水线的物理执行环境所需的任何信息。计算配置文件指定了预配工具名称和该预配工具的配置设置。
每个计算配置文件都有一个范围:系统或用户。您可以为其下的任何命名空间使用系统计算配置文件。用户计算配置文件位于命名空间中,并且只有该命名空间中的流水线可以使用用户计算配置文件。计算配置文件可分配给批处理流水线。将计算配置文件分配给流水线后,系统会使用配置文件中指定的预配程序创建将运行流水线的集群。
例如,管理员可以决定创建小型、中型和大型计算配置文件。他们使用在公司账号中创建和删除 Dataproc 集群所需的 Google Cloud凭据配置每个配置文件。 Google Cloud
- 小型配置文件配置为创建一个 5 节点集群。
- 中等配置文件配置为创建一个 20 节点集群。
- 大型配置文件配置为创建一个 50 个节点的集群。
管理员将小型配置文件分配给安排每小时处理少量数据的流水线。他们会将大型配置文件分配给安排每天对大量数据运行的流水线。
默认计算配置文件
默认情况下,Cloud Data Fusion 使用“Autoscale”作为计算配置文件。估算工作负载的适当集群工作器(节点)数量非常困难,整个流水线的单个集群大小通常不是理想之选。Dataproc 自动扩缩功能提供自动管理集群资源的机制,还启用了集群工作器虚拟机的自动扩缩功能。如需了解详情,请参阅自动扩缩。
在计算配置页面(您可以在其中查看配置文件列表)上,有一个总核心数列,其中显示了配置文件可扩容到的最大 vCPU 数量,例如 Up to 84
。
系统和用户计算配置文件
计算配置文件用于指明在创建集群时要使用哪个预配程序,并指定集群配置。它们还会指定创建集群时应使用的预配程序配置。
- 如需创建系统计算配置文件,请前往 Cloud Data Fusion Studio 中的系统管理页面。此页面列出了所有系统计算配置文件,并允许您创建新的系统计算配置文件。
- 如需创建用户计算配置文件,请前往 Cloud Data Fusion Studio 中的命名空间管理页面,然后选择要用于创建配置文件的命名空间。然后,您可以创建一个仅在该命名空间中存在的配置文件。
计算配置文件分配
您可以通过以下方式向批处理流水线分配计算配置文件:
- 为 Cloud Data Fusion 实例分配默认配置文件。
- 为特定命名空间分配默认配置文件。
- 向批处理流水线分配配置文件,以供手动启动的运行作业使用。
- 将配置文件分配给流水线时间表。
如果在触发运行的安排中设置了配置文件,或者您手动运行流水线且有配置文件分配给该流水线,Cloud Data Fusion 会使用该计算配置文件。
如果未设置任何配置文件,Cloud Data Fusion 将使用命名空间的默认配置文件。如果未为命名空间设置默认配置文件,
Cloud Data Fusion 使用系统默认配置文件。如果未设置系统默认值,则使用内置配置文件。
分配默认计算配置
如需向 Cloud Data Fusion 命名空间或实例分配默认配置文件,请前往 Cloud Data Fusion Studio,然后依次点击系统管理 > 配置 > 系统计算配置文件。如需选择默认配置文件,请点击配置文件名称旁边的 星形图标。
可选:使用偏好设置微服务设置默认个人资料
- 如需设置默认配置文件,请在 Cloud Data Fusion 实例上设置键为 system.profile.name 且值为
system:<profile-name>
的偏好设置。 - 如需为命名空间设置默认配置文件,请在所选命名空间中设置键为
system.profile.name
且值为<scope>:<profile-name>
的偏好设置。
为手动运行分配计算配置文件
如需分配要用于手动流水线运行的配置文件,请按以下步骤操作:
- 前往流水线详情页面。
- 依次点击配置 > 计算配置。
- 选择一个付款资料,然后点击保存。每次手动运行流水线时,系统都会使用所选配置文件。
或者,您也可以使用偏好设置微服务,通过为键值为 system.profile.name
且值为 <scope>:<profile-name>
的 DataPipelineWorkflow
实体设置偏好设置,为手动运行设置配置文件。
将计算配置文件分配给时间表
每当您为流水线创建时间表时,都可以为其分配配置文件。每当时间表触发流水线运行时,它都会为该运行使用该配置文件。这适用于时间表和其他流水线触发的计划。
替换计算配置文件配置
创建配置文件后,您可以通过锁定每个配置设置来使其不可变。不过,如果配置设置未锁定,则可以在运行时替换这些设置。如需替换配置文件配置,请按以下步骤操作:
- 在“流水线列表”页面中,选择要运行的已部署流水线。
- 在“流水线详情”页面中,点击配置。
- 选择计算配置文件,然后点击自定义。
- 更改所需设置,然后点击保存。
您可以使用运行时参数和时间表属性来修改集群大小和其他设置。
- 如需替换使用的配置文件,请设置键为
system.profile.name
且值为<scope>:<profile-name>
的运行时参数。 - 如需替换配置文件属性,请设置一个键为
system.profile.properties.<property-name>
且值等于该属性值的运行时参数。
例如,如需将 numWorkerssetting
替换为值 10
,请设置键为 system.profile.properties.numWorkers
且值为 10
的偏好设置或运行时参数。
后续步骤
- 详细了解 Cloud Data Fusion 中的预配程序。
- 详细了解 Dataproc 集群配置。