管理计算配置文件

计算配置文件指定执行流水线的方式和位置。它封装了设置和删除流水线物理执行环境所需的任何信息。计算配置文件指定 provisioner 名称以及该预配工具的配置设置。

每个计算配置文件都有一个范围:systemuser。您可以为其下的任何命名空间使用系统计算配置文件。用户计算配置文件 命名空间,并且只有该命名空间中的流水线才能使用用户计算配置文件。 计算配置文件可以分配给批处理流水线。将计算配置文件分配给流水线后,系统会使用配置文件中指定的预配程序创建将运行流水线的集群。

例如,管理员可以决定创建小型、中型和大型计算配置文件。他们使用在公司 Google Cloud 账号中创建和删除 Dataproc 集群所需的 Google Cloud 凭据配置每个配置文件。

  • 小型配置文件配置为创建包含 5 个节点的集群。
  • 中等配置文件配置为创建一个 20 节点集群。
  • 大型配置文件配置为创建一个 50 个节点的集群。

管理员将小型配置文件分配给计划 每小时运行一次少量数据。他们会将大型配置文件分配给安排每天对大量数据运行的流水线。

默认计算配置文件

默认情况下,Cloud Data Fusion 使用自动扩缩作为计算配置文件。 估算工作负载的适当集群工作器(节点)数量如下: 整个流水线的单个集群规模通常并不理想。 Dataproc 自动扩缩功能提供自动管理集群资源的机制,还启用了集群工作器虚拟机的自动扩缩功能。有关 请参阅自动扩缩

计算配置页面(您可以在其中查看配置文件列表)上,有一个总核心数列,其中显示了配置文件可扩容到的最大 vCPU 数量,例如 Up to 84

系统和用户计算配置文件

计算配置文件用于指明在创建集群时要使用哪个预配程序,并指定集群配置。还会指定预配工具 和创建集群时使用的配置

  • 如需创建系统计算配置文件,请前往 Cloud Data Fusion Studio 中的系统管理页面。本页面列出了所有系统计算配置文件 并用于创建新的系统计算配置文件
  • 如需创建用户计算配置文件,请前往 Cloud Data Fusion Studio 中的命名空间管理页面,然后选择要用于创建配置文件的命名空间。然后,您可以创建一个仅在该命名空间中存在的配置文件。

计算配置文件分配

您可以通过以下方式向批处理流水线分配计算配置文件:

  • 为 Cloud Data Fusion 实例分配默认配置文件。
  • 为特定命名空间分配默认配置文件。
  • 为批处理流水线分配一个配置文件,以用于已启动的运行作业 。
  • 为流水线时间表分配配置文件。

如果在触发运行的安排中设置了配置文件,或者您手动运行流水线且有配置文件分配给该流水线,Cloud Data Fusion 会使用该计算配置文件。

如果未设置配置文件,则 Cloud Data Fusion 会将默认配置文件用于 命名空间。如果没有为命名空间设置默认配置文件,

Cloud Data Fusion 使用系统默认配置文件。如果系统默认 系统会使用内置配置文件。

分配默认计算配置

如需向 Cloud Data Fusion 命名空间或实例分配默认配置文件,请前往 Cloud Data Fusion Studio,然后依次点击系统管理 > 配置 > 系统计算配置文件。要选择 默认,请点击个人资料旁边的 星形图标 名称。

可选:使用偏好设置微服务设置默认个人资料

  • 如需设置默认配置文件,请在 Cloud Data Fusion 上设置偏好设置 键为 system.profile.name 且值为 system:<profile-name> 的实例。
  • 如需为命名空间设置默认配置文件,请在所选命名空间上设置键为 system.profile.name 且值为 <scope>:<profile-name> 的偏好设置。

为手动运行分配计算配置文件

如需为手动流水线运行分配要使用的配置文件,请按以下步骤操作:

  1. 前往流水线详情页面。
  2. 点击配置 >计算配置
  3. 选择配置文件,然后点击保存。每次手动运行流水线时,系统都会使用所选配置文件。

或者,您也可以使用“Preferences Microservices”来为 通过对具有键的 DataPipelineWorkflow 实体设置偏好设置来手动运行 system.profile.name,值为 <scope>:<profile-name>

将计算配置文件分配给时间表

每次为流水线创建时间表时,您都可以为其分配配置文件。 每当时间表触发流水线运行时,它都会为该运行使用该配置文件。对于时间表和其他流水线的时间表 触发。

替换计算配置文件配置

创建配置文件后,每个配置设置均可通过以下方法设置为不可变: 我就会锁定它不过,如果未锁定配置设置 会在运行时被替换如需替换配置文件配置,请按以下步骤操作:

  1. 在“流水线列表”页面中,选择要运行的已部署流水线。
  2. 在“流水线详情”页面中,点击配置
  3. 选择计算配置文件,然后点击自定义
  4. 更改所需设置,然后点击保存

您可以使用运行时参数和时间表属性来修改集群大小和其他设置。

  • 要替换使用的配置文件,请使用 键设置运行时参数 system.profile.name,值为 <scope>:<profile-name>
  • 如需替换配置文件属性,请设置一个键为 system.profile.properties.<property-name> 且值等于该属性值的运行时参数。

例如,如需将 numWorkerssetting 替换成值 10,请将 带有该键的偏好设置或运行时参数 system.profile.properties.numWorkers 和值 10

后续步骤