管理计算配置文件

计算配置文件指定执行流水线的方式和位置。它包含设置和删除流水线的物理执行环境所需的任何信息。计算配置文件指定了预配工具名称和该预配工具的配置设置。

每个计算配置文件都有一个范围:系统用户。您可以为其下的任何命名空间使用系统计算配置文件。用户计算配置文件位于命名空间中,并且只有该命名空间中的流水线可以使用用户计算配置文件。计算配置文件可分配给批处理流水线。将计算配置文件分配给流水线后,系统会使用配置文件中指定的预配程序创建将运行流水线的集群。

例如,管理员可以决定创建小型、中型和大型计算配置文件。他们使用在公司账号中创建和删除 Dataproc 集群所需的 Google Cloud凭据配置每个配置文件。 Google Cloud

  • 小型配置文件配置为创建一个 5 节点集群。
  • 中等配置文件配置为创建一个 20 节点集群。
  • 大型配置文件配置为创建一个 50 个节点的集群。

管理员将小型配置文件分配给安排每小时处理少量数据的流水线。他们会将大型配置文件分配给安排每天对大量数据运行的流水线。

默认计算配置文件

默认情况下,Cloud Data Fusion 使用“Autoscale”作为计算配置文件。估算工作负载的适当集群工作器(节点)数量非常困难,整个流水线的单个集群大小通常不是理想之选。Dataproc 自动扩缩功能提供自动管理集群资源的机制,还启用了集群工作器虚拟机的自动扩缩功能。如需了解详情,请参阅自动扩缩

计算配置页面(您可以在其中查看配置文件列表)上,有一个总核心数列,其中显示了配置文件可扩容到的最大 vCPU 数量,例如 Up to 84

系统和用户计算配置文件

计算配置文件用于指明在创建集群时要使用哪个预配程序,并指定集群配置。它们还会指定创建集群时应使用的预配程序配置。

  • 如需创建系统计算配置文件,请前往 Cloud Data Fusion Studio 中的系统管理页面。此页面列出了所有系统计算配置文件,并允许您创建新的系统计算配置文件。
  • 如需创建用户计算配置文件,请前往 Cloud Data Fusion Studio 中的命名空间管理页面,然后选择要用于创建配置文件的命名空间。然后,您可以创建一个仅在该命名空间中存在的配置文件。

计算配置文件分配

您可以通过以下方式向批处理流水线分配计算配置文件:

  • 为 Cloud Data Fusion 实例分配默认配置文件。
  • 为特定命名空间分配默认配置文件。
  • 向批处理流水线分配配置文件,以供手动启动的运行作业使用。
  • 将配置文件分配给流水线时间表。

如果在触发运行的安排中设置了配置文件,或者您手动运行流水线且有配置文件分配给该流水线,Cloud Data Fusion 会使用该计算配置文件。

如果未设置任何配置文件,Cloud Data Fusion 将使用命名空间的默认配置文件。如果未为命名空间设置默认配置文件,

Cloud Data Fusion 使用系统默认配置文件。如果未设置系统默认值,则使用内置配置文件。

分配默认计算配置

如需向 Cloud Data Fusion 命名空间或实例分配默认配置文件,请前往 Cloud Data Fusion Studio,然后依次点击系统管理 > 配置 > 系统计算配置文件。如需选择默认配置文件,请点击配置文件名称旁边的 星形图标。

可选:使用偏好设置微服务设置默认个人资料

  • 如需设置默认配置文件,请在 Cloud Data Fusion 实例上设置键为 system.profile.name 且值为 system:<profile-name> 的偏好设置。
  • 如需为命名空间设置默认配置文件,请在所选命名空间中设置键为 system.profile.name 且值为 <scope>:<profile-name> 的偏好设置。

为手动运行分配计算配置文件

如需分配要用于手动流水线运行的配置文件,请按以下步骤操作:

  1. 前往流水线详情页面。
  2. 依次点击配置 > 计算配置
  3. 选择一个付款资料,然后点击保存。每次手动运行流水线时,系统都会使用所选配置文件。

或者,您也可以使用偏好设置微服务,通过为键值为 system.profile.name 且值为 <scope>:<profile-name>DataPipelineWorkflow 实体设置偏好设置,为手动运行设置配置文件。

将计算配置文件分配给时间表

每当您为流水线创建时间表时,都可以为其分配配置文件。每当时间表触发流水线运行时,它都会为该运行使用该配置文件。这适用于时间表和其他流水线触发的计划。

替换计算配置文件配置

创建配置文件后,您可以通过锁定每个配置设置来使其不可变。不过,如果配置设置未锁定,则可以在运行时替换这些设置。如需替换配置文件配置,请按以下步骤操作:

  1. 在“流水线列表”页面中,选择要运行的已部署流水线。
  2. 在“流水线详情”页面中,点击配置
  3. 选择计算配置文件,然后点击自定义
  4. 更改所需设置,然后点击保存

您可以使用运行时参数和时间表属性来修改集群大小和其他设置。

  • 如需替换使用的配置文件,请设置键为 system.profile.name 且值为 <scope>:<profile-name> 的运行时参数。
  • 如需替换配置文件属性,请设置一个键为 system.profile.properties.<property-name> 且值等于该属性值的运行时参数。

例如,如需将 numWorkerssetting 替换为值 10,请设置键为 system.profile.properties.numWorkers 且值为 10 的偏好设置或运行时参数。

后续步骤