此页面由 Cloud Translation API 翻译。

管理计算配置文件

计算配置文件指定执行流水线的方式和位置。它包含设置和删除流水线的物理执行环境所需的任何信息。计算配置文件指定了预配工具名称和该预配工具的配置设置。

每个计算配置文件都有一个范围：系统或用户。您可以为其下的任何命名空间使用系统计算配置文件。用户计算配置文件位于命名空间中，并且只有该命名空间中的流水线可以使用用户计算配置文件。计算配置文件可分配给批处理流水线。将计算配置文件分配给流水线后，系统会使用配置文件中指定的预配程序创建将运行流水线的集群。

例如，管理员可以决定创建小型、中型和大型计算配置文件。他们使用在公司账号中创建和删除 Dataproc 集群所需的 Google Cloud凭据配置每个配置文件。 Google Cloud

小型配置文件配置为创建一个 5 节点集群。
中等配置文件配置为创建一个 20 节点集群。
大型配置文件配置为创建一个 50 个节点的集群。

管理员将小型配置文件分配给安排每小时处理少量数据的流水线。他们会将大型配置文件分配给安排每天对大量数据运行的流水线。

默认计算配置文件

默认情况下，Cloud Data Fusion 使用“Autoscale”作为计算配置文件。估算工作负载的适当集群工作器（节点）数量非常困难，整个流水线的单个集群大小通常不是理想之选。Dataproc 自动扩缩功能提供自动管理集群资源的机制，还启用了集群工作器虚拟机的自动扩缩功能。如需了解详情，请参阅自动扩缩。

在计算配置页面（您可以在其中查看配置文件列表）上，有一个总核心数列，其中显示了配置文件可扩容到的最大 vCPU 数量，例如 Up to 84。

系统和用户计算配置文件

计算配置文件用于指明在创建集群时要使用哪个预配程序，并指定集群配置。它们还会指定创建集群时应使用的预配程序配置。

如需创建系统计算配置文件，请前往 Cloud Data Fusion Studio 中的系统管理页面。此页面列出了所有系统计算配置文件，并允许您创建新的系统计算配置文件。
如需创建用户计算配置文件，请前往 Cloud Data Fusion Studio 中的命名空间管理页面，然后选择要用于创建配置文件的命名空间。然后，您可以创建一个仅在该命名空间中存在的配置文件。

计算配置文件分配

您可以通过以下方式向批处理流水线分配计算配置文件：

为 Cloud Data Fusion 实例分配默认配置文件。
为特定命名空间分配默认配置文件。
向批处理流水线分配配置文件，以供手动启动的运行作业使用。
将配置文件分配给流水线时间表。

如果在触发运行的安排中设置了配置文件，或者您手动运行流水线且有配置文件分配给该流水线，Cloud Data Fusion 会使用该计算配置文件。

如果未设置任何配置文件，Cloud Data Fusion 将使用命名空间的默认配置文件。如果未为命名空间设置默认配置文件，

Cloud Data Fusion 使用系统默认配置文件。如果未设置系统默认值，则使用内置配置文件。

分配默认计算配置

如需向 Cloud Data Fusion 命名空间或实例分配默认配置文件，请前往 Cloud Data Fusion Studio，然后依次点击系统管理 > 配置 > 系统计算配置文件。如需选择默认配置文件，请点击配置文件名称旁边的星形图标。

可选：使用偏好设置微服务设置默认个人资料

如需设置默认配置文件，请在 Cloud Data Fusion 实例上设置键为 system.profile.name 且值为 system:<profile-name> 的偏好设置。
如需为命名空间设置默认配置文件，请在所选命名空间中设置键为 system.profile.name 且值为 <scope>:<profile-name> 的偏好设置。

为手动运行分配计算配置文件

如需分配要用于手动流水线运行的配置文件，请按以下步骤操作：

前往流水线详情页面。
依次点击配置 > 计算配置。
选择一个付款资料，然后点击保存。每次手动运行流水线时，系统都会使用所选配置文件。

或者，您也可以使用偏好设置微服务，通过为键值为 system.profile.name 且值为 <scope>:<profile-name> 的 DataPipelineWorkflow 实体设置偏好设置，为手动运行设置配置文件。

将计算配置文件分配给时间表

每当您为流水线创建时间表时，都可以为其分配配置文件。每当时间表触发流水线运行时，它都会为该运行使用该配置文件。这适用于时间表和其他流水线触发的计划。

替换计算配置文件配置

创建配置文件后，您可以通过锁定每个配置设置来使其不可变。不过，如果配置设置未锁定，则可以在运行时替换这些设置。如需替换配置文件配置，请按以下步骤操作：

在“流水线列表”页面中，选择要运行的已部署流水线。
在“流水线详情”页面中，点击配置。
选择计算配置文件，然后点击自定义。
更改所需设置，然后点击保存。

您可以使用运行时参数和时间表属性来修改集群大小和其他设置。

如需替换使用的配置文件，请设置键为 system.profile.name 且值为 <scope>:<profile-name> 的运行时参数。
如需替换配置文件属性，请设置一个键为 system.profile.properties.<property-name> 且值等于该属性值的运行时参数。

例如，如需将 numWorkerssetting 替换为值 10，请设置键为 system.profile.properties.numWorkers 且值为 10 的偏好设置或运行时参数。

后续步骤

详细了解 Cloud Data Fusion 中的预配程序。
详细了解 Dataproc 集群配置。