创建 Dataproc 部分集群

为了缓解用户指定的虚拟机在特定区域和时间不可用（缺货）时的影响，Dataproc 允许您通过指定一个可接受的主工作器最小数量来请求创建 partial cluster，从而允许集群创建。

标准集群	部分集群
如果无法创建和初始化一个或多个主要工作器，则创建集群会失败。创建的工作器会继续运行并产生费用，直到用户删除为止。	如果可以创建指定的工作器数量下限，则系统会创建集群。失败（未初始化）的工作器会删除，并且不会产生费用。如果无法创建并初始化指定的工作器数量下限，则不会创建集群。创建的工作器不会删除，以便进行调试。
优化了集群创建时间。	由于所有节点都必须报告配置状态，因此集群创建时间可能会更长。
可以创建单节点集群。	无法创建单节点集群。

自动扩缩

将自动扩缩与部分集群创建搭配使用，以确保创建目标（完整）数量的主要工作器。如果工作负载需要失败的工作器，自动扩缩功能会尝试在后台获取这些工作器。

以下是自动扩缩政策示例，它会重试，直到主要工作器实例总数达到目标大小 10 为止。政策的 minInstances 和 maxInstances 与在集群创建时指定的主要工作器数量的下限和总数相匹配（请参阅创建部分集群）。将 scaleDownFactor 设置为 0 可防止集群从 10 缩减到 8，并有助于将工作器数量保持在 10 个工作器的上限。

workerConfig:
  minInstances: 8
  maxInstances: 10
basicAlgorithm:
  cooldownPeriod: 2m
  yarnConfig:
    scaleUpFactor: 1
    scaleDownFactor: 0
    gracefulDecommissionTimeout: 1h

创建部分集群

您可以使用 Google Cloud CLI 或 Dataproc API 创建 Dataproc 部分集群。

gcloud

如需在命令行上创建 Dataproc 部分集群，请在本地终端窗口或 Cloud Shell 中运行以下 gcloud dataproc clusters create 命令。

gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT \
    --region=REGION \
    --num-workers=NUM_WORKERS \
    --min-num-workers=MIN_NUM_WORKERS \
    other args ...

替换以下内容：

CLUSTER_NAME：集群名称必须以小写字母开头，后面最多可跟 51 个小写字母、数字和连字符，但不能以连字符结尾。
PROJECT：指定与作业集群关联的项目。
REGION：指定作业集群所在的 Compute Engine 区域。
NUM_WORKERS：要创建的集群中的主要工作器总数（如果可用）。
MIN_NUM_WORKERS：如果无法创建指定的工作器总数 (NUM_WORKERS)，则要创建的主工作器数量下限。如果无法创建最少数量的主要工作器（创建的工作器不会被删除，以便进行调试），则集群创建会失败。如果省略此标志，系统会尝试使用总主工作器数量 (NUM_WORKERS) 创建标准集群。

REST

如需创建 Dataproc 部分集群，请在 clusters.create 请求的 workerConfig.minNumInstances 字段中指定主要工作器的最小数量。

显示已配置的工作器数量

创建集群后，您可以运行以下 gcloud CLI 命令，以列出集群中配置的工作器数量，包括任何辅助工作器。

gcloud dataproc clusters list \
    --project=PROJECT \
    --region=REGION \
    --filter=clusterName=CLUSTER_NAME