创建集群

要创建 Cloud Dataproc 集群,您可以采用以下几种方式:使用 Cloud Dataproc API clusters.create HTTP 或程序化请求、在本地终端窗口或 Cloud Shell 中使用 Cloud SDK gcloud 命令行工具,或使用在本地浏览器中打开的 Google Cloud Platform Console

global 区域是默认设置。这是一个特殊的多区域端点,它可以将实例部署到用户指定的任何 Compute Engine 区域。您还可以指定不同的区域(例如 us-east1europe-west1),以便在用户指定的区域内隔离 Cloud Dataproc 使用的资源(包括虚拟机实例和 Cloud Storage)以及元数据存储位置。请参阅区域端点以详细了解全球和区域端点之间的差异。如需了解如何选择区域,请参阅可用的区域和地区。您还可以运行 gcloud compute regions list 命令来查看可用区域的列表。

Cloud Dataproc 集群中的 Compute Engine 虚拟机实例 (VM)(包含主实例和工作器虚拟机)需要彼此之间的完整内部 IP 网络访问权限。可用于(并且通常用于)创建集群的 default 网络可帮助您确保实现这种访问。如果您想为 Cloud Dataproc 集群创建自己的网络,请参阅 Cloud Dataproc 集群网络配置

创建 Cloud Dataproc 集群

gcloud 命令

要使用命令行创建 Cloud Dataproc 集群,请在终端窗口或 Cloud Shell 中本地运行 Cloud SDK gcloud dataproc clusters create 命令。
gcloud dataproc clusters create cluster-name
以上命令创建的集群将为主实例和工作器虚拟机实例、磁盘大小和类型、网络类型、部署集群的区域和地区以及其他集群设置使用默认 Cloud Dataproc 服务设置。如需了解如何使用命令行标志自定义集群设置,请参阅 gcloud dataproc clusters create 命令。

使用 YAML 文件测试版创建集群

  1. 运行以下 gcloud 命令将现有 Cloud Dataproc 集群的配置导出到 YAML 文件中。
    gcloud beta dataproc clusters export my-existing-cluster --destination cluster.yaml
    
  2. 通过导入 YAML 文件配置来创建新集群。
    gcloud beta dataproc clusters import my-new-cluster --source cluster.yaml
    

注意:在执行导出操作的过程中,特定于集群的字段(例如集群名称)、仅限输出的字段和自动应用的标签会被过滤掉。在用于创建集群的导入的 YAML 文件中,不允许使用这些字段。

REST API

使用 Cloud Dataproc clusters.create API 创建集群。可创建集群的简单 POST 请求如下:
POST /v1/projects/my-project/regions/global/clusters/
{
  "projectId": "my-project",
  "clusterName": "cluster-1",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    }
  }
}

Console

在浏览器内的 GCP Console 中打开 Cloud Dataproc 创建集群页面。

以上屏幕截图显示了创建集群页面,在此页面中,已经为新的“cluster-1”集群自动填写了默认字段。您可以展开高级选项面板,为集群指定一个或多个抢占式工作器节点、暂存存储分区、网络、Cloud Dataproc 映像版本、初始化操作以及项目级层访问权限。是否提供这些值取决于您的选择。

如果您没有为这些选项提供设置,则会创建默认集群,该集群不含抢占式工作器节点并且具有自动创建的暂存存储分区、默认网络以及最新发布的 Cloud Dataproc 映像版本。

一旦您确信页面上的所有字段都已正确填写,请点击创建以创建集群。集群名称显示在集群页面中,集群创建后,其状态将更新为“正在运行”。

点击集群名称以打开集群详情页面。此页面将打开,并选中“概览”标签和 CPU 利用率图表。您还可以选择显示集群的网络和磁盘图表。
您可以通过其他标签检查集群的作业、实例和配置设置。例如,您可以使用“虚拟机实例”标签,通过 SSH 连接集群的主节点。您可以在“配置”标签中点击修改以修改集群的设置 - 例如,通过更改集群中的标准或抢占式工作器节点的数量来扩展或缩减集群。
此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Cloud Dataproc 文档
需要帮助?请访问我们的支持页面