如何创建 Dataproc 集群
要求:
名称:集群名称必须以小写字母开头,后面最多可跟 51 个小写字母、数字和连字符,但不能以连字符结尾。
集群区域:您必须为集群指定一个 Compute Engine 区域(例如
us-east1
或europe-west1
),以便在该区域内隔离集群资源(例如存储在 Cloud Storage 中的虚拟机实例和集群元数据)。连接:Dataproc 集群中的 Compute Engine 虚拟机实例(虚拟机)包含主虚拟机和工作器虚拟机,该实例需要具有完整的内部 IP 网络跨连接。
default
VPC 网络可提供此连接(请参阅 Dataproc 集群网络配置)。
gcloud
如需在命令行上创建 Dataproc 集群,请在终端窗口或 Cloud Shell 中本地运行 gcloud dataproc 集群创建命令。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
该命令会利用适用于您主虚拟机实例和工作器虚拟机实例、磁盘大小和类型、网络类型、部署集群的区域和区域的默认 Dataproc 服务设置以及其他集群设置创建一个集群。要了解如何使用命令行标记自定义集群设置,请参阅 gcloud dataproc clusters create 命令。
使用 YAML 文件创建集群
- 运行以下
gcloud
命令将现有 Dataproc 集群的配置导出到cluster.yaml
文件中。gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- 通过导入 YAML 文件配置来创建新集群。
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
注意:在执行导出操作的过程中,特定于集群的字段(例如集群名称)、仅限输出的字段和自动应用的标签会被过滤掉。在用于创建集群的导入的 YAML 文件中,不允许使用这些字段。
REST
本部分介绍如何创建采用所需值和默认配置(1 个主节点,2 个工作器节点)的集群。
在使用任何请求数据之前,请先进行以下替换:
- CLUSTER_NAME:集群名称
- PROJECT:Google Cloud 项目 ID
- REGION:要创建集群的可用 Compute Engine 区域。
- ZONE:集群将在所选区域内的可选可用区中创建。
HTTP 方法和网址:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
请求 JSON 正文:
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
控制台
在浏览器中打开 Google Cloud 控制台中的 Dataproc 创建集群页面,然后在在 Compute Engine 上创建 Dataproc 集群页面的Compute Engine 行中,点击“集群”对应的 Create(创建)。选择“设置集群”面板,其中的字段填充默认值。您可以选择每个面板,然后确认或更改默认值以自定义您的集群。
单击创建以创建集群。集群名称显示在集群页面中,预配集群后,其状态会更新为“正在运行”。点击集群名称以打开集群详情页面,您可以在其中检查集群的作业、实例和配置设置,还可以连接到集群上运行的网页界面。