Dataproc 本地 SSD

为了补充启动磁盘,您可以将本地固态硬盘(本地 SSD)挂接到集群中的主节点、主要工作器节点和辅助工作器节点。与永久性磁盘相比,本地 SSD 的读写速度更快。每个本地 SSD 的 375GB 大小都是固定的,但您可以挂接多个本地 SSD 以增加 SSD 存储空间(请参阅添加本地 SSD)。每个本地 SSD 都会装载到 Cloud Dataproc 集群节点的 /mnt/<id>。为集群提供本地 SSD 后,HDFS 和暂存数据(如 Shuffle 输出)将使用本地 SSD 而不是永久性启动磁盘。

使用本地 SSD

gcloud 命令

gcloud dataproc clusters create 命令与 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 标志结合使用,可以将本地 SSD 分别挂接到集群的主节点、主要工作器节点和辅助(抢占式)工作器节点。

示例

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    ... other args ...

REST API

cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 分别挂接到集群的主节点、主要工作器节点和辅助(抢占式)工作器节点。

控制台

从 Google Cloud Console 的 Dataproc 创建集群页面创建集群并将本地 SSD 挂接到主要工作器节点。