Dataproc 本地 SSD

为了补充启动磁盘,您可以将本地固态硬盘(本地 SSD)挂接到集群中的主节点、主要工作器节点和辅助工作器节点。为集群提供本地 SSD 后,HDFS 和暂存数据(如 Shuffle 输出)将使用本地 SSD 而不是永久性启动磁盘。

  • 与永久性磁盘相比,本地 SSD 的读写速度更快(请参阅本地 SSD 性能)。
  • 每个本地 SSD 的 375GB 大小都是固定的,但您可以挂接多个本地 SSD 以增加 SSD 存储空间(请参阅本地 SSD 简介)。
  • 每个本地 SSD 都会装载到 Dataproc 集群节点的 /mnt/<id>
  • 本地 SSD 使用 ext4 作为默认文件系统。

使用本地 SSD

gcloud 命令

gcloud dataproc clusters create 命令与 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 标志结合使用,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。 Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。将 gcloud dataproc clusters create 命令与 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 标志结合使用,可以为主节点、主要工作器节点和辅助工作器节点指定本地 SSD 接口。

示例

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。 Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。在 cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 localSsdInterface 字段,可以指定“SCSI”或“NVME”接口,以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

控制台

创建集群,并将本地 SSD 挂接到 Google Cloud 控制台的 Dataproc 创建集群页面的“配置节点”面板中的主节点、主要工作器节点和辅助工作器节点。