Dataproc 本地 SSD

作为启动磁盘的补充,您可以将本地固态硬盘(本地 SSD)挂接到集群中的主节点、主工作器节点和辅助工作器节点。向集群提供本地 SSD 时,HDFS 和暂存数据(例如 shuffle 输出)均使用本地 SSD 而不是永久性启动磁盘。

  • 与永久性磁盘相比,本地 SSD 的读写速度更快(请参阅本地 SSD 性能)。
  • 每个本地 SSD 的大小为 375GB,但您可以挂接多个本地 SSD 以增加 SSD 存储空间(请参阅本地 SSD 简介)。
  • 每个本地 SSD 都会装载到 Dataproc 集群节点中的 /mnt/<id>
  • 本地 SSD 使用 ext4 作为默认文件系统。

使用本地 SSD

gcloud 命令

gcloud dataproc clusters create 命令与 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 标志结合使用,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失内存极速)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。默认的 Dataproc 集群虚拟机本地 SSD 接口是 SCSI 接口。将 gcloud dataproc clusters create 命令与 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 标志结合使用,可为主节点、主节点和辅助工作器节点指定本地 SSD 接口。

示例

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失内存极速)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。默认的 Dataproc 集群虚拟机本地 SSD 接口是 SCSI 接口。在 cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 localSsdInterface 字段,以指定“SCSI”或“NVME”接口,以将本地 SSD 挂接到集群的主节点、主工作器节点和辅助工作器节点。

控制台

从 Google Cloud 控制台的 Dataproc 创建集群页面的“配置节点”面板中创建集群,并将本地 SSD 挂接到主节点、主要工作器节点和辅助工作器节点。