Dataproc 本地 SSD

为了补充启动磁盘,您可以将本地固态硬盘(本地 SSD)挂接到集群中的主节点、主要工作器节点和辅助工作器节点。为集群提供本地 SSD 后,HDFS 和暂存数据(如 Shuffle 输出)将使用本地 SSD 而不是永久性启动磁盘。

  • 与永久性磁盘相比,本地 SSD 的读写速度更快(请参阅本地 SSD 性能)。
  • 每个本地 SSD 的 375GB 大小都是固定的,但您可以挂接多个本地 SSD 以增加 SSD 存储空间(请参阅本地 SSD 简介)。
  • 每个本地 SSD 都会装载到 Dataproc 集群节点的 /mnt/<id>
  • 本地 SSD 使用 ext4 作为默认文件系统。

使用本地 SSD

gcloud 命令

gcloud dataproc clusters create 命令与 --num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds 标志结合使用,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。 默认的 Dataproc 集群虚拟机本地 SSD 接口是 SCSI 接口。使用 gcloud gclid clusters create 命令替换为 --master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface 个标志 为主实例、主实例和辅助实例指定本地 SSD 接口 工作器节点数量。

示例

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

可以使用 SCSI 将本地 SSD 挂接到 Dataproc 虚拟机 (小型计算机系统接口)或 NVME(非易失性内存速成)接口(请参阅 本地 SSD 性能)。 Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。将 localSsdInterface 字段(位于 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfigcluster.create 指定“SCSI”的 API 请求或“NVME”用于将本地 SSD 连接到集群主服务器的接口; 主要工作器节点和辅助工作器节点。

控制台

创建集群,并将本地 SSD 挂接到 Google Cloud 控制台的 Dataproc 创建集群页面的“配置节点”面板中的主节点、主要工作器节点和辅助工作器节点。