为了补充启动磁盘,您可以将本地固态硬盘(本地 SSD)挂接到集群中的主节点、主要工作器节点和辅助工作器节点。为集群提供本地 SSD 后,HDFS 和暂存数据(如 Shuffle 输出)将使用本地 SSD 而不是永久性启动磁盘。
- 与永久性磁盘相比,本地 SSD 的读写速度更快(请参阅本地 SSD 性能)。
- 每个本地 SSD 的 375GB 大小都是固定的,但您可以挂接多个本地 SSD 以增加 SSD 存储空间(请参阅本地 SSD 简介)。
- 每个本地 SSD 都会装载到 Dataproc 集群节点的
/mnt/<id>
。 - 本地 SSD 使用
ext4
作为默认文件系统。
使用本地 SSD
gcloud 命令
将 gcloud dataproc clusters create 命令与 --num-master-local-ssds
、--num-workers-local-ssds
和 --num-secondary-worker-local-ssds
标志结合使用,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。
您可以使用 SCSI(小型计算机系统接口)或 NVME(非易失性内存 Express)接口将本地 SSD 挂接到 Dataproc 虚拟机(请参阅本地 SSD 性能)。
默认的 Dataproc 集群虚拟机本地 SSD 接口是 SCSI 接口。使用
gcloud gclid clusters create
命令替换为 --master-local-ssd-interface
,
--worker-local-ssd-interface
和
--secondary-worker-local-ssd-interface
个标志
为主实例、主实例和辅助实例指定本地 SSD 接口
工作器节点数量。
示例:
gcloud dataproc clusters create cluster-name \ --region=region \ --num-master-local-ssds=1 \ --num-worker-local-ssds=1 \ --num-secondary-worker-local-ssds=1 \ --master-local-ssd-interface=NVME \ --worker-local-ssd-interface=NVME \ --secondary-worker-local-ssd-interface=NVME \ ... other args ...
REST API
在 cluster.create API 请求的 masterConfig
、workerConfig
和 secondaryWorkerConfig
InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。
可以使用 SCSI 将本地 SSD 挂接到 Dataproc 虚拟机
(小型计算机系统接口)或 NVME(非易失性内存速成)接口(请参阅
本地 SSD 性能)。
Dataproc 集群虚拟机的默认本地 SSD 接口是 SCSI 接口。将
localSsdInterface
字段(位于 masterConfig
、workerConfig
和
secondaryWorkerConfig
InstanceGroupConfig
以
cluster.create
指定“SCSI”的 API 请求或“NVME”用于将本地 SSD 连接到集群主服务器的接口;
主要工作器节点和辅助工作器节点。
控制台
创建集群,并将本地 SSD 挂接到 Google Cloud 控制台的 Dataproc 创建集群页面的“配置节点”面板中的主节点、主要工作器节点和辅助工作器节点。