Dataproc 本地 SSD

为了补充启动磁盘，您可以将本地固态硬盘（本地 SSD）挂接到集群中的主节点、主要工作器节点和辅助工作器节点。为集群提供本地 SSD 后，HDFS 和暂存数据（例如 shuffle 输出）会使用本地 SSD 而不是启动永久性磁盘。

与永久性磁盘相比，本地 SSD 的读写速度更快（请参阅本地 SSD 性能）。
每个本地 SSD 的大小 375 GB 是固定的，但您可以挂接多个本地 SSD 以增加 SSD 存储空间（请参阅添加本地 SSD）。
每个本地 SSD 都会装载到 Dataproc 集群节点中的 /mnt/<id>。
本地 SSD 使用 ext4 作为默认文件系统。

使用本地 SSD

gcloud 命令

将 gcloud dataproc clusters create 命令与 --num-master-local-ssds、--num-workers-local-ssds 和 --num-secondary-worker-local-ssds 标志结合使用，可将本地 SSD 挂接到集群的主节点、主工作器节点和辅助工作器节点。

可以使用 SCSI（小型计算机系统接口）或 NVME（非易失性快速内存）接口将本地 SSD 挂接到 Dataproc 虚拟机（请参阅本地 SSD 性能）。默认的 Dataproc 集群虚拟机本地 SSD 接口是 SCSI 接口。将 gcloud dataproc clusters create 命令与 --master-local-ssd-interface、--worker-local-ssd-interface 和 --secondary-worker-local-ssd-interface 标志结合使用，可以为主节点、主要工作器节点和辅助工作器节点指定本地 SSD 接口。

示例：

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

在 cluster.create API 请求的 masterConfig、workerConfig 和 secondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段，可以将本地 SSD 挂接到集群的主实例、主要工作器和辅助工作器节点。

可以使用 SCSI（小型计算机系统接口）或 NVME（非易失性快速内存）接口将本地 SSD 挂接到 Dataproc 虚拟机（请参阅本地 SSD 性能）。默认的 Dataproc 集群虚拟机本地 SSD 接口是 SCSI 接口。在 cluster.create API 请求的 masterConfig、workerConfig 和 secondaryWorkerConfig InstanceGroupConfig 中设置 localSsdInterface 字段可以指定“SCSI”或“NVME”接口，以将本地 SSD 挂接到集群的主节点、主要工作器节点和辅助工作器节点。

控制台

创建集群，并将本地 SSD 挂接到 Google API 控制台的 Dataproc 创建集群页面的“配置节点”面板中的主节点、主要工作器节点和辅助工作器节点。

Dataproc 本地 SSD 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

使用本地 SSD

gcloud 命令

REST API

控制台

Dataproc 本地 SSD