Cloud Dataproc 本地 SSD

作为启动磁盘的补充,您可以将本地固态硬盘(本地 SSD)挂接到集群中的主节点、主工作器节点和辅助工作器节点。与永久性磁盘相比,本地 SSD 的读写速度更快。每个本地 SSD 的大小都是固定的,但您可以挂接多个本地 SSD 以增加 SSD 存储空间(请参阅添加本地 SSD)。每个本地 SSD 都会装载到 Cloud Dataproc 集群节点中的 /mnt/<id>。默认情况下,本地 SSD 用于写入和读取 Apache Hadoop 和 Apache Spark 临时文件,例如重排输出。

使用本地 SSD

gcloud 命令

gcloud dataproc clusters create 命令与 ‑‑num-master-local-ssds‑‑num-workers-local-ssds--num-preemptible-worker-local-ssds 标志结合使用,可以将本地 SSD 分别挂接到集群的主节点、主工作器节点和辅助(抢占式)工作器节点。

示例:

gcloud dataproc clusters create cluster-name \
    ‑‑num-master-local-ssds=1 \
    ‑‑num-worker-local-ssds=1  \
    --num-preemptible-worker-local-ssds=1 \
    ... other args ...

REST API

cluster.create API 请求的 masterConfigworkerConfigsecondaryWorkerConfig InstanceGroupConfig 中设置 numLocalSsds 字段,可以将本地 SSD 分别挂接到集群的主节点、主工作器节点和辅助(抢占式)工作器节点。

Console

从 Google Cloud Platform Console 的 Cloud Dataproc 创建集群页面创建集群并将本地 SSD 连接至其主工作器节点。

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Cloud Dataproc 文档
需要帮助?请访问我们的支持页面