English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

联系我们免费开始使用吧

集群缓存

启用 Dataproc 集群缓存后，集群会缓存 Spark 作业经常访问的 Cloud Storage 数据。

优势

提升性能：缓存可以缩短从存储空间检索数据所花费的时间，从而提升作业性能。
降低存储费用：由于热数据会缓存在本地磁盘上，因此为检索数据而向存储空间发出的 API 调用次数减少。
Spark 作业适用性：在集群上启用集群缓存后，该功能会应用于在集群上运行的所有 Spark 作业，无论是提交到 Dataproc 服务还是在集群上独立运行。

限制和要求

缓存仅适用于 Dataproc Spark 作业。
仅会缓存 Cloud Storage 数据。
缓存仅适用于满足以下要求的集群：
- 集群具有一个主节点和 n 个工作器（不支持高可用性 [HA] 集群和单节点集群）。
- 此功能适用于 Dataproc on Compute Engine 映像版本 2.0.72+、2.1.20+ 和 2.2.0+。
- 每个集群节点都必须通过 NVME（非易失性快速内存）接口挂接本地 SSD（不支持永久性磁盘 [PD]）。数据仅缓存在 NVME 本地 SSD 上。
- 集群使用默认的虚拟机服务账号进行身份验证。不支持自定义虚拟机服务账号。

启用集群缓存

在使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 创建 Dataproc 集群时，您可以启用集群缓存。

Google Cloud 控制台

在 Google Cloud 控制台中打开 Dataproc 的在 Compute Engine 上创建集群页面。
选中设置集群面板。在 Spark 性能增强功能部分中，选择 Enable Google Cloud Storage caching。
在集群创建面板中确认并指定集群详细信息后，点击创建。

gcloud CLI

在终端窗口或 Cloud Shell 中使用 dataproc:dataproc.cluster.caching.enabled=true 集群属性以本地方式运行 gcloud dataproc clusters create 命令。

示例：

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

将 SoftwareConfig.properties 设置为包含 "dataproc:dataproc.cluster.caching.enabled": "true" 集群属性作为 clusters.create 请求的一部分。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-10-29。