集群缓存

启用 Dataproc 集群缓存后,集群会缓存您的 Spark 作业经常访问的 Cloud Storage 数据。

优势

  • 提升性能:缓存可以减少从存储空间检索数据所用的时间,从而提高作业性能。
  • 降低存储费用:由于热数据缓存在本地磁盘上,因此为检索数据而对存储空间进行的 API 调用更少。

限制和要求

启用集群缓存

您可以在使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 创建 Dataproc 集群时启用集群缓存。

Google Cloud 控制台

  • 打开 Google Cloud 控制台中的 Dataproc 在 Compute Engine 上创建集群页面。
  • 已选择设置集群面板。在 Spark 性能增强功能部分中,选择启用 Google Cloud Storage 缓存
  • 在集群创建面板中确认并指定集群详细信息后,点击创建

gcloud CLI

使用 dataproc:dataproc.cluster.caching.enabled=true 集群属性,在终端窗口或 Cloud Shell 中本地运行 gcloud dataproc clusters create 命令。

示例:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

设置 SoftwareConfig.properties,以将 "dataproc:dataproc.cluster.caching.enabled": "true" 集群属性添加为 clusters.create 请求的一部分。