集群缓存

启用 Dataproc 集群缓存后,集群会缓存 Spark 作业经常访问的 Cloud Storage 数据。

优势

  • 提高性能:缓存可以减少从存储空间检索数据所花费的时间,从而提升作业性能。
  • 降低存储费用:由于热数据缓存在本地磁盘上,因此为检索数据而对存储空间进行的 API 调用会减少。

限制和要求

启用集群缓存

使用 Google Cloud CLI 或 Dataproc API 创建 Dataproc 集群时,您可以启用集群缓存。

控制台

目前不支持通过 Google Cloud 控制台启用集群缓存。

gcloud CLI

使用 dataproc:dataproc.cluster.caching=true 集群属性在终端窗口或 Cloud Shell 中本地运行 gcloud dataproc clusters create 命令。

示例:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

设置 SoftwareConfig.properties 以将 "dataproc:dataproc.cluster.caching": "true" 集群属性添加为 clusters.create 请求的一部分。