集群缓存

启用 Dataproc 集群缓存后,集群会缓存 您的 Spark 作业经常访问的 Cloud Storage 数据。

优势

  • 提高性能:缓存可以减少 从存储空间检索数据所花费的时间。
  • 降低存储费用:由于热数据缓存在本地磁盘上, 为检索数据而对存储空间进行的 API 调用更少。

限制和要求

启用集群缓存

您可以在使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 创建 Dataproc 集群时启用集群缓存。

Google Cloud 控制台

  • 打开 Dataproc 在 Compute Engine 上创建集群 页面。
  • 选中设置集群面板。在 Spark 性能增强部分中,选择 Enable Google Cloud Storage caching(启用 Google Cloud Storage 缓存)。
  • 在集群创建面板中确认并指定集群详情后, 点击创建

gcloud CLI

在终端窗口或 Cloud Shell 中本地运行 gcloud dataproc clusters create 命令,并使用 dataproc:dataproc.cluster.caching.enabled=true 集群属性

示例:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

设置 SoftwareConfig.properties 添加 "dataproc:dataproc.cluster.caching.enabled": "true" 集群属性 作为 clusters.create 请求。