Cluster-Caching

Wenn Sie das Dataproc-Cluster-Caching aktivieren, speichert der Cluster Cloud Storage-Daten, auf die Ihre Spark-Jobs häufig zugreifen.

Vorteile

  • Verbesserte Leistung:Caching kann die Jobleistung verbessern, indem die Menge an Jobs reduziert wird. für das Abrufen von Daten aus dem Speicher aufgewendet wird.
  • Geringere Speicherkosten:Da aktive Daten auf einem lokalen Laufwerk im Cache gespeichert werden, werden weniger API-Aufrufe an den Speicher gesendet, um Daten abzurufen.

Beschränkungen und Anforderungen

  • Caching gilt nur für Dataproc Spark-Jobs.
  • Es werden nur Cloud Storage-Daten im Cache gespeichert.
  • Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen: <ph type="x-smartling-placeholder">

Cluster-Caching aktivieren

Sie können Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster erstellen mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API.

Google Cloud Console

  • Dataproc öffnen Cluster in Compute Engine erstellen in der Google Cloud Console.
  • Der Bereich Cluster einrichten ist ausgewählt. Im im Bereich Spark-Leistungsverbesserungen die Option Aktivieren Sie das Google Cloud Storage-Caching.
  • Nachdem Sie die Clusterdetails in den Bereichen zur Clustererstellung bestätigt und angegeben haben, Klicken Sie auf Erstellen.

gcloud-CLI

Führen Sie den Befehl gcloud dataproc clusters create aus. in einem Terminalfenster oder in Cloud Shell mit dataproc:dataproc.cluster.caching.enabled=true Clusterattribut.

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

Legen Sie SoftwareConfig.properties fest. um "dataproc:dataproc.cluster.caching.enabled": "true" Clusterattribut als Teil einer clusters.create