Cluster-Caching

Wenn Sie das Dataproc-Cluster-Caching aktivieren, werden Cloud Storage-Daten, auf die Ihre Spark-Jobs häufig zugreifen, im Cluster im Cache gespeichert.

Vorteile

  • Verbesserte Leistung:Durch Caching kann die Jobleistung verbessert werden, da das Abrufen von Daten aus dem Speicher weniger Zeit in Anspruch nimmt.
  • Geringere Speicherkosten: Da Hot-Daten im Cache auf dem lokalen Laufwerk gespeichert werden, werden weniger API-Aufrufe an den Speicher zum Abrufen von Daten gesendet.

Beschränkungen und Anforderungen

Cluster-Caching aktivieren

Sie können das Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API erstellen.

Google Cloud Console

  • Öffnen Sie in der Google Cloud Console die Seite Cluster in der Compute Engine erstellen von Dataproc.
  • Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Abschnitt Spark-Leistungsoptimierungen die Option Google Cloud Storage-Caching aktivieren aus.
  • Nachdem Sie die Clusterdetails in den entsprechenden Bereichen bestätigt und angegeben haben, klicken Sie auf Erstellen.

gcloud-CLI

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der dataproc:dataproc.cluster.caching.enabled=true Clustereigenschaft aus.

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

Legen Sie SoftwareConfig.properties so fest, dass die "dataproc:dataproc.cluster.caching.enabled": "true" als Clustereigenschaft in einer clusters.create-Anfrage enthalten ist.