Diese Seite wurde von der Cloud Translation API übersetzt.

Cluster-Caching

Wenn Sie das Dataproc-Cluster-Caching aktivieren, werden Cloud Storage-Daten, auf die Ihre Spark-Jobs häufig zugreifen, im Cluster im Cache gespeichert.

Vorteile

Verbesserte Leistung:Caching kann die Jobleistung verbessern, indem die Menge an Jobs reduziert wird. für das Abrufen von Daten aus dem Speicher aufgewendet wird.
Geringere Speicherkosten:Da aktive Daten im Cache auf einem lokalen Laufwerk gespeichert werden, Es werden weniger API-Aufrufe an den Speicher gesendet, um Daten abzurufen.

Beschränkungen und Anforderungen

Das Caching gilt nur für Dataproc-Spark-Jobs.
Es werden nur Cloud Storage-Daten im Cache gespeichert.
Das Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und n Worker Cluster mit Hochverfügbarkeit und mit einem einzelnen Knoten werden nicht unterstützt.
- Diese Funktion ist in Dataproc in der Compute Engine mit Image-Versionen2.0.72+ or 2.1.20+ verfügbar.
- Jeder Clusterknoten muss lokale SSDs mit der NVMe (Non-Volatile Memory Express)-Schnittstelle haben. Nichtflüchtige Laufwerke (Persistent Disks, PDs) werden nicht unterstützt. Daten werden in NVME zwischengespeichert nur lokale SSDs.
- Der Cluster verwendet die Standard-VM-Dienstkonto zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.

Cluster-Caching aktivieren

Sie können das Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster erstellen mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API.

Google Cloud Console

Dataproc öffnen Cluster in Compute Engine erstellen in der Google Cloud Console.
Der Bereich Cluster einrichten ist ausgewählt. Im im Bereich Spark-Leistungsverbesserungen die Option Aktivieren Sie das Google Cloud Storage-Caching.
Nachdem Sie die Clusterdetails in den Bereichen zur Clustererstellung bestätigt und angegeben haben, Klicken Sie auf Erstellen.

gcloud-CLI

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der dataproc:dataproc.cluster.caching.enabled=trueClustereigenschaft aus.

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

Legen Sie SoftwareConfig.properties so fest, dass die "dataproc:dataproc.cluster.caching.enabled": "true" als Clustereigenschaft in einer clusters.create-Anfrage enthalten ist.