Diese Seite wurde von der Cloud Translation API übersetzt.

Cluster-Caching

Wenn Sie das Dataproc-Cluster-Caching aktivieren, werden im Cluster Cloud Storage-Daten zwischengespeichert, auf die von Ihren Spark-Jobs häufig zugegriffen wird.

Vorteile

Verbesserte Leistung:Durch das Caching kann die Leistung von Jobs verbessert werden, da weniger Zeit für das Abrufen von Daten aus dem Speicher benötigt wird.
Geringere Speicherkosten:Da Hot Data auf der lokalen Festplatte zwischengespeichert werden, sind weniger API-Aufrufe zum Abrufen von Daten erforderlich.
Anwendbarkeit von Spark-Jobs: Wenn das Cluster-Caching für einen Cluster aktiviert ist, gilt es für alle Spark-Jobs, die im Cluster ausgeführt werden, unabhängig davon, ob sie an den Dataproc-Dienst gesendet oder unabhängig im Cluster ausgeführt werden.

Beschränkungen und Anforderungen

Das Caching gilt nur für Dataproc-Spark-Jobs.
Es werden nur Cloud Storage-Daten im Cache gespeichert.
Das Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und n Worker. Hochverfügbarkeitscluster und Single-Node-Cluster werden nicht unterstützt.
- Dieses Feature ist in Dataproc in Compute Engine-Image-Versionen 2.0.72+, 2.1.20+ und 2.2.0+ verfügbar.
- Jeder Clusterknoten muss lokale SSDs haben, die mit der NVME-Schnittstelle (Non-Volatile Memory Express) verbunden sind. Nichtflüchtige Speicher (Persistent Disks, PDs) werden nicht unterstützt. Daten werden nur auf lokalen NVME-SSDs im Cache gespeichert.
- Der Cluster verwendet das VM-Standarddienstkonto zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.

Cluster-Caching aktivieren

Sie können das Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API erstellen.

Google Cloud Console

Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster in Compute Engine erstellen.
Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Abschnitt Spark-Leistungsverbesserungen die Option Google Cloud Storage-Caching aktivieren aus.
Nachdem Sie die Clusterdetails in den Feldern zum Erstellen von Clustern bestätigt und angegeben haben, klicken Sie auf Erstellen.

gcloud-CLI

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der dataproc:dataproc.cluster.caching.enabled=true-Cluster-Eigenschaft aus.

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

Legen Sie SoftwareConfig.properties so fest, dass das Clusterattribut "dataproc:dataproc.cluster.caching.enabled": "true" als Teil einer clusters.create-Anfrage enthalten ist.

Cluster-Caching Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.