Wenn Sie das Dataproc-Cluster-Caching aktivieren, speichert der Cluster Cloud Storage-Daten, auf die Ihre Spark-Jobs häufig zugreifen.
Vorteile
- Verbesserte Leistung:Caching kann die Jobleistung verbessern, indem die Menge an Jobs reduziert wird. für das Abrufen von Daten aus dem Speicher aufgewendet wird.
- Geringere Speicherkosten:Da aktive Daten auf einem lokalen Laufwerk im Cache gespeichert werden, werden weniger API-Aufrufe an den Speicher gesendet, um Daten abzurufen.
Beschränkungen und Anforderungen
- Caching gilt nur für Dataproc Spark-Jobs.
- Es werden nur Cloud Storage-Daten im Cache gespeichert.
- Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
<ph type="x-smartling-placeholder">
- </ph>
- Der Cluster hat einen Master und
n
Worker Cluster mit Hochverfügbarkeit und einzelnen Knoten werden nicht unterstützt. - Dieses Feature ist in Dataproc auf Compute Engine verfügbar
Image-Versionen
2.0.72+ or 2.1.20+
- Jeder Clusterknoten muss Lokale SSDs mit den NVME (Non-Volatile Memory Express) Schnittstelle (Persistent Disks (PDs) werden nicht unterstützt). Daten werden in NVME zwischengespeichert nur lokale SSDs.
- Der Cluster verwendet den Standard-VM-Dienstkonto zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.
- Der Cluster hat einen Master und
Cluster-Caching aktivieren
Sie können Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster erstellen mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API.
Google Cloud Console
- Dataproc öffnen Cluster in Compute Engine erstellen in der Google Cloud Console.
- Der Bereich Cluster einrichten ist ausgewählt. Im im Bereich Spark-Leistungsverbesserungen die Option Aktivieren Sie das Google Cloud Storage-Caching.
- Nachdem Sie die Clusterdetails in den Bereichen zur Clustererstellung bestätigt und angegeben haben, Klicken Sie auf Erstellen.
gcloud-CLI
Führen Sie den Befehl gcloud dataproc clusters create aus.
in einem Terminalfenster oder in
Cloud Shell
mit dataproc:dataproc.cluster.caching.enabled=true
Clusterattribut.
Beispiel:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
REST API
Legen Sie SoftwareConfig.properties fest.
um "dataproc:dataproc.cluster.caching.enabled": "true"
Clusterattribut
als Teil einer
clusters.create