Wenn Sie das Dataproc-Cluster-Caching aktivieren, speichert der Cluster Cloud Storage-Daten im Cache, auf die Ihre Spark-Jobs häufig zugreifen.
Vorteile
- Verbesserte Leistung:Caching kann die Jobleistung verbessern, da der Zeitaufwand für das Abrufen von Daten aus dem Speicher reduziert wird.
- Geringere Speicherkosten:Da aktive Daten auf einem lokalen Laufwerk im Cache gespeichert werden, werden weniger API-Aufrufe zum Abrufen von Daten an den Speicher gesendet.
Beschränkungen und Anforderungen
- Caching gilt nur für Dataproc Spark-Jobs.
- Es werden nur Cloud Storage-Daten im Cache gespeichert.
- Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und
n
-Worker (Hochverfügbarkeit (HA) und Cluster mit einem einzelnen Knoten werden nicht unterstützt). - Dieses Feature ist in Dataproc in Compute Engine-Image-Versionen
2.0.72+ or 2.1.20+
verfügbar. - An jeden Clusterknoten müssen lokale SSDs mit der Schnittstelle NVME (Non-Volatile Memory Express) angehängt sein. Persistente Festplatten werden nicht unterstützt. Die Daten werden nur auf lokalen NVME-SSDs im Cache gespeichert.
- Der Cluster verwendet das Standard-VM-Dienstkonto für die Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.
- Der Cluster hat einen Master und
Cluster-Caching aktivieren
Sie können das Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API erstellen.
Google Cloud Console
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster in Compute Engine erstellen.
- Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Bereich Spark-Leistungsverbesserungen die Option Google Cloud Storage-Caching aktivieren aus.
- Nachdem Sie die Clusterdetails bestätigt und in den Bereichen zum Erstellen von Clustern angegeben haben, klicken Sie auf Erstellen.
gcloud-CLI
Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit dem Clusterattribut dataproc:dataproc.cluster.caching.enabled=true
aus.
Beispiel:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
REST API
Legen Sie für SoftwareConfig.properties fest, dass das Clusterattribut "dataproc:dataproc.cluster.caching.enabled": "true"
als Teil einer clusters.create-Anfrage enthalten ist.