Memorizzazione in cache del cluster

Quando abiliti la memorizzazione nella cache del cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono di frequente i job Spark.

Vantaggi

  • Prestazioni migliorate:la memorizzazione nella cache può migliorare le prestazioni dei job riducendo il tempo impiegato per recuperare i dati dallo spazio di archiviazione.
  • Costi di archiviazione ridotti:poiché i dati attivi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API all'archiviazione per recuperare i dati.
  • Applicabilità dei job Spark: quando la memorizzazione nella cache del cluster è abilitata su un cluster, si applica a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano inviati al servizio Dataproc o eseguiti in modo indipendente sul cluster.

Limitazioni e requisiti

Abilita la memorizzazione nella cache del cluster

Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando la console Google Cloud , Google Cloud CLI o l'API Dataproc.

ConsoleGoogle Cloud

  • Apri la pagina Dataproc Crea un cluster su Compute Engine nella console Google Cloud .
  • Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Attiva la memorizzazione nella cache di Google Cloud Storage.
  • Dopo aver confermato e specificato i dettagli del cluster nei pannelli di creazione del cluster, fai clic su Crea.

Interfaccia a riga di comando gcloud

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la dataproc:dataproc.cluster.caching.enabled=true proprietà del cluster.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties in modo da includere la proprietà del cluster "dataproc:dataproc.cluster.caching.enabled": "true" come parte di una richiesta clusters.create.