Memorizzazione nella cache del cluster

Quando abiliti la memorizzazione nella cache del cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui si accede di frequente dai job Spark.

Vantaggi

  • Prestazioni migliorate: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo la quantità di tempo dedicato al recupero dei dati dall'archiviazione.
  • Costi di archiviazione ridotti: poiché i dati ad accesso frequente vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.

Limitazioni e requisiti

Abilita memorizzazione nella cache del cluster

Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando Google Cloud CLI o l'API Dataproc.

Console

Al momento, l'abilitazione della memorizzazione nella cache del cluster dalla console Google Cloud non è supportata.

Interfaccia a riga di comando gcloud

Esegui il comando gcloud dataproc clusters create in locale in una finestra del terminale o in Cloud Shell utilizzando la proprietà cluster dataproc:dataproc.cluster.caching=true.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties in modo da includere la proprietà cluster "dataproc:dataproc.cluster.caching": "true" in una richiesta clusters.create.