Memorizzazione in cache del cluster

Quando attivi la memorizzazione nella cache del cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui i job Spark accedono di frequente.

Vantaggi

  • Miglioramento delle prestazioni:la memorizzazione nella cache può migliorare le prestazioni dei job riducendo il tempo impiegato per recuperare i dati dall'archiviazione.
  • Costi di archiviazione ridotti: poiché i dati caldi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.

Limitazioni e requisiti

Attiva la memorizzazione nella cache del cluster

Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando la console Google Cloud, Google Cloud CLI o l'API Dataproc.

Console Google Cloud

  • Apri la pagina Dataproc Crea un cluster su Compute Engine nella console Google Cloud.
  • Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Abilita la memorizzazione nella cache di Google Cloud Storage.
  • Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.

Interfaccia a riga di comando gcloud

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la proprietà cluster dataproc:dataproc.cluster.caching.enabled=true.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties in modo da includere la proprietà cluster"dataproc:dataproc.cluster.caching.enabled": "true" all'interno di una richiesta clusters.create.