Memorizzazione nella cache del cluster

Quando si abilita la memorizzazione nella cache di un cluster Dataproc, quest'ultimo memorizza nella cache i dati di Cloud Storage a cui accedono spesso i job Spark.

Vantaggi

  • Prestazioni superiori: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo il tempo impiegato per il recupero dei dati dallo spazio di archiviazione.
  • Costi di archiviazione ridotti: poiché i dati ad accesso frequente vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.

Limitazioni e requisiti

Abilita memorizzazione nella cache del cluster

Puoi abilitare la memorizzazione nella cache dei cluster quando crei un cluster Dataproc utilizzando la console Google Cloud, Google Cloud CLI o l'API Dataproc.

Console Google Cloud

  • Apri la pagina Crea un cluster su Compute Engine di Dataproc nella console Google Cloud.
  • Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Abilita la memorizzazione nella cache di Google Cloud Storage.
  • Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.

Interfaccia a riga di comando gcloud

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la proprietà cluster dataproc:dataproc.cluster.caching.enabled=true.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties per includere la proprietà cluster "dataproc:dataproc.cluster.caching.enabled": "true" come parte di una richiesta clusters.create.