Memorizzazione nella cache del cluster

Quando attivi la memorizzazione nella cache di un cluster Dataproc, quest'ultimo viene memorizzato Dati di Cloud Storage a cui i job Spark a cui accedono spesso.

Vantaggi

  • Prestazioni superiori: la memorizzazione nella cache può migliorare le prestazioni dei job diminuendo la quantità di tempo impiegato per il recupero dei dati dallo spazio di archiviazione.
  • Costi di archiviazione ridotti: poiché i dati ad accesso frequente vengono memorizzati nella cache sul disco locale, Vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.

Limitazioni e requisiti

Abilita memorizzazione nella cache del cluster

Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando la console Google Cloud, Google Cloud CLI o l'API Dataproc.

Console Google Cloud

  • Apri Dataproc Crea un cluster su Compute Engine nella console Google Cloud.
  • Il riquadro Configura cluster è selezionato. Nella Attiva miglioramenti delle prestazioni, seleziona Attiva la memorizzazione nella cache di Google Cloud Storage.
  • Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.

Interfaccia a riga di comando gcloud

Esegui gcloud dataproc clusters create localmente in una finestra del terminale o Cloud Shell utilizzando dataproc:dataproc.cluster.caching.enabled=true proprietà cluster.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties per includere i "dataproc:dataproc.cluster.caching.enabled": "true" proprietà cluster nell'ambito di un clusters.create richiesta.