Mise en cache du cluster

Lorsque vous activez la mise en cache du cluster Dataproc, celui-ci met en cache les données Cloud Storage fréquemment consultées par vos tâches Spark.

Avantages

  • Amélioration des performances:la mise en cache peut améliorer les performances des tâches en réduisant le temps passé à récupérer les données du stockage.
  • Réduction des coûts de stockage:les données à chaud étant mises en cache sur un disque local, moins d'appels d'API sont effectués sur le stockage pour récupérer les données.

Limites et exigences

Activer la mise en cache du cluster

Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Dataproc à l'aide de Google Cloud CLI ou de l'API Dataproc.

Console

Il n'est actuellement pas possible d'activer la mise en cache des clusters à partir de la console Google Cloud.

gcloud CLI

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de cluster dataproc:dataproc.cluster.caching=true.

Exemple :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Définissez SoftwareConfig.properties pour inclure la propriété de cluster "dataproc:dataproc.cluster.caching": "true" dans le cadre d'une requête clusters.create.