Mise en cache du cluster

Lorsque vous activez la mise en cache des clusters Dataproc, le cluster met en cache les données Cloud Storage fréquemment consultées par vos jobs Spark.

Avantages

  • Performances améliorées : la mise en cache peut améliorer les performances des jobs en réduisant le temps passé à récupérer les données du stockage.
  • Coûts de stockage réduits : les données actives étant mises en cache sur le disque local, moins d'appels d'API sont effectués vers le stockage pour récupérer les données.
  • Applicabilité des tâches Spark : lorsque la mise en cache des clusters est activée sur un cluster, elle s'applique à toutes les tâches Spark exécutées sur le cluster, qu'elles soient envoyées au service Dataproc ou exécutées indépendamment sur le cluster.

Limites et exigences

Activer la mise en cache du cluster

Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Dataproc à l'aide de la console Google Cloud , de la Google Cloud CLI ou de l'API Dataproc.

ConsoleGoogle Cloud

  • Ouvrez la page Dataproc Créer un cluster sur Compute Engine dans la console Google Cloud .
  • Le panneau Configurer un cluster est sélectionné. Dans la section Améliorations des performances Spark, sélectionnez Activer la mise en cache Google Cloud Storage.
  • Après avoir confirmé et spécifié les détails du cluster dans les panneaux de création de cluster, cliquez sur Créer.

gcloud CLI

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de cluster dataproc:dataproc.cluster.caching.enabled=true.

Exemple :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Définissez SoftwareConfig.properties pour inclure la propriété de cluster "dataproc:dataproc.cluster.caching.enabled": "true" dans une requête clusters.create.