Mise en cache du cluster

Lorsque vous activez la mise en cache d'un cluster Dataproc, celui-ci est mis en cache Données Cloud Storage fréquemment consultées par vos jobs Spark.

Avantages

  • Amélioration des performances:la mise en cache peut améliorer les performances des tâches en réduisant la quantité de temps passé à récupérer des données depuis le stockage.
  • Coûts de stockage réduits:étant donné que les données à chaud sont mises en cache sur un disque local, moins d'appels d'API sont effectués dans le stockage pour récupérer des données.

Limites et exigences

  • La mise en cache ne s'applique qu'aux jobs Spark Dataproc.
  • Seules les données Cloud Storage sont mises en cache.
  • La mise en cache ne s'applique qu'aux clusters qui répondent aux exigences suivantes: <ph type="x-smartling-placeholder">

Activer la mise en cache du cluster

Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Dataproc à l'aide de la console Google Cloud, de Google Cloud CLI ou de l'API Dataproc.

console Google Cloud

  • Ouvrir Dataproc Créer un cluster sur Compute Engine de la console Google Cloud.
  • Le panneau Configurer le cluster est sélectionné. Dans Section Amélioration des performances Spark, sélectionnez Activez la mise en cache Google Cloud Storage.
  • Après avoir confirmé et spécifié les détails du cluster dans les panneaux de création de cluster, cliquez sur Créer.

CLI gcloud

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de dataproc:dataproc.cluster.caching.enabled=true propriété de cluster.

Exemple :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Définissez SoftwareConfig.properties. pour inclure le "dataproc:dataproc.cluster.caching.enabled": "true" propriété du cluster dans le cadre d'un clusters.create requête.