Lorsque vous activez la mise en cache du cluster Dataproc, celui-ci met en cache les données Cloud Storage fréquemment consultées par vos tâches Spark.
Avantages
- Amélioration des performances:la mise en cache peut améliorer les performances des tâches en réduisant le temps passé à récupérer les données du stockage.
- Réduction des coûts de stockage:les données à chaud étant mises en cache sur un disque local, moins d'appels d'API sont effectués sur le stockage pour récupérer les données.
Limites et exigences
- La mise en cache ne s'applique qu'aux jobs Dataproc Spark.
- Seules les données Cloud Storage sont mises en cache.
- La mise en cache ne s'applique qu'aux clusters qui répondent aux exigences suivantes :
- Le cluster comporte un nœud maître et
n
nœuds de calcul (les clusters à haute disponibilité et à nœud unique ne sont pas compatibles). - Cette fonctionnalité est disponible dans les versions d'image de Dataproc sur Compute Engine
2.0.72+ or 2.1.20+
. - Chaque nœud de cluster doit disposer de disques SSD locaux associés à l'interface NVME (mémoire non volatile Express) (les disques persistants ne sont pas compatibles). Les données ne sont mises en cache que sur les disques SSD locaux NVME.
- Le cluster utilise le compte de service de VM par défaut pour l'authentification. Les comptes de service de VM personnalisés ne sont pas compatibles.
- Le cluster comporte un nœud maître et
Activer la mise en cache du cluster
Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Dataproc à l'aide de Google Cloud CLI ou de l'API Dataproc.
Console
Il n'est actuellement pas possible d'activer la mise en cache des clusters à partir de la console Google Cloud.
gcloud CLI
Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de cluster dataproc:dataproc.cluster.caching=true
.
Exemple :
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Définissez SoftwareConfig.properties pour inclure la propriété de cluster "dataproc:dataproc.cluster.caching": "true"
dans le cadre d'une requête clusters.create.