Configurer des clusters

Cette page explique quand utiliser les clusters statiques Dataproc dans Cloud Data Fusion. Elle décrit également les versions compatibles et les configurations de cluster recommandées.

Pour plus d'informations, consultez la page Gérer un cluster.

Quand utiliser des clusters statiques

Par défaut, Cloud Data Fusion crée des clusters éphémères pour chaque pipeline : il crée un cluster au début de l'exécution du pipeline, puis le supprime une fois l'exécution du pipeline terminée.

Dans les scénarios suivants, n'utilisez pas la valeur par défaut. Utilisez plutôt un cluster statique:

  • Le temps nécessaire à la création d'un cluster pour chaque pipeline est probabiliste pour votre cas d'utilisation.

  • Lorsque votre organisation exige que la création de clusters soit gérée de manière centralisée Par exemple, lorsque vous souhaitez appliquer certaines règles à tous les clusters Dataproc.

Pour en savoir plus, consultez la page Exécuter un pipeline sur un cluster Dataproc existant.

Compatibilité des versions

Problème: La version de votre environnement Cloud Data Fusion pourrait ne pas être compatible avec la version de votre cluster Dataproc.

Les versions Cloud Data Fusion suivantes sont compatibles avec les versions correspondantes de Dataproc.

Version Cloud Data Fusion Version de Dataproc
6.1 à 6.3* 1.3.x
6.4+ 1.3.x et 2.0.x

* Les versions 6.1 et 6.3 de Cloud Data Fusion sont compatibles avec Dataproc version 1.3. Vous n'avez pas besoin de composants supplémentaires pour les rendre compatibles. Cloud Data Fusion utilise HDFS et Spark, qui sont fournis avec la version de base de Cloud Data Fusion.

Bonnes pratiques

Recommandé: Lorsque vous créez un cluster statique pour vos pipelines, utilisez les configurations suivantes.

Paramètres
yarn.nodemanager.delete.debug-delay-sec Conserve les journaux YARN.
Valeur recommandée: 86400 (équivalent à un jour)
yarn.nodemanager.pmem-check-enabled Permet à YARN de vérifier les limites de la mémoire physique et de supprimer les conteneurs s'ils dépassent au-delà de la mémoire physique.
Valeur recommandée: false
yarn.nodemanager.vmem-check-enabled permet à YARN de vérifier les limites de mémoire virtuelle et de supprimer des conteneurs au-delà de la mémoire physique.
Valeur recommandée: false.

Étape suivante