Configuration du cluster

Cette page explique quand utiliser des clusters Dataproc statiques dans Cloud Data Fusion, les versions compatibles et les configurations de cluster recommandées.

Quand réutiliser des clusters

À partir de la version 6.5.0 de Cloud Data Fusion, vous pouvez réutiliser les clusters Dataproc entre les exécutions pour réduire le temps de traitement. Lorsque plusieurs tâches se produisent l'une après l'autre, vous pouvez réutiliser les clusters pour réduire le temps nécessaire au démarrage de certaines tâches. Pour en savoir plus, consultez la page Réutiliser des clusters Dataproc.

Quand utiliser des clusters statiques

Recommandé: Essayez de réutiliser les clusters pour améliorer le temps de démarrage avant d'essayer d'utiliser des clusters statiques.

Par défaut, Cloud Data Fusion crée des clusters éphémères pour chaque pipeline. Il crée un cluster au début de l'exécution du pipeline, puis le supprime une fois l'exécution du pipeline terminée.

Dans les scénarios suivants, n'utilisez pas la valeur par défaut. Utilisez plutôt un cluster statique :

  • Si le temps nécessaire à la création d'un cluster pour chaque pipeline est prohibitif pour votre cas d'utilisation.

  • Lorsque votre organisation a besoin d'une gestion centralisée de la création de clusters. Par exemple, lorsque vous souhaitez appliquer certaines règles à tous les clusters Dataproc.

Pour utiliser un cluster statique, vous devez définir la propriété suivante sur le cluster Dataproc:

dataproc:dataproc.conscrypt.provider.enable=false

Pour en savoir plus, consultez la page Exécuter un pipeline sur un cluster Dataproc existant.

Quand utiliser l'autoscaling

Recommandé: Utilisez l'autoscaling prédéfini de Cloud Data Fusion ou votre propre règle d'autoscaling pour automatiser la gestion des ressources de cluster à traiter dans des pipelines de traitement par lot.

L'autoscaling n'est pas recommandé pour effectuer un scaling à la baisse. Pour en savoir plus sur la réduction des coûts lors des périodes de faible activité, consultez les documents suivants:

Si vous utilisez le profil de calcul par défaut pour exécuter un pipeline volumineux, celui-ci risque de ne pas s'exécuter avec des performances optimales. Elle est également utile lorsque vous n'êtes pas sûr des exigences concernant la taille de cluster appropriée pour votre pipeline.

Dans Cloud Data Fusion 6.6 et versions ultérieures, vous pouvez utiliser l'autoscaling prédéfini de Cloud Data Fusion pour automatiser la gestion des ressources de cluster. Le profil de calcul d'autoscaling prêt à l'emploi peut suffire pour vos pipelines, mais si vous avez besoin de plus de contrôle, vous pouvez définir votre propre règle d'autoscaling.

Dans n'importe quelle version compatible, vous pouvez créer votre propre règle d'autoscaling pour définir le nombre maximal de nœuds de calcul. À partir de la version 6.10.0 de Cloud Data Fusion, les instances utilisent le profil Dataproc d'autoscaling par défaut pour les clusters éphémères. Pour en savoir plus sur la création d'une règle d'autoscaling, consultez la page Autoscaling des clusters.

Utiliser l'autoscaling prédéfini dans Cloud Data Fusion

Vous pouvez utiliser l'autoscaling prédéfini pour augmenter le nombre de nœuds de calcul en fonction de la charge de travail de votre pipeline dans les versions 6.6 et ultérieures. L'autoscaling prédéfini n'est disponible que pour les pipelines de traitement par lot.

Option 1: Utiliser le profil d'autoscaling de Cloud Data Fusion

Dans les instances Cloud Data Fusion exécutées à partir de la version 6.6.0, votre instance est fournie avec un profil appelé autoscaling Dataproc, qui est un profil Dataproc prêt à l'emploi pour lequel l'autoscaling prédéfini est déjà activé. Il est semblable au profil précréé de l'option 3, sauf que dans la version 6.6.0 et dans les instances mises à niveau à partir de la version 6.6.0, le type de machine de nœud de calcul est n2.

  1. Dans la console Google Cloud, accédez à la page Instances de Cloud Data Fusion.
  2. Cliquez sur Afficher l'instance pour ouvrir une instance dans l'interface Web de Cloud Data Fusion.
  3. Accédez à la page du pipeline déployé en cliquant sur Liste > Déployé.
  4. Cliquez sur Configurer > Calcul.
  5. Sélectionnez le profil nommé Autoscaling Dataproc.

Option 2: Activer une règle d'autoscaling prédéfinie en personnalisant un profil

Pour activer l'autoscaling prédéfini sur le profil par défaut, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Instances de Cloud Data Fusion.
  2. Cliquez sur Afficher l'instance pour ouvrir une instance dans l'interface Web de Cloud Data Fusion.
  3. Accédez à la page du pipeline déployé en cliquant sur Liste > Déployé.
  4. Cliquez sur Configurer.
  5. Cliquez sur Personnaliser sur le profil de votre choix.
  6. Développez la section Nombre de nœuds de calcul du cluster.
  7. Cliquez sur le bouton Utiliser l'autoscaling prédéfini.
  8. Cliquez sur OK, puis sur Enregistrer.

Lors de la prochaine exécution du pipeline, le job Dataproc utilisera la règle d'autoscaling prédéfinie de Cloud Data Fusion.

Lorsque vous activez l'autoscaling prédéfini:

  • Les propriétés Number of primary workers, Number of secondary workers et Autoscaling policy ne sont pas prises en compte.
  • La configuration du type de machine des nœuds de calcul est identique à celle du profil choisi.
  • Si vous désactivez l'option Utiliser l'autoscaling prédéfini, l'autoscaling prédéfini est désactivé, puis le comportement d'origine du profil est exécuté.

Argument d'exécution:

Le comportement décrit peut être obtenu en saisissant la clé et la valeur suivantes dans les arguments d'exécution:

system.profile.properties.enablePredefinedAutoScaling = true

Option 3: Activer une règle d'autoscaling prédéfinie dans un nouveau profil de calcul

Vous pouvez cliquer sur le bouton Utiliser l'autoscaling prédéfini lorsque vous créez un profil d'approvisionneur Dataproc. Vous pouvez ensuite utiliser ce profil dans différents pipelines et mieux contrôler le type de machine du nœud de calcul et d'autres propriétés.

  1. Dans la console Google Cloud, accédez à la page Instances de Cloud Data Fusion.
  2. Cliquez sur Afficher l'instance pour ouvrir une instance dans l'interface utilisateur de Cloud Data Fusion.
  3. Vous pouvez créer le profil à partir du champ d'application du système ou de l'utilisateur:

    1. (Facultatif) Pour le champ d'application du système: cliquez sur Administrateur système > Configuration > Profils de calcul système > Créer un profil.
    2. (Facultatif) Pour le niveau d'accès de l'utilisateur: cliquez sur Menu > Administrateur d'espaces de noms > Créer un profil.

    Une page d'approvisionneurs s'ouvre.

  4. Cliquez sur Dataproc.

  5. Développez la section Nombre de nœuds de calcul du cluster.

  6. Cliquez sur le bouton Utiliser l'autoscaling prédéfini.

  7. Saisissez les autres informations, puis cliquez sur Créer.

Pour appliquer ce profil à votre pipeline, ouvrez-le sur la page Studio, cliquez sur Configurer > Calcul, puis sélectionnez le profil. Vous pouvez définir ce profil comme profil par défaut.

Informations supplémentaires

Sur la page Configuration du calcul, qui contient la liste des profils, une colonne Nombre total de cœurs indique le nombre maximal de processeurs virtuels que le profil peut atteindre (par exemple, Up to 84).

Compatibilité des versions

Problème : la version de votre environnement Cloud Data Fusion peut ne pas être compatible avec la version de votre cluster Dataproc.

Recommandé: Effectuez la mise à niveau vers la dernière version de Cloud Data Fusion et utilisez l'une des versions compatibles de Dataproc.

Les versions antérieures de Cloud Data Fusion ne sont compatibles qu'avec les versions non compatibles de Dataproc. Dataproc ne fournit pas de mises à jour ni de compatibilité pour les clusters créés avec ces versions. Bien que vous puissiez continuer à exécuter un cluster créé avec une version non compatible, nous vous recommandons de le remplacer par un cluster créé avec une version compatible.

Version de Cloud Data Fusion Version de Dataproc
6.10 et versions ultérieures 2.1, 2.0 *
6,9 2.1, 2.0, 1.5 *
6,7 à 6,8 2.0, 1.5 *
6,4 et 6,6 2,0*, 1,3**
6.1 à 6.3 1,3**

* Les versions 6.4 et ultérieures de Cloud Data Fusion sont compatibles avec les versions compatibles de Dataproc. Si des fonctionnalités d'OS spécifiques ne sont pas nécessaires, il est recommandé de spécifier la version de l'image major.minor.
Pour spécifier la version d'OS utilisée dans votre cluster Dataproc, celle-ci doit être compatible avec l'une des versions de Dataproc compatibles avec Cloud Data Fusion dans le tableau précédent.

** Les versions 6.1 à 6.6 de Cloud Data Fusion sont compatibles avec la version 1.3 de Dataproc non compatible.

Bonnes pratiques

Recommandé : Lorsque vous créez un cluster statique pour vos pipelines, utilisez les configurations suivantes.

Paramètres
yarn.nodemanager.delete.debug-delay-sec Conserve les journaux YARN.
Valeur recommandée: 86400 (équivalent à un jour)
yarn.nodemanager.pmem-check-enabled Permet à YARN de vérifier les limites de mémoire physique et de fermer les conteneurs s'ils dépassent la mémoire physique.
Valeur recommandée: false
yarn.nodemanager.vmem-check-enabled Permet à YARN de vérifier les limites de mémoire virtuelle et de fermer les conteneurs s'ils dépassent la mémoire physique.
Valeur recommandée : false.