Configuration du cluster

Cette page explique quand utiliser les clusters Dataproc statiques dans Cloud Data Fusion. Il décrit également les versions compatibles et les configurations de cluster recommandées.

Quand réutiliser des clusters

À partir de Cloud Data Fusion 6.5.0, vous pouvez réutiliser les clusters Dataproc entre les exécutions pour améliorer le temps de traitement. Vous pouvez réutiliser des clusters pour réduire le temps nécessaire au démarrage de plusieurs tâches à la fois. Pour en savoir plus, consultez la page Réutiliser des clusters Dataproc.

Quand utiliser des clusters statiques

Recommandé: essayez de réutiliser les clusters pour améliorer votre temps de démarrage avant d'essayer d'utiliser des clusters statiques.

Par défaut, Cloud Data Fusion crée des clusters éphémères pour chaque pipeline : il crée un cluster au début de l'exécution du pipeline, puis le supprime à la fin de l'exécution du pipeline.

Dans les scénarios suivants, n'utilisez pas la valeur par défaut. Utilisez plutôt un cluster statique:

  • Lorsque la création d'un cluster pour chaque pipeline prend trop de temps pour votre cas d'utilisation,

  • Lorsque votre organisation exige que la création du cluster soit gérée de manière centralisée. Par exemple, lorsque vous souhaitez appliquer certaines règles pour tous les clusters Dataproc.

Pour en savoir plus, consultez la page Exécuter un pipeline sur un cluster Dataproc existant.

Quand utiliser l'autoscaling

Recommandé : Utilisez l'autoscaling Cloud Data Fusion prédéfini ou votre propre règle d'autoscaling pour automatiser la gestion des ressources du cluster pour le traitement des pipelines par lot.

Si vous utilisez le profil de calcul par défaut pour exécuter un pipeline de grande taille, le pipeline peut ne pas s'exécuter avec des performances optimales. Cette méthode est également utile si vous n'êtes pas certain des exigences de taille appropriées pour votre pipeline.

Dans Cloud Data Fusion version 6.6 et ultérieure, vous pouvez utiliser l'autoscaling prédéfini de Cloud Data Fusion pour automatiser la gestion des ressources de cluster. Le profil de calcul d'autoscaling prêt à l'emploi peut être suffisant pour vos pipelines, mais si vous avez besoin de davantage de contrôle, vous pouvez définir votre propre règle d'autoscaling.

Dans une version compatible, vous pouvez créer votre propre règle d'autoscaling pour définir le nombre maximal de nœuds de calcul. Pour en savoir plus sur la création d'une règle d'autoscaling, consultez la page Procéder à l'autoscaling des clusters.

Utiliser l'autoscaling prédéfini dans Cloud Data Fusion

Vous pouvez utiliser l'autoscaling prédéfini pour augmenter les nœuds de calcul en fonction de la charge de travail de votre pipeline dans les versions 6.6 et ultérieures. Cette option n'est disponible que pour les pipelines de traitement par lot.

Option 1: Utiliser le profil d'autoscaling de Cloud Data Fusion

Dans les instances Cloud Data Fusion s'exécutant en version 6.6 ou ultérieure, votre instance est fournie avec un profil appelé Autoscaling Dataproc, qui est un profil Dataproc prêt à l'emploi où l'autoscaling prédéfini est déjà activé. Ce profil est semblable au profil précréé dans l'option 3, mais le type de machine de nœud de calcul est n2.

  1. Dans Google Cloud Console, accédez à la page Instances de Cloud Data Fusion.
  2. Cliquez sur Afficher l'instance pour ouvrir une instance dans l'interface utilisateur de Cloud Data Fusion.
  3. Accédez à la page du pipeline déployé en cliquant sur Répertorier > Déployé.
  4. Cliquez sur Configurer > Compute.
  5. Sélectionnez le profil nommé Autoscaling Dataproc.

Option 2: Activer une règle d'autoscaling prédéfinie en personnalisant un profil

Pour activer l'autoscaling prédéfini sur le profil par défaut, procédez comme suit:

  1. Dans Google Cloud Console, accédez à la page Instances de Cloud Data Fusion.
  2. Cliquez sur Afficher l'instance pour ouvrir une instance dans l'interface utilisateur de Cloud Data Fusion.
  3. Accédez à la page du pipeline déployé en cliquant sur Répertorier > Déployé.
  4. Cliquez sur Configure (Configurer).
  5. Cliquez sur Personnaliser sur le profil de votre choix.
  6. Développez la section Nombre de nœuds de calcul du cluster.
  7. Cliquez sur le bouton Utiliser un autoscaling prédéfini.
  8. Cliquez sur OK et Enregistrer.

Lors de la prochaine exécution de votre pipeline, la tâche Dataproc utilisera la règle d'autoscaling prédéfinie de Cloud Data Fusion.

Lorsque vous activez l'autoscaling prédéfini :

  • Les propriétés Number of primary workers, Number of secondary workers et Autoscaling policy ne sont pas prises en compte.
  • Le type/la configuration des machines de nœud de calcul sont identiques à ceux du profil choisi.
  • La désactivation du bouton Utiliser l'autoscaling prédéfini désactive l'autoscaling prédéfini, puis exécute le comportement d'origine du profil.

Argument d'exécution :

Le comportement ci-dessus peut être obtenu en saisissant la clé et la valeur suivantes dans les arguments d'exécution : system.profile.properties.enablePredefinedAutoScaling = true.

Option 3: Activer une règle d'autoscaling prédéfinie dans un nouveau profil de calcul

Vous pouvez cliquer sur le bouton Utiliser un autoscaling prédéfini lorsque vous créez un profil d'approvisionneur Dataproc. Vous pouvez ensuite utiliser ce profil sur différents pipelines et mieux contrôler le type de machine de nœud de calcul et d'autres propriétés.

  1. Dans Google Cloud Console, accédez à la page Instances de Cloud Data Fusion.
  2. Cliquez sur Afficher l'instance pour ouvrir une instance dans l'interface utilisateur de Cloud Data Fusion.
  3. Vous pouvez créer le profil à partir du champ d'application du système ou de l'utilisateur:

    1. (Facultatif) Pour le champ d'application du système: cliquez sur Administrateur système > Configuration > Profils Compute Compute > Créer un profil.
    2. (Facultatif) Pour le champ d'application de l'utilisateur: cliquez sur Menu >Espace de noms > Créer un profil.

    Une page d'approvisionneurs s'ouvre.

  4. Cliquez sur Dataproc.

  5. Développez la section Nombre de nœuds de calcul du cluster.

  6. Cliquez sur le bouton Utiliser un autoscaling prédéfini.

  7. Saisissez les autres détails, puis cliquez sur Créer.

Vous pouvez appliquer ce profil à votre pipeline en ouvrant le pipeline sur la page Studio, en cliquant sur Configurer > Compute, puis en sélectionnant le profil. Vous pouvez définir le profil comme profil par défaut.

Informations supplémentaires

Sur la page Configuration de Compute, où vous pouvez voir une liste de profils, figure la colonne Nombre total de cœurs, qui contient le nombre maximal de processeurs virtuels pouvant atteindre le profil (par exemple, Up to 84).

Compatibilité des versions

Problème: la version de votre environnement Cloud Data Fusion n'est peut-être pas compatible avec la version de votre cluster Dataproc.

Recommandé : passez à Cloud Data Fusion version 6.4 ou ultérieure, puis utilisez l'une des versions Dataproc compatibles.

Les versions de Cloud Data Fusion antérieures à la version 6.4 ne sont compatibles qu'avec les versions non compatibles de Dataproc. Dataproc ne fournit pas de mises à jour ni d'assistance pour les clusters créés avec ces versions. Bien que vous puissiez continuer à exécuter un cluster créé avec une version non compatible, nous vous recommandons de remplacer le cluster par un cluster créé avec une version compatible.

Version de Cloud Data Fusion Version de Dataproc
6,1 à 6,3* 1.3.x
6.4 et versions ultérieures 1.3.x et 2.0.x

* Les versions 6.1 à 6.3 de Cloud Data Fusion sont compatibles avec Dataproc version 1.3. Vous n'avez pas besoin de composants supplémentaires pour les rendre compatibles. Cloud Data Fusion utilise HDFS et Spark, qui est fourni avec la version de base de Cloud Data Fusion.

Bonnes pratiques

Configuration

Recommandé : Lorsque vous créez un cluster statique pour vos pipelines, utilisez les configurations suivantes.

Paramètres
yarn.nodemanager.delete.debug-delay-sec Conserve les journaux YARN.
Valeur recommandée : 86400 (ce qui équivaut à un jour)
yarn.nodemanager.pmem-check-enabled Permet à YARN de vérifier les limites de mémoire physique et de fermer les conteneurs s'ils dépassent la mémoire physique.
Valeur recommandée : false
yarn.nodemanager.vmem-check-enabled permet à YARN de vérifier les limites de mémoire virtuelle et de fermer les conteneurs s'ils dépassent la mémoire physique.
Valeur recommandée : false.