Performances des pipelines

Cette page décrit les paramètres du pipeline que vous pouvez ajuster et leur impact sur les performances.

Les performances d'un pipeline dépendent des éléments suivants:

  • Taille et caractéristiques de vos données
  • Structure de votre pipeline
  • Dimensionnement des clusters
  • Plug-ins utilisés par votre pipeline Cloud Data Fusion

Dimensionnement des clusters

Les nœuds maîtres utilisent des ressources proportionnellement au nombre de pipelines ou d'applications supplémentaires en cours d'exécution sur le cluster. Si vous exécutez des pipelines sur des clusters éphémères, utilisez 2 processeurs et 8 Go de mémoire pour les nœuds maîtres. Si vous utilisez des clusters persistants, vous aurez peut-être besoin de nœuds maîtres plus volumineux pour suivre le workflow. Pour déterminer si vous avez besoin de nœuds maîtres plus volumineux, vous pouvez surveiller l'utilisation de la mémoire et du processeur sur le nœud. Nous vous recommandons de dimensionner vos nœuds de calcul avec au moins 2 processeurs et 8 Go de mémoire. Si vous avez configuré vos pipelines pour utiliser de plus grandes quantités de mémoire, vous devez utiliser des nœuds de calcul plus volumineux.

Pour minimiser le temps d'exécution, assurez-vous que votre cluster dispose de suffisamment de nœuds pour permettre un traitement en parallèle autant que possible.

Apprenez-en plus sur le dimensionnement des clusters.

Ressources

Les pipelines vous permettent de spécifier le nombre de processeurs et la quantité de mémoire à fournir au pilote Spark et à chaque exécuteur Spark. Le conducteur ne fait pas beaucoup de travail. Par conséquent, les valeurs par défaut de 1 processeur et 2 Go de mémoire suffisent pour exécuter la plupart des pipelines. Vous devrez peut-être augmenter la mémoire pour les pipelines qui contiennent de nombreuses étapes ou de grands schémas. Le nombre de processeurs attribués à un exécuteur détermine le nombre de tâches que l'exécuteur peut effectuer en parallèle.

Apprenez-en plus sur les ressources.

Régler le moteur d'exécution

Dans Cloud Data Fusion 6.4 et versions ultérieures, il configure automatiquement le moteur d'exécution afin d'optimiser les performances des clusters Dataproc éphémères. Pour les clusters Dataproc statiques, configurez votre moteur d'exécution.

Learn more

Pour en savoir plus sur les concepts présentés ici, consultez le guide de réglage des performances du pipeline de données CDAP.