Gérer les configurations de pipeline

Cette page décrit comment gérer les configurations des pipelines déployés.

Avant de commencer

Cette page nécessite des connaissances préalables sur les profils de calcul et les performances de pipeline.

Configuration du profil de calcul

Vous pouvez modifier le profil de calcul ou personnaliser les paramètres du profil de calcul par défaut qui exécute le pipeline. Pour en savoir plus, consultez les pages Gérer les profils de calcul et Propriétés du provisionneur Dataproc.

Configuration du pipeline

Pour chaque pipeline, vous pouvez activer ou désactiver l'instrumentation, comme les métriques de temporisation. Par défaut, l'instrumentation est activée. Si l'instrumentation est activée, Cloud Data Fusion génère des métriques pour chaque nœud du pipeline lorsque vous exécutez le pipeline. Les métriques suivantes s'affichent dans l'onglet Métriques de chaque nœud. Les métriques de la source, de la transformation et du récepteur varient légèrement.

  • Records out
  • Records in
  • Nombre total d'erreurs
  • Records out per second
  • Min process time (one record)
  • Max process time (one record)
  • Standard deviation
  • Average processing time

Nous vous recommandons de toujours activer l'instrumentation, sauf si l'environnement manque de ressources.

Pour les pipelines de traitement en flux continu, vous pouvez également définir l'intervalle de traitement par lot (secondes/minutes) pour les données en streaming.

Configuration du moteur

Apache Spark est le moteur d'exécution par défaut. Vous pouvez transmettre des paramètres personnalisés pour Spark. Pour en savoir plus, consultez la section Traitement en parallèle.

Ressources

Vous pouvez spécifier la mémoire et le nombre de processeurs pour le pilote et l'exécutant Spark. Le pilote orchestre la tâche Spark. L'exécuteur gère le traitement des données dans Spark. Pour en savoir plus, consultez la section Gestion des ressources.

Alerte de pipeline

Vous pouvez configurer le pipeline pour qu'il envoie des alertes et lance des tâches de post-traitement une fois l'exécution du pipeline terminée. Vous créez des alertes de pipeline lorsque vous concevez le pipeline. Une fois le pipeline déployé, vous pouvez afficher les alertes. Vous pouvez modifier le pipeline pour modifier les paramètres d'alerte. Pour en savoir plus, consultez la section Créer des alertes.

Pushdown de transformation

Vous pouvez activer le pushdown de transformation si vous souhaitez qu'un pipeline exécute certaines transformations dans BigQuery. Pour en savoir plus, consultez la présentation du pushdown de transformation.

Étape suivante