Pour chaque pipeline, vous pouvez activer ou désactiver l'instrumentation, comme les métriques de temporisation. Par défaut, l'instrumentation est activée. Si l'instrumentation est activée, Cloud Data Fusion génère des métriques pour chaque nœud du pipeline lorsque vous exécutez le pipeline. Les métriques suivantes s'affichent dans l'onglet Métriques de chaque nœud. Les métriques de la source, de la transformation et du récepteur varient légèrement.
Records out
Records in
Nombre total d'erreurs
Records out per second
Min process time (one record)
Max process time (one record)
Standard deviation
Average processing time
Nous vous recommandons de toujours activer l'instrumentation, sauf si l'environnement manque de ressources.
Pour les pipelines de traitement en flux continu, vous pouvez également définir l'intervalle de traitement par lot (secondes/minutes) pour les données en streaming.
Configuration du moteur
Apache Spark est le moteur d'exécution par défaut. Vous pouvez transmettre des paramètres personnalisés pour Spark. Pour en savoir plus, consultez la section Traitement en parallèle.
Ressources
Vous pouvez spécifier la mémoire et le nombre de processeurs pour le pilote et l'exécutant Spark. Le pilote orchestre la tâche Spark. L'exécuteur gère le traitement des données dans Spark. Pour en savoir plus, consultez la section Gestion des ressources.
Alerte de pipeline
Vous pouvez configurer le pipeline pour qu'il envoie des alertes et lance des tâches de post-traitement une fois l'exécution du pipeline terminée. Vous créez des alertes de pipeline lorsque vous concevez le pipeline. Une fois le pipeline déployé, vous pouvez afficher les alertes. Vous pouvez modifier le pipeline pour modifier les paramètres d'alerte. Pour en savoir plus, consultez la section Créer des alertes.
Pushdown de transformation
Vous pouvez activer le pushdown de transformation si vous souhaitez qu'un pipeline exécute certaines transformations dans BigQuery. Pour en savoir plus, consultez la présentation du pushdown de transformation.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eThis page provides guidance on managing configurations for deployed pipelines, including compute profiles, pipeline instrumentation, engine parameters, resource allocation, and alerts.\u003c/p\u003e\n"],["\u003cp\u003eYou can customize the compute profile that runs the pipeline and set parameters, with the option to manage profiles and view Dataproc provisioner properties.\u003c/p\u003e\n"],["\u003cp\u003eInstrumentation can be enabled or disabled to generate metrics for each pipeline node, which can help in performance monitoring, and is recommended unless resources are constrained.\u003c/p\u003e\n"],["\u003cp\u003eConfigurations can also be made to allow for custom Spark parameters, memory and CPU specifications for the driver and executor, and the setting of batch intervals for streaming data.\u003c/p\u003e\n"],["\u003cp\u003ePipeline alerts and post-processing tasks can be set up during pipeline design and viewed after deployment, with the flexibility to enable transformation pushdown for BigQuery execution.\u003c/p\u003e\n"]]],[],null,["# Manage pipeline configurations\n\nThis page describes ways you can manage configurations for deployed\npipelines.\n\nBefore you begin\n----------------\n\nThis page requires some background knowledge about [Compute profiles](/data-fusion/docs/how-to/manage-compute-profiles) and\n[pipeline performance](/data-fusion/docs/concepts/performance-tuning-overview).\n\nCompute profile configuration\n-----------------------------\n\nYou can change the compute profile or customize the parameters of the default\ncompute profile that runs the pipeline. For more information, see\n[Manage compute profiles](/data-fusion/docs/how-to/manage-compute-profiles) and [Dataproc provisioner properties](/data-fusion/docs/concepts/dataproc).\n\nPipeline configuration\n----------------------\n\nFor each pipeline, you can enable or disable instrumentation, such as timing\nmetrics. By default, instrumentation is on. If instrumentation is enabled, when\nyou run the pipeline, Cloud Data Fusion generates metrics for each pipeline\nnode. The following metrics display on the **Metrics** tab of each node. The\nsource, transformation, and sink metrics vary slightly.\n\n- Records out\n- Records in\n- Total number of errors\n- Records out per second\n- Min process time (one record)\n- Max process time (one record)\n- Standard deviation\n- Average processing time\n\nWe recommend you always turn on Instrumentation, unless the environment is short\non resources.\n\nFor streaming pipelines, you can also set the **Batch interval**\n(seconds/minutes) for streaming data.\n\nEngine configuration\n--------------------\n\nApache Spark is the default execution engine. You can pass custom parameters\nfor Spark. For more information, see [Parallel processing](/data-fusion/docs/concepts/parallel-processing).\n\nResources\n---------\n\nYou can specify the memory and number of CPUs for the Spark driver and\nexecutor. The driver orchestrates the Spark job. The executor handles the data\nprocessing in Spark. For more information, see [Resource management](/data-fusion/docs/concepts/resource-management).\n\nPipeline alert\n--------------\n\nYou can configure the pipeline to send alerts and start post processing tasks\nafter the pipeline run finishes. You create pipeline alerts when you design the\npipeline. After you deploy the pipeline, you can view the alerts. You can edit\nthe pipeline to change alert settings. For more information, see\n[Create alerts](/data-fusion/docs/how-to/create-alerts).\n\nTransformation pushdown\n-----------------------\n\nYou can enable Transformation pushdown if you want a pipeline to execute\ncertain transformations in BigQuery. For more information,\nsee the [Transformation Pushdown overview](/data-fusion/docs/concepts/transformation-pushdown).\n\nWhat's next\n-----------\n\n- Learn more about [viewing and downloading pipeline logs in Cloud Data Fusion](/data-fusion/docs/how-to/view-and-download-pipeline-logs)."]]