Afficher la traçabilité dans le catalogue universel Dataplex
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page explique comment afficher la traçabilité des données générées par vos pipelines Cloud Data Fusion avec d'autres transferts de données sur Google Cloud, à des fins de découverte et de gouvernance. Vous pouvez afficher les graphiques de la lignée pour les sources de données compatibles sur la page "Dataplex Universal Catalog" de la console ou utiliser l'API Data Lineage pour récupérer des enregistrements de la lignée des données complets.
Plugins compatibles avec la traçabilité des données Dataplex Universal Catalog
Cloud Data Fusion et Dataplex Universal Catalog sont compatibles avec la traçabilité au niveau des composants pour les plug-ins suivants:
Amazon S3
BigQuery
Récepteur multi-tables BigQuery (version 6.9.1 et versions ultérieures)
Spanner
Cloud Storage
Cloud SQL pour MySQL
Cloud SQL pour PostgreSQL
Dataplex Universal Catalog
FTP
Base de données générique
HTTP
MSSQL/SQL Server
Source de plusieurs tables de base de données (version 6.9.1 et ultérieures)
Pour activer l'affichage des graphiques de traçabilité Cloud Data Fusion sur la page "Catalogue universel Dataplex" de la console, procédez comme suit:
Attribuez le rôle Producteur d'événements de la lignée de données (roles/datalineage.producer) au compte de service géré par Cloud Data Fusion, l'Agent de service de l'API Cloud Data Fusion.
Le processus varie si votre instance s'exécute dans une version antérieure de Cloud Data Fusion et que RBAC est activé.
6.10 ou version ultérieure, ou pas de RBAC
Si votre instance Cloud Data Fusion utilise la version 6.10.0 ou ultérieure, ou si elle utilise une version antérieure et que RBAC n'est pas activé, procédez comme suit:
Dans la console Google Cloud , accédez à la page IAM.
Cochez la case Inclure les attributions de rôles fournies par Google.
Sélectionnez le compte de service Agent de service de l'API Cloud Data Fusion, puis cliquez sur
edit
Modifier.
Cliquez sur Ajouter un autre rôle, puis sélectionnez le rôle Producteur d'événements de la lignée de données.
Cliquez sur Enregistrer.
<6.10 avec RBAC
Si votre instance Cloud Data Fusion utilise une version antérieure à 6.10.0 et que le RBAC est activé, le compte de service n'apparaît pas dans la liste des principaux sur la page IAM. Vous devez saisir manuellement le nom du compte de service.
Pour attribuer le rôle requis, procédez comme suit:
Dans la console Google Cloud , accédez à la page IAM.
Dans le champ Nouveaux comptes principaux, saisissez le compte de service de l'agent de service de l'API Cloud Data Fusion. Utilisez le format suivant : datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.
Remplacez TENANT_PROJECT_ID par l'ID de locataire de votre instance. Pour afficher l'ID du projet du locataire, accédez à la page Instances, puis cliquez sur le nom de l'instance pour afficher ses détails.
Sélectionnez le rôle Producteur d'événements de traçabilité des données.
Cliquez sur Enregistrer.
Activer la traçabilité des données Dataplex Universal Catalog dans Cloud Data Fusion
Pour les nouvelles instances dans Cloud Data Fusion, le lignage des données du catalogue universel Dataplex est désactivé par défaut. Si vous avez créé l'instance avant le 27 janvier 2024 avec la version 6.8.0 ou ultérieure, elle est activée par défaut après avoir suivi la procédure décrite dans la section Avant de commencer.
Activer la traçabilité des données Dataplex Universal Catalog lorsque vous créez une instance
Console
Pour activer la traçabilité des données Dataplex Universal Catalog lorsque vous créez une instance, procédez comme suit:
Accédez à la page Instances de Cloud Data Fusion, puis cliquez sur Créer une instance.
Lorsque vous configurez l'instance, développez la section Options avancées, puis cliquez sur Activer l'intégration avec la traçabilité des données Dataplex. Pour en savoir plus sur la création d'instances, consultez la section Créer une instance publique.
API REST
Pour activer la traçabilité des données Dataplex Universal Catalog lorsque vous créez une instance, définissez la propriété dataplex_data_lineage_integration_enabled facultative sur true:
Pour le désactiver, définissez la propriété sur "false" ou omettez-la, car le lignage est désactivé par défaut lorsque vous créez une instance.
Activer ou désactiver la traçabilité des données Dataplex Universal Catalog dans une instance existante
Console
Pour activer ou désactiver la traçabilité des données Dataplex Universal Catalog dans une instance existante de Cloud Data Fusion, procédez comme suit:
Affichez les détails de l'instance :
Dans la Google Cloud console, accédez à la page Cloud Data Fusion.
Cliquez sur Instances, puis sur le nom de l'instance pour accéder à la page Détails de l'instance.
Dans le champ Intégration de la traçabilité des données Dataplex, cliquez sur Modifier.
Activez ou désactivez la traçabilité des données Dataplex Universal Catalog, puis cliquez sur Enregistrer.
API REST
Pour activer la traçabilité des données Dataplex Universal Catalog dans une instance existante de Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled sur true et incluez la valeur du paramètre updateMask:
Pour désactiver la traçabilité des données Dataplex Universal Catalog dans une instance existante de Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled sur false et incluez la valeur du paramètre updateMask:
L'affichage de la traçabilité dans Dataplex Universal Catalog présente les limites suivantes:
La traçabilité dans Dataplex Universal Catalog n'est détectable que si une entité BigQuery est connectée aux plug-ins compatibles. Pour en savoir plus sur la disponibilité des graphiques de traçabilité des données, consultez la page À propos de la traçabilité des données.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eThis page details how to view data lineage generated by Cloud Data Fusion pipelines, integrated with other data movement activities in Google Cloud, for enhanced discovery and governance.\u003c/p\u003e\n"],["\u003cp\u003eLineage graphs for supported data sources can be accessed through the Dataplex page in the console, or using the Data Lineage API for complete records.\u003c/p\u003e\n"],["\u003cp\u003eEnabling the Data Lineage API and granting the Data Lineage Events Producer role to the Cloud Data Fusion service account are essential prerequisites for viewing Cloud Data Fusion lineage graphs in Dataplex.\u003c/p\u003e\n"],["\u003cp\u003eDataplex data lineage is turned off by default for new Cloud Data Fusion instances, but can be enabled either during instance creation or for existing instances via the console or REST API.\u003c/p\u003e\n"],["\u003cp\u003eThere are certain limitations to viewing lineage in Dataplex, such as the necessity of a connected BigQuery entity, lack of support for customer-managed encryption keys, and region restrictions.\u003c/p\u003e\n"]]],[],null,["# View lineage in Dataplex Universal Catalog\n\nThis page describes how to view the data lineage generated by your\nCloud Data Fusion pipelines with other data movement on Google Cloud,\nfor discovery and governance purposes. You can\nview the lineage graphs for supported data sources on the\nDataplex Universal Catalog page in the console, or use the Data Lineage API\nto retrieve complete data lineage records. \n\nPlugins that support Dataplex Universal Catalog data lineage\n------------------------------------------------------------\n\nCloud Data Fusion and Dataplex Universal Catalog support asset-level\nlineage for the following plugins:\n\n- Amazon S3\n- BigQuery\n- BigQuery Multi Table sink (version 6.9.1 and later)\n- Spanner\n- Cloud Storage\n- Cloud SQL for MySQL\n- Cloud SQL for PostgreSQL\n- Dataplex Universal Catalog\n- FTP\n- Generic Database\n- HTTP\n- MSSQL/SQL Server\n- Multiple Database Tables source (version 6.9.1 and later)\n- MySQL\n- Oracle\n- PostgreSQL\n- SAP OData\n- SAP ODP\n- SAP Table\n\nFor more information, see\n[Cloud Data Fusion plugins](/data-fusion/plugins).\n\nBefore you begin\n----------------\n\nTo enable viewing Cloud Data Fusion lineage graphs on the\nDataplex Universal Catalog page in the console, do the following:\n\n1. [Create a data pipeline](/data-fusion/docs/create-data-pipeline)\n that uses only the [supported plugins](#supported_plugins).\n\n2. [Enable the Data Lineage API](/dataplex/docs/use-lineage) in the project that contains your\n Cloud Data Fusion instance.\n\n3. Grant the Data Lineage Events Producer role\n ([`roles/datalineage.producer`](/iam/docs/understanding-roles#datalineage.producer))\n to the Cloud Data Fusion-managed service account, the [Cloud Data\n Fusion API Service\n Agent](/data-fusion/docs/concepts/service-accounts#cloud-data-fusion-service-account).\n The process varies if your instance runs in an earlier version of\n Cloud Data Fusion and RBAC is enabled.\n\n ### 6.10+ or no RBAC\n\n\n If your Cloud Data Fusion instance uses version 6.10.0 or later, or\n your instance uses an earlier version and RBAC isn't enabled, follow these\n steps:\n 1. In the Google Cloud console, go to the **IAM** page.\n\n [Go to IAM](https://console.cloud.google.com/iam-admin/iam?supportedpurview=project)\n 2. Select the **Include Google-provided role grants** checkbox.\n\n 3. Select the Cloud Data Fusion API Service Agent service account and\n click\n edit\n **Edit**.\n\n 4. Click **Add another role** and select the **Data Lineage Events\n Producer** role.\n\n 5. Click **Save**.\n\n ### \\\u003c6.10 with RBAC\n\n If your Cloud Data Fusion instance uses a version earlier than\n 6.10.0 and RBAC is enabled, the service account doesn't appear in the\n list of principals on the IAM page. You must enter the\n service account name manually.\n\n To grant the required role, follow these steps:\n 1. In the Google Cloud console, go to the **IAM** page.\n\n [Go to IAM](https://console.cloud.google.com/iam-admin/iam?supportedpurview=project)\n 2. Click **Grant access**.\n\n 3. In the **New principals** field, enter the Cloud Data Fusion API\n Service Agent service account. Use the following format:\n `datafusion-system@`\u003cvar translate=\"no\"\u003eTENANT_PROJECT_ID\u003c/var\u003e`.iam.gserviceaccount.com`.\n\n Replace \u003cvar translate=\"no\"\u003eTENANT_PROJECT_ID\u003c/var\u003e with the\n tenant ID for your instance. To view the tenant project ID, go to\n the **Instances** page and click the instance name for instance\n details.\n\n [Go to Instances](https://console.cloud.google.com/data-fusion/locations/-/instances)\n 4. Select the **Data Lineage Events Producer** role.\n\n 5. Click **Save**.\n\nEnable Dataplex Universal Catalog data lineage in Cloud Data Fusion\n-------------------------------------------------------------------\n\nFor new instances in Cloud Data Fusion, Dataplex Universal Catalog data\nlineage is turned off by default. If you created the instance before January 27,\n2024 with version 6.8.0 or later, it's turned on by default after completing the\nsteps in [Before you begin](#before_you_begin).\n\n### Enable Dataplex Universal Catalog data lineage when you create an instance\n\n### Console\n\n\nTo enable Dataplex Universal Catalog data lineage when you create an instance,\nfollow these steps:\n\n1. Go to the Cloud Data Fusion **Instances** page and click **Create an\n instance**.\n\n [Create an instance](https://console.cloud.google.com/data-fusion/instance-create)\n2. When you configure the instance, expand the **Advanced options** section\n and click **Enable integration with Dataplex data lineage** . For more\n information about creating instances, see [Create a public\n instance](/data-fusion/docs/how-to/create-instance).\n\n### REST API\n\nTo enable Dataplex Universal Catalog data lineage when you create an instance,\nset the optional `dataplex_data_lineage_integration_enabled` property to\n`true`: \n\n echo '{ \"description\": \"CDAPinstance\", \"dataplex_data_lineage_integration_enabled\": \"true\"}' | curl -X POST \\\n -H \"Authorization: Bearer $(gcloud auth print-access-token)\" \\\n -H \"Content-Type: application/json\" \\\n --data @- \\\n \"https://datafusion.googleapis.com/v1/projects/\u003cvar translate=\"no\"\u003ePROJECT\u003c/var\u003e/locations/\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e/instances?instanceId=\u003cvar translate=\"no\"\u003eINSTANCE_NAME\u003c/var\u003e\"\n\nTo turn it off, either set the property to false or omit the property, as\nlineage is turned off by default when you create a new instance.\n\n### Enable or disable Dataplex Universal Catalog data lineage in an existing instance\n\n### Console\n\n\nTo enable or disable Dataplex Universal Catalog data lineage in an existing instance in\nCloud Data Fusion, follow these steps:\n\n1. View the instance details:\n 1. In the Google Cloud console, go to the Cloud Data Fusion page.\n\n 2. Click **Instances** , and then click the instance's name to go to the\n **Instance details** page.\n\n [Go to Instances](https://console.cloud.google.com/data-fusion/locations/-/instances)\n2. In the **Dataplex data lineage integration** field, click **Edit**.\n3. Enable or disable Dataplex Universal Catalog data lineage, and then click **Save**.\n\n### REST API\n\nTo enable Dataplex Universal Catalog data lineage in an existing instance in\nCloud Data Fusion, set the `dataplex_data_lineage_integration_enabled`\nproperty to `true` and include the `updateMask` parameter value: \n\n echo '{ \"description\": \"CDAPinstance\", \"dataplex_data_lineage_integration_enabled\": \"true\"}' | curl -X POST \\\n -H \"Authorization: Bearer $(gcloud auth print-access-token)\" \\\n -H \"Content-Type: application/json\" \\\n --data @- \\\n \"https://datafusion.googleapis.com/v1/projects/\u003cvar translate=\"no\"\u003ePROJECT\u003c/var\u003e/locations/\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e/instances?instanceId=\u003cvar translate=\"no\"\u003eINSTANCE_NAME\u003c/var\u003e?updateMask=dataplex_data_lineage_integration_enabled\"\n\nTo disable Dataplex Universal Catalog data lineage in an existing instance in\nCloud Data Fusion, set the `dataplex_data_lineage_integration_enabled`\nproperty to `false` and include the `updateMask` parameter value: \n\n echo '{ \"description\": \"CDAPinstance\", \"dataplex_data_lineage_integration_enabled\": \"false\"}' | curl -X POST \\\n -H \"Authorization: Bearer $(gcloud auth print-access-token)\" \\\n -H \"Content-Type: application/json\" \\\n --data @- \\\n \"https://datafusion.googleapis.com/v1/projects/\u003cvar translate=\"no\"\u003ePROJECT\u003c/var\u003e/locations/\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e/instances?instanceId=\u003cvar translate=\"no\"\u003eINSTANCE_NAME\u003c/var\u003e?updateMask=dataplex_data_lineage_integration_enabled\"\n\nView data lineage graphs\n------------------------\n\nTo view lineage graphs for entities across all Google Cloud services,\ndo the following:\n\n1. Go to your instance in Cloud Data Fusion and run a data pipeline\n that uses supported plugins.\n\n2. [View the lineage graphs on the Dataplex Universal Catalog page in the console](/dataplex/docs/use-lineage#view-lineage-graphs)\n and find the asset for which you want to view lineage information.\n\nLimitations\n-----------\n\nViewing lineage in Dataplex Universal Catalog has the following limitations:\n\n- The lineage in Dataplex Universal Catalog is only discoverable if there is a\n BigQuery entity connected to the supported plugins. For more\n information about when data lineage graphs are available, see\n [About data lineage](/dataplex/docs/about-data-lineage).\n\n- The Data Lineage API [doesn't support customer-managed encryption keys (CMEK)](/dataplex/docs/lineage-considerations#compliance).\n\n- Cloud Data Fusion doesn't support this feature in `me-central1` or\n `europe-west12` locations.\n\n- Review the\n [data lineage considerations](/dataplex/docs/lineage-considerations).\n\n| **Warning:** Dataplex Universal Catalog uses IP addresses to form a fully qualified name that uniquely identifies sources and sinks (such as a Database sink) to display lineage. If you must prevent sharing IP address or hostname information, don't enable Dataplex Universal Catalog data lineage integration.\n\nWhat's next\n-----------\n\n- Learn more about [data lineage](/dataplex/docs/about-data-lineage)."]]