Cette page explique comment afficher la traçabilité des données générées par votre Pipelines Cloud Data Fusion avec d'autres transferts de données sur Google Cloud à des fins de découverte et de gouvernance. Vous pouvez afficher les graphiques de traçabilité des sources de données compatibles sur le page Dataplex de la console ou utiliser l'API Data Lineage pour récupérer les enregistrements complètes de traçabilité des données.
Plug-ins compatibles avec la traçabilité des données Dataplex
Cloud Data Fusion et Dataplex prennent en charge le niveau des éléments la traçabilité pour les plug-ins suivants:
- Amazon S3
- BigQuery
- Récepteur multitable BigQuery (version 6.9.1 et ultérieure)
- Spanner
- Cloud Storage
- Cloud SQL pour MySQL
- Cloud SQL pour PostgreSQL
- Dataplex
- FTP
- Base de données générique
- HTTP
- MSSQL/SQL Server
- Source de plusieurs tables de base de données (version 6.9.1 et ultérieure)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Table SAP
Pour en savoir plus, consultez Plug-ins Cloud Data Fusion
Avant de commencer
Pour activer l'affichage des graphiques de traçabilité Cloud Data Fusion sur le la page Dataplex de la console, procédez comme suit:
Créer un pipeline de données qui n'utilise que les plug-ins compatibles.
Activez l'API Data Lineage dans le projet contenant vos Instance Cloud Data Fusion.
Attribuer le rôle Producteur d'événements de traçabilité des données (
roles/datalineage.producer
) au compte de service géré Cloud Data Fusion, l'API Cloud Data Service de l'API Fusion Ops. Le processus varie si votre instance s'exécute dans une version antérieure de Cloud Data Fusion et RBAC sont activés.6.10 ou version ultérieure du contrôle des accès basé sur les rôles
Si votre instance Cloud Data Fusion utilise la version 6.10.0 ou une version ultérieure, ou votre instance utilise une version antérieure et que RBAC n'est pas activé, procédez comme suit : étapes:
Dans la console Google Cloud, accédez à la page IAM.
Cochez la case Inclure les attributions de rôles fournies par Google.
Sélectionnez le compte de service de l'agent de service de l'API Cloud Data Fusion et clic
Modifier.Cliquez sur Ajouter un autre rôle et sélectionnez Événements de traçabilité des données et le rôle "producteur".
Cliquez sur Enregistrer.
< 6.10 avec RBAC
Si votre instance Cloud Data Fusion utilise une version antérieure à 6.10.0 et que RBAC est activé, le compte de service n'apparaît pas liste des comptes principaux sur la page IAM. Vous devez saisir le nom du compte de service manuellement.
Pour accorder le rôle requis, procédez comme suit:
Dans la console Google Cloud, accédez à la page IAM.
Cliquez sur Accorder l'accès.
Dans le champ Nouveaux comptes principaux, indiquez l'API Cloud Data Fusion. Compte de service d'agent de service. Utilisez le format suivant:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
Remplacez
TENANT_PROJECT_ID
par le pour votre instance. Pour afficher l'ID du projet locataire, accédez à la page Instances, puis cliquez sur le nom de l'instance plus de détails.Sélectionnez le rôle Producteur d'événements de traçabilité des données.
Cliquez sur Enregistrer.
Activer la traçabilité des données Dataplex dans Cloud Data Fusion
Pour les nouvelles instances dans Cloud Data Fusion, les données Dataplex la traçabilité est désactivée par défaut. Si vous l'avez créée avant le 27 janvier, 2024 avec la version 6.8.0 ou une version ultérieure, il est activé par défaut une fois que vous avez terminé les étapes de la section Avant de commencer.
Activer la traçabilité des données Dataplex lorsque vous créez une instance
Console
Pour activer la traçabilité des données Dataplex lorsque vous créez une instance : procédez comme suit:
Accédez à la page Instances de Cloud Data Fusion, puis cliquez sur Créer une Compute Engine.
Lorsque vous configurez l'instance, développez la section Options avancées. puis cliquez sur Activer l'intégration avec la traçabilité des données Dataplex. Pour plus sur la création d'instances, consultez la section Créer une instance Compute Engine.
API REST
Pour activer la traçabilité des données Dataplex lorsque vous créez une instance :
définissez la propriété facultative dataplex_data_lineage_integration_enabled
sur
true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Pour la désactiver, définissez la propriété sur "false" ou omettez-la, car la traçabilité est désactivée par défaut lorsque vous créez une instance.
Activer ou désactiver la traçabilité des données Dataplex dans une instance existante
Console
Pour activer ou désactiver la traçabilité des données Dataplex dans une instance existante dans Cloud Data Fusion, procédez comme suit:
- Affichez les détails de l'instance:
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Cliquez sur Instances, puis sur le nom de l'instance pour accéder à la page Détails de l'instance.
- Dans le champ Intégration de la traçabilité des données Dataplex, cliquez sur Modifier.
- Activez ou désactivez la traçabilité des données Dataplex, puis cliquez sur Enregistrer.
API REST
Pour activer la traçabilité des données Dataplex dans une instance existante
Dans Cloud Data Fusion, définissez le paramètre dataplex_data_lineage_integration_enabled
à true
et incluez la valeur du paramètre updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Pour désactiver la traçabilité des données Dataplex dans une instance existante dans
Dans Cloud Data Fusion, définissez le paramètre dataplex_data_lineage_integration_enabled
à false
et incluez la valeur du paramètre updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Afficher les graphiques de traçabilité des données
Pour afficher les graphiques de traçabilité des entités de tous les services Google Cloud, procédez comme suit : effectuer les opérations suivantes:
Accéder à votre instance dans Cloud Data Fusion et exécuter un pipeline de données qui utilise des plug-ins compatibles.
Afficher les graphiques de traçabilité sur la page Dataplex de la console puis recherchez l'élément dont vous souhaitez consulter les informations de traçabilité.
Limites
L'affichage de la traçabilité dans Dataplex présente les limites suivantes:
La traçabilité dans Dataplex n'est visible que s'il existe Entité BigQuery connectée aux plug-ins compatibles. Pour plus pour savoir quand les graphiques de traçabilité des données sont disponibles, consultez À propos de la traçabilité des données
L'API Data Lineage n'est pas compatible avec les clés de chiffrement gérées par le client (CMEK).
Cloud Data Fusion n'est pas compatible avec cette fonctionnalité dans
me-central1
.europe-west12
d'établissements.Consultez les considérations relatives à la traçabilité des données.
Étape suivante
- En savoir plus sur la traçabilité des données