Cette page explique comment afficher la traçabilité des données générées par vos pipelines Cloud Data Fusion avec d'autres transferts de données sur Google Cloud, à des fins de découverte et de gouvernance. Vous pouvez afficher les graphiques de la lignée pour les sources de données compatibles sur la page "Dataplex" de la console ou utiliser l'API Data Lineage pour récupérer des enregistrements de lignée de données complets.
Plugins compatibles avec la traçabilité des données Dataplex
Cloud Data Fusion et Dataplex sont compatibles avec la traçabilité au niveau des composants pour les plug-ins suivants:
- Amazon S3
- BigQuery
- Récepteur multi-tables BigQuery (version 6.9.1 et versions ultérieures)
- Spanner
- Cloud Storage
- Cloud SQL pour MySQL
- Cloud SQL pour PostgreSQL
- Dataplex
- FTP
- Base de données générique
- HTTP
- MSSQL/SQL Server
- Source de plusieurs tables de base de données (version 6.9.1 et ultérieures)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Table SAP
Pour en savoir plus, consultez la page Plug-ins Cloud Data Fusion.
Avant de commencer
Pour afficher les graphiques de traçabilité Cloud Data Fusion sur la page "Dataplex" de la console, procédez comme suit:
Créez un pipeline de données qui n'utilise que les plug-ins compatibles.
Activez l'API Data Lineage dans le projet qui contient votre instance Cloud Data Fusion.
Attribuez le rôle Producteur d'événements de la lignée de données (
roles/datalineage.producer
) au compte de service géré par Cloud Data Fusion, l'Agent de service de l'API Cloud Data Fusion. Le processus varie si votre instance s'exécute dans une version antérieure de Cloud Data Fusion et que RBAC est activé.6.10 ou version ultérieure, ou pas de RBAC
Si votre instance Cloud Data Fusion utilise la version 6.10.0 ou ultérieure, ou si elle utilise une version antérieure et que RBAC n'est pas activé, procédez comme suit:
Dans la console Google Cloud, accédez à la page IAM.
Cochez la case Inclure les attributions de rôles fournies par Google.
Sélectionnez le compte de service Agent de service de l'API Cloud Data Fusion, puis cliquez sur
Modifier.Cliquez sur Ajouter un autre rôle, puis sélectionnez le rôle Producteur d'événements de la lignée de données.
Cliquez sur Enregistrer.
<6.10 avec RBAC
Si votre instance Cloud Data Fusion utilise une version antérieure à 6.10.0 et que le RBAC est activé, le compte de service n'apparaît pas dans la liste des principaux sur la page IAM. Vous devez saisir manuellement le nom du compte de service.
Pour attribuer le rôle requis, procédez comme suit:
Dans la console Google Cloud, accédez à la page IAM.
Cliquez sur Accorder l'accès.
Dans le champ Nouveaux comptes principaux, saisissez le compte de service de l'agent de service de l'API Cloud Data Fusion. Utilisez le format suivant :
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
.Remplacez
TENANT_PROJECT_ID
par l'ID de locataire de votre instance. Pour afficher l'ID du projet du locataire, accédez à la page Instances, puis cliquez sur le nom de l'instance pour afficher ses détails.Sélectionnez le rôle Producteur d'événements de traçabilité des données.
Cliquez sur Enregistrer.
Activer la traçabilité des données Dataplex dans Cloud Data Fusion
Pour les nouvelles instances dans Cloud Data Fusion, la traçabilité des données Dataplex est désactivée par défaut. Si vous avez créé l'instance avant le 27 janvier 2024 avec la version 6.8.0 ou ultérieure, elle est activée par défaut après avoir suivi la procédure décrite dans la section Avant de commencer.
Activer la traçabilité des données Dataplex lorsque vous créez une instance
Console
Pour activer la lignée de données Dataplex lorsque vous créez une instance, procédez comme suit:
Accédez à la page Instances de Cloud Data Fusion, puis cliquez sur Créer une instance.
Lorsque vous configurez l'instance, développez la section Options avancées, puis cliquez sur Activer l'intégration avec la traçabilité des données Dataplex. Pour en savoir plus sur la création d'instances, consultez la section Créer une instance publique.
API REST
Pour activer la traçabilité des données Dataplex lorsque vous créez une instance, définissez la propriété dataplex_data_lineage_integration_enabled
facultative sur true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Pour le désactiver, définissez la propriété sur "false" ou omettez-la, car le lignage est désactivé par défaut lorsque vous créez une instance.
Activer ou désactiver la traçabilité des données Dataplex dans une instance existante
Console
Pour activer ou désactiver la traçabilité des données Dataplex dans une instance existante de Cloud Data Fusion, procédez comme suit:
- Affichez les détails de l'instance :
Dans la console Google Cloud, accédez à la page Cloud Data Fusion.
Cliquez sur Instances, puis sur le nom de l'instance pour accéder à la page Détails de l'instance.
- Dans le champ Intégration de la traçabilité des données Dataplex, cliquez sur Modifier.
- Activez ou désactivez la traçabilité des données Dataplex, puis cliquez sur Enregistrer.
API REST
Pour activer la traçabilité des données Dataplex dans une instance existante de Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled
sur true
et incluez la valeur du paramètre updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Pour désactiver la traçabilité des données Dataplex dans une instance existante dans Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled
sur false
et incluez la valeur du paramètre updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Afficher des graphiques de traçabilité des données
Pour afficher des graphiques de lignée pour les entités de tous les services Google Cloud , procédez comme suit:
Accédez à votre instance dans Cloud Data Fusion et exécutez un pipeline de données qui utilise des plug-ins compatibles.
Affichez les graphiques de la lignée sur la page Dataplex de la console et recherchez l'élément pour lequel vous souhaitez afficher des informations sur la lignée.
Limites
L'affichage de la traçabilité dans Dataplex présente les limites suivantes:
La traçabilité dans Dataplex n'est détectable que si une entité BigQuery est connectée aux plug-ins compatibles. Pour en savoir plus sur la disponibilité des graphiques de traçabilité des données, consultez la page À propos de la traçabilité des données.
L'API Data Lineage n'est pas compatible avec les clés de chiffrement gérées par le client (CMEK).
Cloud Data Fusion n'est pas compatible avec cette fonctionnalité dans les emplacements
me-central1
oueurope-west12
.Consultez les considérations concernant la lignée des données.
Étape suivante
- En savoir plus sur la traçabilité des données