Afficher la traçabilité dans Dataplex

Cette page explique comment afficher la traçabilité des données générées par vos pipelines Cloud Data Fusion avec d'autres mouvements de données sur Google Cloud, à des fins de découverte et de gouvernance. Vous pouvez afficher les graphiques de traçabilité des sources de données compatibles sur la page Dataplex de la console ou utiliser l'API Data Lineage pour récupérer des enregistrements de traçabilité complets des données.

Plug-ins compatibles avec la traçabilité des données Dataplex

Cloud Data Fusion et Dataplex permettent la traçabilité au niveau des éléments pour les plug-ins suivants:

  • Amazon S3
  • BigQuery
  • Récepteur de tables multiples BigQuery (version 6.9.1 et ultérieure)
  • Spanner
  • Cloud Storage
  • Cloud SQL pour MySQL
  • Cloud SQL pour PostgreSQL
  • Dataplex
  • FTP
  • Base de données générique
  • HTTP
  • MSSQL/SQL Server
  • Source de plusieurs tables de bases de données (version 6.9.1 et ultérieure)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • Table SAP

Pour en savoir plus, consultez la page Plug-ins Cloud Data Fusion.

Avant de commencer

Pour activer l'affichage des graphiques de traçabilité Cloud Data Fusion sur la page Dataplex de la console, procédez comme suit:

  1. Créez un pipeline de données qui n'utilise que les plug-ins compatibles.

  2. Activez l'API Data Lineage dans le projet contenant votre instance Cloud Data Fusion.

  3. Attribuez le rôle de producteur d'événements de traçabilité de données (roles/datalineage.producer) au compte de service géré par Cloud Data Fusion, l'agent de service de l'API Cloud Data Fusion. Le processus varie si votre instance s'exécute dans une version antérieure de Cloud Data Fusion et si RBAC est activé.

    6.10 ou version ultérieure ou RBAC

    Si votre instance Cloud Data Fusion utilise la version 6.10.0 ou une version ultérieure, ou si votre instance utilise une version antérieure et que le contrôle RBAC n'est pas activé, procédez comme suit:

    1. Dans la console Google Cloud, accédez à la page IAM.

      Accéder à IAM

    2. Cochez la case Inclure les attributions de rôles fournies par Google.

    3. Sélectionnez le compte de service de l'agent de service de l'API Cloud Data Fusion, puis cliquez sur Modifier.

    4. Cliquez sur Ajouter un autre rôle et sélectionnez le rôle Producteur d'événements de traçabilité des données.

    5. Cliquez sur Enregistrer.

    <6.10 avec RBAC

    Si votre instance Cloud Data Fusion utilise une version antérieure à la version 6.10.0 et que le contrôle RBAC est activé, le compte de service n'apparaît pas dans la liste des comptes principaux sur la page IAM. Vous devez saisir le nom du compte de service manuellement.

    Pour accorder le rôle requis, procédez comme suit:

    1. Dans la console Google Cloud, accédez à la page IAM.

      Accéder à IAM

    2. Cliquez sur Accorder l'accès.

    3. Dans le champ Nouveaux comptes principaux, saisissez le compte de service de l'agent de service de l'API Cloud Data Fusion. Utilisez le format suivant : datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Remplacez TENANT_PROJECT_ID par l'ID de locataire de votre instance. Pour afficher l'ID du projet locataire, accédez à la page Instances, puis cliquez sur le nom de l'instance pour afficher les détails de l'instance.

      Accéder à la page "Instances"

    4. Sélectionnez le rôle Producteur d'événements de traçabilité des données.

    5. Cliquez sur Enregistrer.

Activer la traçabilité des données Dataplex dans Cloud Data Fusion

Pour les nouvelles instances dans Cloud Data Fusion, la traçabilité des données Dataplex est désactivée par défaut. Si vous avez créé l'instance avant le 27 janvier 2024 avec la version 6.8.0 ou une version ultérieure, elle est activée par défaut une fois les étapes de la section Avant de commencer effectuées.

Activer la traçabilité des données Dataplex lorsque vous créez une instance

Console

Pour activer la traçabilité des données Dataplex lorsque vous créez une instance, procédez comme suit:

  1. Accédez à la page Instances de Cloud Data Fusion, puis cliquez sur Créer une instance.

    Créer une instance

  2. Lorsque vous configurez l'instance, développez la section Options avancées et cliquez sur Activer l'intégration avec la traçabilité des données Dataplex. Pour en savoir plus sur la création d'instances, consultez la page Créer une instance publique.

API REST

Pour activer la traçabilité des données Dataplex lorsque vous créez une instance, définissez la propriété facultative dataplex_data_lineage_integration_enabled sur true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Pour la désactiver, définissez-la sur "false" ou omettez-la, car la traçabilité est désactivée par défaut lorsque vous créez une instance.

Activer ou désactiver la traçabilité des données Dataplex dans une instance existante

Console

Pour activer ou désactiver la traçabilité des données Dataplex dans une instance existante dans Cloud Data Fusion, procédez comme suit:

  1. Affichez les détails de l'instance :
    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Cliquez sur Instances, puis sur le nom de l'instance pour accéder à la page Détails de l'instance.

      Accéder à la page "Instances"

  2. Dans le champ Intégration de la traçabilité des données Dataplex, cliquez sur Modifier.
  3. Activez ou désactivez la traçabilité des données Dataplex, puis cliquez sur Enregistrer.

API REST

Pour activer la traçabilité des données Dataplex dans une instance existante dans Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled sur true et incluez la valeur du paramètre updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Pour désactiver la traçabilité des données Dataplex dans une instance existante dans Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled sur false et incluez la valeur du paramètre updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Afficher les graphiques de traçabilité des données

Pour afficher les graphiques de traçabilité des entités dans tous les services Google Cloud, procédez comme suit:

  1. Accédez à votre instance dans Cloud Data Fusion et exécutez un pipeline de données qui utilise des plug-ins compatibles.

  2. Affichez les graphiques de traçabilité sur la page Dataplex de la console et recherchez l'élément dont vous souhaitez afficher les informations de traçabilité.

Limites

L'affichage de la traçabilité dans Dataplex présente les limites suivantes:

Étapes suivantes