Cette page a été traduite par l'API Cloud Translation.

Utiliser la traçabilité des données dans Dataflow

La traçabilité des données est une fonctionnalité Dataflow qui vous permet de suivre la façon dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées.

Chaque pipeline que vous exécutez à l'aide de Dataflow est associé à plusieurs composants de données. La traçabilité d'un élément de données inclut son origine, ce qui lui arrive et où il se déplace au fil du temps. La traçabilité des données vous permet de suivre le mouvement de bout en bout de vos composants de données, de leur origine à leur destination finale.

Lorsque vous activez la traçabilité des données pour vos jobs Dataflow, Dataflow capture les événements de traçabilité et les publie dans l'API Data Lineage de Dataplex Universal Catalog.

Pour accéder aux informations de traçabilité via Dataplex Universal Catalog, consultez Utiliser la traçabilité des données avec les systèmes Google Cloud .

Avant de commencer

Configurez votre projet :

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Verify that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and Data lineage APIs.

Enable the APIs

Verify that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and Data lineage APIs.

Enable the APIs

Dans Dataflow, vous devez également activer la traçabilité au niveau du job. Consultez Activer la traçabilité des données dans Dataflow dans ce document.

Rôles requis

Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Lecteur de catalogue Dataplex (roles/dataplex.catalogViewer) sur le projet de ressources Dataplex Universal Catalog
Lecteur de la traçabilité des données (roles/datalineage.viewer) sur le projet dans lequel vous utilisez Dataflow
Lecteur Dataflow (roles/dataflow.viewer) sur le projet dans lequel vous utilisez Dataflow

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles de traçabilité des données, consultez Rôles prédéfinis pour la traçabilité des données.

Compatibilité et limites

La traçabilité des données dans Dataflow présente les limites suivantes :

La traçabilité des données est compatible avec les versions 2.63.0 et ultérieures du SDK Apache Beam.
Vous devez activer la traçabilité des données pour chaque job.
La capture des données n'est pas instantanée. L'affichage des données de traçabilité des jobs Dataflow dans Dataplex Universal Catalog peut prendre quelques minutes.
Les sources et récepteurs suivants sont acceptés :
- Apache Kafka
- BigQuery
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner
Les modèles Dataflow qui utilisent ces sources et ces récepteurs capturent et publient également automatiquement les événements de traçabilité.

Activer la traçabilité des données dans Dataflow

Vous devez activer la traçabilité au niveau du job. Pour activer la traçabilité des données, utilisez l'option de service Dataflow enable_lineage comme suit :

Java

--dataflowServiceOptions=enable_lineage=true

Python

--dataflow_service_options=enable_lineage=true

Go

--dataflow_service_options=enable_lineage=true

gcloud

Exécutez la commande gcloud dataflow jobs run avec l'option additional-experiments. Si vous utilisez des modèles Flex, exécutez la commande gcloud dataflow flex-template run.

--additional-experiments=enable_lineage=true

Vous pouvez éventuellement spécifier un ou plusieurs des paramètres suivants avec l'option de service :

process_id : identifiant unique utilisé par Dataplex Universal Catalog pour regrouper les exécutions de job. Si aucune valeur n'est spécifiée, le nom du job est utilisé.
process_name : nom lisible du processus de traçabilité des données. S'il n'est pas spécifié, le nom du job précédé de "Dataflow " est utilisé.

Spécifiez ces options comme suit :

Java

--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Python

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Go

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

gcloud

--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Afficher la traçabilité dans Dataplex Universal Catalog

La traçabilité des données fournit des informations sur les relations entre les ressources de votre projet et les processus qui les ont créées. Vous pouvez afficher les informations sur la lignée des données dans la console Google Cloud sous la forme d'un graphique ou d'un tableau unique. Vous pouvez également récupérer des informations sur la provenance des données à partir de l'API Data Lineage sous forme de données JSON.

Pour en savoir plus, consultez Utiliser la traçabilité des données avec les systèmes Google Cloud .

Désactiver la traçabilité des données dans Dataflow

Si le lineage des données est activé pour un job spécifique et que vous souhaitez le désactiver, annulez le job existant et exécutez une nouvelle version du job sans l'option de service enable_lineage.

Facturation

L'utilisation de la traçabilité des données dans Dataflow n'a aucune incidence sur votre facture Dataflow, mais elle peut entraîner des frais supplémentaires sur votre facture Dataplex Universal Catalog. Pour en savoir plus, consultez Considérations relatives à la traçabilité des données et Tarifs de Dataplex Universal Catalog.

Étapes suivantes

Découvrez-en plus sur la traçabilité des données.
Découvrez comment utiliser la traçabilité des données.

Utiliser la traçabilité des données dans Dataflow Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Avant de commencer

Rôles requis

Compatibilité et limites

Activer la traçabilité des données dans Dataflow

Java

Python

Go

gcloud

Java

Python

Go

gcloud

Afficher la traçabilité dans Dataplex Universal Catalog

Désactiver la traçabilité des données dans Dataflow

Facturation

Étapes suivantes

Utiliser la traçabilité des données dans Dataflow