Considérations concernant la traçabilité des données

Ce document fournit des informations sur la conformité et les limites du suivi des données. La traçabilité des données est activée par projet, et non par système. Cela signifie qu'une fois que vous avez activé l'API Data Lineage, les informations de traçabilité peuvent être automatiquement signalées pour plusieurs systèmes du projet, en fonction du contrôle de la traçabilité au niveau du produit de chaque système.

Le suivi automatique de la lignée est compatible avec les systèmes suivants:

Contrôles de la lignée au niveau du produit dans les systèmes compatibles avec Google Cloud
Système Paramètres de lignée disponibles
BigQuery,
Cloud Data Fusion
Il n'est pas possible de configurer le suivi de la lignée pour limiter uniquement Cloud Data Fusion ou BigQuery lorsque l'API Data Lineage est activée dans un projet.
Cloud Composer Cloud Composer utilise le contrôle d'intégration de la traçabilité des données au niveau de l'environnement. La traçabilité des données est automatiquement activée pour tous les nouveaux environnements Cloud Composer, à condition qu'ils répondent aux exigences. Pour en savoir plus, consultez Traçabilité des données avec Dataplex. Pour les environnements existants, vous pouvez activer ou désactiver l'intégration de la lignée des données dans les paramètres de l'environnement.
Dataproc Les tâches Spark Dataproc peuvent capturer des événements de lignée et les publier dans l'API Data Lineage. Pour en savoir plus, consultez la page Intégration de la traçabilité des données à Dataproc.
Vertex AI La traçabilité des données est automatiquement activée pour les artefacts et les paramètres Vertex AI, tels que les modèles, les ensembles de données, les modèles de pipeline et les composants. La traçabilité d'un pipeline inclut les facteurs qui ont contribué à sa création, ainsi que les artefacts et les métadonnées dérivés par la suite. Pour en savoir plus, consultez la section Suivre la traçabilité des artefacts de pipeline.

Impact sur la facturation

Lorsque vous activez l'API Data Lineage sur un projet, examinez l'impact sur vos frais de facturation, car l'API Data Lineage est activée par projet (pour en savoir plus, consultez la section précédente).

Pour les emplacements multirégionaux, tels que l'Union européenne (eu), l'Asie (asia) et les États-Unis (us), et pour BigQuery Omni, le traitement de la lignée est distribué dans des régions spécifiques, et les coûts dépendent des régions où le traitement est effectué (voir Exemples de tarification du catalogue de données).

Conformité de la traçabilité des données

  • La traçabilité des données enregistre des métadonnées sur le transfert de données, mais ne capture pas les données elles-mêmes. Pour en savoir plus sur les champs inclus dans les métadonnées, consultez le modèle d'informations sur la traçabilité des données et la documentation de référence de l'API Data Lineage.
  • La traçabilité des données dans Dataplex est compatible avec VPC-SC.
  • Dataplex ne permet pas d'utiliser des clés de chiffrement gérées par le client pour protéger les métadonnées de la lignée collectées.

Limites de la traçabilité des données

Lorsque vous sélectionnez un nœud dans le graphique de la lignée, le panneau latéral des détails du nœud est vide dans les cas suivants:

  1. les ressources se trouvent dans une autre organisation ;
  2. l'utilisateur n'est pas membre de l'organisation qui héberge la ressource.