À propos de la traçabilité des données

La traçabilité des données est une fonctionnalité Dataplex qui vous permet de suivre la circulation des données dans vos systèmes: d'où elles proviennent, où elles sont transmises et quelles transformations leur sont appliquées.

Pourquoi avez-vous besoin d'une traçabilité des données ?

Le traitement de grands ensembles de données implique souvent de transformer des données en entités adaptées aux besoins d'un projet spécifique: fichiers texte, tables, rapports, tableaux de bord, modèles.

Par exemple, imaginez que vous avez une boutique en ligne où vous enregistrez chaque achat dans une seule table SQL. Pour permettre à vos analystes de travailler plus facilement avec les données, vous commencez à exécuter des tâches qui extraient des informations de cette table unique et produisent des tables plus petites par région, marque ou prix soldé. Vos analystes commencent alors à faire de même: ils effectuent d'autres transformations, en fusionnant ces petites tables avec d'autres sources de données pour produire encore plus de tables.

Cela peut devenir un défi de taille pour vos partenaires:

  • Les utilisateurs de données ne peuvent pas utiliser un outil en libre-service pour déterminer si les données proviennent d'une source faisant autorité.
  • Les ingénieurs de données ne peuvent pas être à l'origine des problèmes en raison d'un manque de fiabilité pour suivre toutes les transformations de données.
  • Les ingénieurs et analystes de données ne peuvent pas évaluer pleinement l'impact potentiel avant de modifier ou de supprimer des tables.
  • Les gouverneurs de données ne peuvent pas comprendre comment les données sensibles sont utilisées dans l'ensemble de l'organisation ni garantir le respect des exigences réglementaires.

La traçabilité des données est une solution qui offre un moyen pratique de:

  • comprendre comment les données sont extraites et transformées à l'aide de visualisations de graphiques de traçabilité ;
  • Retrouver l'origine des erreurs liées aux entrées et aux opérations de données
  • Améliorez la gestion du changement grâce à l'analyse d'impact: évitez les temps d'arrêt ou les erreurs inattendues, identifiez les entrées dépendantes et collaborez avec les personnes concernées.

Graphique de traçabilité

Les graphiques de traçabilité représentent les informations collectées par l'API Data Lineage pour une entrée Data Catalog spécifique:

L'exemple de graphique affiche les données de deux tables qui sont transformées, puis fusionnées dans une nouvelle table, avec un panneau de détails affichant le code SQL ancré au bas de l'écran.
Figure 1. Exemple de graphique de visualisation de la traçabilité dans l'interface utilisateur de Dataplex

Dataplex utilise l'API Data Lineage pour identifier les entrées dont le nom complet correspond aux entités reconnues par la traçabilité des données. Pour les entrées Dataplex correspondantes, vous pouvez accéder à l'onglet Traçage sur leur page d'informations et afficher le graphique.

Les graphiques de traçabilité affichent deux types d'éléments:

  • Boutons rectangulaires larges qui représentent les entités impliquées dans la construction des informations de traçabilité en tant que sources ou cibles d'un événement de traçabilité.
  • Boutons carrés plus petits représentant les processus responsables de la création ou de la mise à jour des entités source ou cible. Les boutons de processus utilisent des icônes spécifiques au système source qui les ont signalés à l'API Data Lineage. Par exemple, les tâches BigQuery utilisent l'icône Icône du processus de traçabilité BigQuery..

Modèle d'informations sur la traçabilité des données

Dans sa forme de base, la traçabilité est un enregistrement des données transformées de sources en cibles. L'API Data Lineage collecte ces informations et les organise dans un modèle de données hiérarchique à l'aide des concepts de processus, d'exécutions et d'événements.

Processus

Un processus est la définition d'une opération de transformation de données prise en charge pour un système spécifique. Dans le contexte de la traçabilité BigQuery, process est l'un des types de tâches compatibles.

Exécuter

Une exécution est l’exécution d’un processus. Les processus peuvent avoir plusieurs exécutions. Les exécutions contiennent des détails tels que les heures de début et de fin, l'état ou des attributs supplémentaires. Pour en savoir plus, consultez la documentation de référence de la ressource run.

Événement

Un événement représente un moment précis où une opération de transformation de données a eu lieu et a entraîné le déplacement de données entre une entité source et une entité cible.

Les événements contiennent une liste de liens qui définissent l'entrée comme source et la cible d'un événement particulier. Bien que les événements soient utilisés pour calculer des graphiques de visualisation de la traçabilité, ils ne sont pas directement exposés dans la console Google Cloud. Vous pouvez les créer, les lire et les supprimer (mais pas les mettre à jour) à l'aide de l'API Data Lineage.

Exemple

Prenons l'exemple suivant, dans lequel des données sont copiées entre des tables BigQuery:

L'exemple extrait les données des tables appelées customer_year et des clients pour dériver une table appelée top_customer.
Figure 2. Exemple de graphique indiquant les sources des données d'une table.

Le déplacement des données entre les tables est décrit par le processus de traçabilité (représenté sur le graphique par l'icône Icône du processus de traçabilité BigQuery.): il peut s'agir d'une requête SQL CREATE TABLE AS SELECT ou d'une instruction INSERT.

Chaque exécution de cette instruction SQL constituerait une run individuelle. Les exécutions contiennent des événements qui enregistrent les tables utilisées comme sources et comme cibles. Dans cet exemple, les tables customer_year et customers sont toutes deux sources de la table top_customer cible.

Suivi automatisé de la traçabilité des données

Lorsque vous activez l'API Data Lineage, les systèmes Google Cloud compatibles avec la traçabilité des données commencent à signaler leurs mouvements de données. Chaque système intégré peut envoyer des informations de traçabilité pour une plage différente de sources de données. Consultez les sections suivantes pour en savoir plus sur chaque produit compatible.

BigQuery

Si vous activez la traçabilité des données dans votre projet BigQuery, Dataplex enregistre automatiquement les informations de traçabilité pour:

.

Les tâches de copie, de requête et de chargement BigQuery sont représentées par des processus (cliquez sur l'icône en forme de verre sur le graphique de visualisation de la traçabilité pour afficher les détails du processus). Chaque processus contient le job_id BigQuery dans la liste des attributs de la tâche BigQuery la plus récente.

Autres services

La traçabilité des données peut être intégrée aux services Google Cloud suivants:

Traçabilité des données pour les sources de données personnalisées

Vous pouvez utiliser l'API Data Lineage dans Dataplex pour enregistrer manuellement les informations de traçabilité de toute source de données non compatible avec les systèmes intégrés.

Dataplex peut créer des graphiques de visualisation pour la traçabilité enregistrée manuellement si vous utilisez un objet fullyQualifiedNames correspondant aux noms complets des entrées Data Catalog existantes. Si vous souhaitez enregistrer la traçabilité d'une source de données personnalisée, créez d'abord une entrée Data Catalog personnalisée.

Chaque processus de source de données personnalisée peut contenir la clé sql dans la liste des attributs. La valeur de cette clé sera utilisée pour afficher la mise en surbrillance du code dans le panneau de détails du graphique de traçabilité des données. L'instruction SQL s'affiche telle qu'elle a été fournie. Il appartient à l'utilisateur de filtrer les informations sensibles. Le nom de clé sql est sensible à la casse.

OpenLineage

Si vous utilisez déjà OpenLineage pour collecter des informations de traçabilité à partir d'autres sources de données, vous pouvez importer des événements OpenLineage dans Dataplex et les afficher dans la console Google Cloud. Pour en savoir plus, consultez la section Intégrer avec OpenLineage.

Limites actuelles des fonctionnalités

  • Toutes les informations de traçabilité sont conservées dans le système pendant 30 jours seulement.
  • Les informations de traçabilité sont conservées lorsque vous supprimez la source de données associée. Autrement dit, si vous supprimez une table BigQuery et son entrée Data Catalog, vous pouvez toujours consulter la traçabilité de cette table à l'aide de l'API pendant 30 jours au maximum.

Traçabilité des données d'accès

Vous pouvez accéder aux fonctionnalités de traçabilité des données à l'aide des outils suivants:

Étapes suivantes