À propos de la traçabilité des données

La traçabilité des données est une fonctionnalité Dataplex qui vous permet de suivre la manière dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées.

Pourquoi avez-vous besoin de la traçabilité des données ?

Le traitement de grands jeux de données implique souvent de transformer les données en entités adaptées aux besoins d'un projet spécifique: fichiers texte, tableaux, rapports, tableaux de bord, modèles.

Par exemple, imaginons que vous possédiez une boutique en ligne dans laquelle vous enregistrez chaque achat dans une seule table SQL. Pour permettre à vos analystes de travailler plus facilement avec les données, vous commencez à exécuter des jobs qui extraient des informations de cette table unique et produire des tables plus petites par région, par marque ou par prix soldé. Vos analystes commencent ensuite à faire de même : ils effectuent d'autres transformations, en fusionnant ces petites tables avec d'autres sources de données pour produire encore plus de tables.

Cela peut devenir un défi de taille pour vos partenaires :

  • Les consommateurs de données ne peuvent pas utiliser un outil en libre-service pour comprendre si les données provenant d'une source faisant autorité.
  • Les ingénieurs en données ne peuvent pas identifier la cause des problèmes, car ils ne disposent pas de moyen fiable de suivre toutes les transformations de données.
  • Les ingénieurs et analystes de données ne peuvent pas évaluer pleinement l'impact possible avant de modifier ou de supprimer des tables.
  • Les responsables de la gouvernance des données ne peuvent pas comprendre comment les données sensibles sont utilisées dans l'ensemble de l'organisation et s'assurer du respect des exigences réglementaires.

La traçabilité des données est une solution qui permet de :

  • Comprendre comment les données sont extraites et transformées grâce à la traçabilité des visualisations graphiques.
  • Recherchez les causes des erreurs de suivi liées aux entrées et aux opérations de données.
  • Améliorez la gestion des changements grâce à l'analyse d'impact : évitez les temps d'arrêt ou les erreurs inattendues, comprenez les entrées dépendantes et collaborez avec les personnes concernées.

Modèle d'informations sur la traçabilité des données

Dans sa forme de base, la lignée est un enregistrement des données qui sont transformées de sources en cibles. L'API Data Lineage collecte ces informations et les organise dans un modèle de données hiérarchique à l'aide des concepts de processus, d'exécutions et d'événements.

Processus

Un processus est la définition d'une opération de transformation de données prise en charge pour un système spécifique. Dans le contexte de la lignée BigQuery, un process est l'un des types de jobs compatibles.

Exécuter

Une exécution correspond à une exécution d'un processus. Les processus peuvent avoir plusieurs exécutions. Les exécutions contiennent des informations telles que les heures de début et de fin, l'état ou des attributs supplémentaires. Pour en savoir plus, consultez les Documentation de référence de la ressource run

Événement

Un événement représente un point dans le temps où une opération de transformation de données a eu lieu et a entraîné le transfert de données entre une source et une entité cible.

Les événements contiennent une liste de liens définissant l'entrée correspondant à la source. et qui était la cible d'un événement particulier. Les événements sont utilisés pour calculer graphiques de visualisation de la traçabilité, ils ne sont pas directement exposés dans la console Google Cloud. Vous pouvez les créer, les lire et les supprimer (mais pas les mettre à jour) à l'aide de l'API Data Lineage.

Exemple

Prenons l'exemple suivant, où des données sont copiées entre des tables BigQuery :

L'exemple extrait des données des tables appelées "customer_year" et "customers" pour dériver une table appelée "top_customer".
Figure 1 Exemple de graphique montrant les sources des données d'une table.

Le processus de lignée (représenté sur le graphique par l'icône Icône du processus de traçabilité BigQuery.) décrit la manière dont les données sont transférées entre les tables. Il peut s'agir d'une requête SQL CREATE TABLE AS SELECT ou d'une instruction INSERT.

Chaque exécution de cette instruction SQL constitue une exécution individuelle. Les exécutions contiennent des événements, qui enregistrent les tables utilisées comme sources et comme cibles. Dans cet exemple, les tables customer_year et customers sont tous deux la source. pour la table cible top_customer.

Graphique de visualisation de la traçabilité

Les graphiques de traçabilité représentent les informations collectées par l'API Data Lineage pour une entrée Data Catalog spécifique. Root est l'entrée que vous afficher la traçabilité.

L'exemple de graphique montre comment les données de deux tables sont transformées, puis fusionnées dans une nouvelle table, avec un panneau d'informations affichant le code SQL en bas.
Figure 2. Exemple de graphique de visualisation de la traçabilité dans l'UI Dataplex

Dataplex fonctionne avec l'API Data Lineage pour identifier les entrées dont le nom complet correspond aux entités reconnues par la traçabilité des données. Pour les entrées Dataplex correspondantes, vous pouvez accéder à la traçabilité sur sa page d'informations et afficher le graphique.

Les graphiques de lignée affichent deux types d'éléments :

  • Boutons rectangulaires larges qui représentent les entités impliquées dans la construction d'informations de lignée en tant que sources ou cibles d'un événement de lignée.

  • Boutons carrés plus petits représentant les processus chargés de créer ou de mettre à jour les entités source ou cible. Les boutons de processus utilisent des icônes spécifiques au système source qui les a signalés à l'API Data Lineage. Par exemple, les jobs BigQuery utilisent Icône Icône du processus de traçabilité BigQuery..

Vue sous forme de liste de traçabilité

La vue Liste de traçabilité affiche des informations de traçabilité détaillées pour les entités d'une une seule table.

Par rapport au graphique de visualisation de la lignée, qui est plus adapté à l'affichage de graphiques de lignée relativement petits, la vue de liste de la lignée vous permet d'afficher des informations sur la lignée des entités ayant de nombreuses connexions.

L'image suivante présente un exemple de liste de traçabilité dans console Google Cloud. La liste qui suit décrit l'image dans des dans les moindres détails.

Exemple de vue de la liste de la généalogie dans la console Google Cloud.
Figure 3 : Exemple de vue de liste de la lignée dans la console Google Cloud.
  • Chaque ligne du tableau représente un seul lien de lignée entre deux entrées. Dans le graphique, ces noms sont représentés comme des liens de traçabilité entre deux d'entrée, y compris tous les nœuds de processus intermédiaires. Par exemple, Source et Les Target sont des nœuds d'éléments, parfois séparés par plusieurs nœuds de processus.

  • L'option Direction spécifie la partie du flux de données à afficher dans le en fonction de l'élément racine:

    • En amont: affiche des informations de traçabilité pour les entrées qui sont des sources de données. pour l'entrée sélectionnée. Dans le graphique de la lignée, ces entrées apparaissent à gauche de l'entrée sélectionnée.

    • En aval : affiche les informations de traçabilité pour les entrées qui utilisent l'entrée sélectionnée ou en sont dérivées. Sur le graphique de la lignée, ces entrées s'affichent à droite de l'entrée sélectionnée.

  • L'option Time Range (Période) vous permet de filtrer les informations de traçabilité en fonction de l'heure que la traçabilité s'est produite:

    • Start Time (Heure de début) : affiche la traçabilité survenue après l'heure de début.

    • End Time (Heure de fin) : affiche la traçabilité qui s'est produite avant l'heure de fin.

  • La profondeur indique à quel point elle est éloignée de la ressource racine, d'une source ou ressource dérivée. La vue Liste affiche jusqu'à 1 000 liens de traçabilité, avec la profondeur maximale à partir de la racine sous la forme de 10 liens de traçabilité. Si une lignée se trouve en dehors de cette plage, vous en êtes informé. Vous pouvez afficher la lignée en dehors de cette plage en sélectionnant le nom d'une autre entité dans la vue Liste.

  • Le panneau Détails affiche des informations sur la source du lien, la cible du lien et tous les processus ayant créé ce lien.

  • Vous pouvez personnaliser les colonnes affichées dans le tableau et filtrer les résultats. Vous pouvez également exporter les résultats dans un fichier CSV.

Suivi automatisé de la traçabilité des données

Lorsque vous activez l'API Data Lineage, les systèmes Google Cloud compatibles avec la traçabilité des données, qui commencent à signaler les mouvements de données. Chaque système intégré peut envoyer des informations sur la lignée pour une gamme différente de sources de données. Pour en savoir plus sur chaque produit compatible, consultez les sections suivantes.

BigQuery

Causes de l'activation de la traçabilité des données dans votre projet BigQuery Dataplex enregistre automatiquement les informations de traçabilité pour:

Les jobs de copie, de requête et de chargement BigQuery sont représentés en tant que processus (cliquez sur l'icône en forme de verre sur le graphique de visualisation de la traçabilité détails). Chaque processus contient le job_id BigQuery dans attributs pour le job BigQuery le plus récent.

Autres services

La traçabilité des données est compatible avec les services Google Cloud suivants :

Traçabilité des données pour les sources de données personnalisées

Vous pouvez utiliser l'API Data Lineage dans Dataplex pour enregistrer manuellement des informations sur la traçabilité pour toute source de données non prise en charge par les systèmes intégrés.

Dataplex peut créer des graphiques de visualisation pour la lignée enregistrée manuellement si vous utilisez un fullyQualifiedNames correspondant aux noms complets des entrées Data Catalog existantes. Si vous voulez enregistrer la traçabilité d'une source de données personnalisée, commencez par créer entrée Data Catalog personnalisée.

Les attributs de chaque processus de source de données personnalisées peuvent contenir la clé sql liste. La valeur de cette clé sera utilisée pour afficher la mise en surbrillance du code dans le panneau d'informations du graphique de la lignée des données. L'instruction SQL s'affichera telle qu'elle était fournies. L'utilisateur est responsable du filtrage des informations sensibles. Le nom de clé sql est sensible à la casse.

OpenLineage

Si vous utilisez déjà OpenLineage pour collecter des informations de traçabilité auprès d'autres sources de données, vous pouvez importer des événements OpenLineage dans Dataplex et afficher ces événements dans la console Google Cloud. Pour en savoir plus, consultez Intégrer à OpenLineage

Limites

  • Toutes les informations sur la lignée sont conservées dans le système pendant 30 jours seulement.
  • Les informations de filiation sont conservées après la suppression de la source de données associée. Autrement dit, si vous supprimez une table BigQuery et son vous pouvez tout de même lire la traçabilité de ce tableau à l'aide de l'API pendant 30 jours.

Accéder à la traçabilité des données

Vous pouvez accéder aux fonctionnalités de traçabilité des données à l'aide des éléments suivants :

Tarifs

  • Dataplex utilise le SKU de traitement Premium pour facturer la traçabilité des données. Pour en savoir plus, reportez-vous à la section Tarification.

  • Pour séparer les frais de traçabilité des données des autres frais dans le SKU de traitement Dataplex Premium, disponible sur le rapport Cloud Billing, utilisez le libellé goog-dataplex-workload-type avec la valeur LINEAGE

  • Si vous appelez l'API Data Lineage Origin sourceType avec une valeur autre que CUSTOM, cela peut entraîner des coûts supplémentaires.

Étape suivante