Qu'est-ce que la traçabilité des données ?

La traçabilité des données est comme un GPS pour les informations d'une entreprise. Elle retrace l'intégralité de leur parcours et indique leur origine, leur destination et toutes les étapes qu'elles ont suivies. En suivant ce parcours, les entreprises peuvent avoir confiance en leurs données et les utiliser pour prendre des décisions critiques.

Définition de la traçabilité des données

La traçabilité des données est une carte du cycle de vie des données. Elle indique l'origine des données, comment elles ont été déplacées et transformées dans le temps, et où elles se trouvent actuellement. Elle fournit une piste d'audit claire pour comprendre, suivre et valider les données.

Cette vue complète inclut les systèmes sources, toutes les transformations appliquées (calculs, agrégations ou filtres, par exemple) et les destinations où les données sont utilisées, comme les rapports, les tableaux de bord ou d'autres applications. Considérez-la comme un arbre généalogique détaillé de chaque information utilisée par votre entreprise.

Traçabilité des données et provenance des données

Bien qu'elles soient souvent utilisées ensemble, la traçabilité et la provenance des données se concentrent sur différents aspects du parcours des données.

La traçabilité des données examine le parcours des données d'un point de vue macro, historique et stratégique. Elle se concentre sur le chemin complet et la logique de transformation qui ont conduit à l'état actuel d'un élément de données. C'est la carte complète.
La provenance des données est plus granulaire et spécifique. Elle se concentre souvent sur la source immédiate et la propriété d'un point de données ou d'un enregistrement spécifique à un moment donné. Elle est souvent utilisée pour authentifier l'origine d'un élément de données.

En résumé, la traçabilité montre l'évolution complète des données dans le temps et dans les différents systèmes, tandis que la provenance se concentre souvent sur la source et l'authenticité d'un élément de données particulier.

Fonctionnement de la traçabilité des données

La capture de la traçabilité des données était auparavant un processus difficile et principalement manuel, mais les solutions cloud modernes contribuent à l'automatiser considérablement. Le concept de base consiste à observer comment les données se déplacent et évoluent dans votre infrastructure, puis à créer un enregistrement visuel et traçable.

Capture automatique de la traçabilité et l'API Data Lineage

Les plates-formes de données modernes utilisent des techniques telles que l'analyse syntaxique et la surveillance pour découvrir et mapper automatiquement les flux de données.

Analyse : la plate-forme peut lire et comprendre la logique de transformation écrite dans des langages tels que SQL. En lisant une requête (par exemple, dans un job BigQuery), le système peut identifier les tables et colonnes sources qui ont été utilisées pour créer une table dérivée.
Surveillance : la plate-forme surveille le déplacement des données entre différents services (par exemple, d'un entrepôt de données vers un lac de données ou un pipeline de flux).

Une API de traçabilité des données est une technologie essentielle dans ce cas. Elle permet à différents systèmes et outils de signaler leur utilisation des données à un catalogue central. Par exemple, un outil d'intégration de données peut utiliser l'API pour indiquer au système central : "Je viens de déplacer des données de la table A vers la table B et d'effectuer une agrégation." Cela crée un enregistrement précis et en temps quasi réel du déplacement des données, sans intervention manuelle.

Rapports manuels et personnalisés sur la traçabilité

Bien que la capture automatique soit idéale, elle ne couvre pas forcément toutes les parties des systèmes existants ou personnalisés d'une organisation. Dans ces cas, les utilisateurs peuvent s'appuyer sur l'ajout de tags manuel aux métadonnées ou sur des rapports personnalisés. Cela implique que les experts du domaine documentent les flux de données et les associent dans un catalogue central. Bien que moins efficace, cette approche est parfois nécessaire pour obtenir une vue de bout en bout.

Visualisation de la traçabilité et reporting

Une fois les informations de traçabilité capturées, elles sont présentées aux utilisateurs à l'aide d'un outil de visualisation, souvent une interface Web. Cet outil transforme les métadonnées complexes en un graphique ou un diagramme interactif plus facile à lire. Les utilisateurs peuvent cliquer sur un rapport ou un tableau et voir instantanément un organigramme de chaque source en amont et de chaque consommateur en aval. Comprendre le parcours des données devient aussi simple que de suivre une ligne sur une carte.

Composants clés d'une carte de traçabilité des données

Une bonne carte de traçabilité des données peut vous aider à répondre rapidement aux questions "qui, quoi, quand, où et pourquoi" concernant n'importe quel élément de données. Les composants essentiels suivis incluent les suivants :

Source : origine des données (base de données transactionnelle, fichier ou système externe, par exemple).
Logique de transformation : opérations ou règles métier spécifiques appliquées aux données. Il peut s'agir de requêtes SQL, de scripts Python ou de la logique d'un job ETL (extraction, transformation, chargement).
Chemin/Flux : séquence de systèmes, de processus et de datastores que les données traversent
Date/version : date et heure du traitement des données, et version des données ou de la logique de transformation utilisée
Destination/consommateur : emplacement final des données et personne ou élément qui les a utilisées, comme un rapport réglementaire ou une machine

Avantages de la traçabilité des données

La traçabilité des données n'est pas qu'un exercice technique. Elle peut générer une valeur commerciale tangible en améliorant la façon dont une organisation gère ses données et leur fait confiance.

Amélioration de la gouvernance et de la conformité des données

La traçabilité des données aide les organisations à prouver exactement quelles sources de données ont été utilisées pour créer des rapports sensibles, ce qui est souvent requis pour la conformité réglementaire comme le RGPD, le CCPA ou la loi HIPAA.

Analyse des causes fondamentales plus rapide pour les problèmes de qualité des données

La traçabilité permet aux équipes techniques de remonter rapidement la piste du point de données défectueux, en passant par plusieurs transformations et systèmes, jusqu'à la source exacte où l'erreur a été introduite.

Analyse d'impact améliorée pour les modifications du système

La traçabilité des données permet d'effectuer une analyse d'impact instantanée. En remontant la chaîne à partir de la modification proposée, les équipes peuvent voir chaque rapport, tableau de bord ou application qui repose sur ces données. Elles peuvent ainsi évaluer le risque et avertir les utilisateurs de données avant que la modification ne perturbe quoi que ce soit.

Confiance accrue dans les éléments de données

Lorsque les utilisateurs peuvent facilement vérifier l'origine et les étapes de transformation des données qu'ils utilisent, leur confiance dans ces données augmente considérablement. Cela peut permettre de prendre des décisions davantage basées sur les données, car les utilisateurs ne remettent pas en question la qualité ou la fiabilité des informations sous-jacentes.

Traçabilité des données à l'IA

La traçabilité des données peut également aider à analyser l'origine des problèmes liés aux modèles d'IA. Si un modèle déployé commence à dériver (dégradation des performances) ou à générer des prédictions biaisées, la traçabilité permet aux data scientists de remonter rapidement jusqu'à la source.

Types courants de traçabilité des données

La traçabilité des données peut être suivie à différentes étapes du cycle de vie du développement des données et à différents niveaux de détail, selon les besoins.

Traçabilité au moment de la conception

La traçabilité au moment de la conception capture le flux de données tel qu'il est conçu et configuré dans les environnements de développement et de test. Elle repose sur la lecture des plans des pipelines de données, tels que les schémas, les scripts et les configurations de jobs ETL. Elle indique ce qu'il doit advenir des données.

Traçabilité de l'environnement d'exécution

La traçabilité au moment de l'exécution capture le flux de données tel qu'il se produit réellement dans l'environnement de production. Elle enregistre les entrées et sorties spécifiques des jobs et processus exécutés. Elle vous indique ce qui s'est passé avec les données, y compris tout comportement inattendu ou toute erreur. Pour la gouvernance des données, la traçabilité au moment de l'exécution est souvent considérée comme plus utile, car elle reflète la réalité.

Niveaux de traçabilité précis

Le niveau de détail capturé est appelé "précision". Les organisations choisissent un niveau de précision en fonction de leurs besoins en matière de gouvernance des données et de la complexité technique de leur environnement.

Au niveau des tables : suit le flux de données entre des tables ou des ensembles de données entiers. Il indique que la "Table A des clients" a alimenté la "Table B du rapport sur les ventes".
Exemple : Un système indique que l'intégralité de la table raw_transactions a été chargée dans la table daily_aggregations.
Au niveau des colonnes : suit le flux de données d'une colonne source à une colonne cible, y compris les transformations appliquées. Cette approche est souvent nécessaire pour la conformité.
Exemple : il suit la colonne "customer_id" de la base de données source, qui a été renommée "user_key" dans l'entrepôt de données, puis utilisée dans une jointure pour créer le rapport final.
Au niveau des rapports : permet de savoir quels rapports, tableaux de bord ou applications utilisent quelles tables et colonnes. C'est essentiel pour l'analyse d'impact et la confiance des utilisateurs métier.
Exemple : Un analyste commercial peut suivre une métrique du tableau de bord des ventes destiné à la direction, et identifier les colonnes et les tables spécifiques utilisées pour son calcul.
End-to-end: : fournit une vue complète de tous les systèmes, de l'application source initiale (comme un CRM) à toutes les étapes de préparation, de nettoyage et de transformation, jusqu'au rapport final ou au modèle de machine learning.
Exemple : suit le parcours d'un client depuis son inscription (enregistrée dans la base de données de l'application Web) jusqu'à ce que son utilisation soit résumée dans le résultat du modèle de prédiction du taux de perte d'utilisateurs.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Produits et solutions associés

Google Cloud propose plusieurs produits et services qui peuvent aider les organisations à capturer, gérer et exploiter automatiquement la traçabilité des données dans leur infrastructure cloud.

Ressources associées

Pour en savoir plus sur l'implémentation de la traçabilité des données à l'aide des produits d'analyse de Google Cloud, consultez la documentation et les guides officiels suivants :

À propos de la traçabilité des données : ce document explique ce qu'est la traçabilité des données dans Knowledge Catalog, en décrivant son workflow depuis les sources jusqu'à la plate-forme centrale, et en expliquant comment elle fournit une représentation claire, visuelle et programmatique du parcours de vos données.
Utiliser la traçabilité des données avec les systèmes Google Cloud : ce guide explique comment activer l'API Data Lineage, gérer les autorisations Identity and Access Management (IAM) nécessaires et afficher les informations de traçabilité sous forme de graphique interactif ou de liste dans la console Google Cloud pour BigQuery, Knowledge Catalog et Vertex AI.
Traçabilité des données avec Knowledge Catalog : ce document explique comment activer l'intégration automatique de la traçabilité des données dans Cloud Managed Service pour Apache Airflow, qui utilise le package apache-airflow-providers-openlineage pour envoyer des événements de traçabilité à l'API Data Lineage pour les opérateurs compatibles.