La traçabilité des données est un Dataplex Fonctionnalité qui vous permet de suivre la façon dont les données circulent dans vos systèmes et leur provenance l'endroit où elles sont transmises et les transformations qui leur sont appliquées.
Pourquoi avez-vous besoin de la traçabilité des données ?
Le traitement de grands jeux de données implique souvent de transformer les données en entités adaptées aux besoins d'un projet spécifique: fichiers texte, tableaux, rapports, tableaux de bord, modèles.
Par exemple, imaginez que vous avez une boutique en ligne dans laquelle vous enregistrez chaque achat dans une seule table SQL. Pour permettre à vos analystes de travailler plus facilement avec les données, vous commencez à exécuter des jobs qui extraient des informations de cette table unique et produire des tables plus petites par région, par marque ou par prix soldé. Vos analystes commencent à faire de même: ils effectuent d'autres transformations, qui fusionnent des tables avec d'autres sources de données pour générer encore plus de tables.
Cela peut devenir un grand défi pour vos partenaires:
- Les consommateurs de données ne peuvent pas utiliser un outil en libre-service pour comprendre si les données provenant d'une source faisant autorité.
- Les ingénieurs de données ne peuvent pas causer les problèmes en raison d'un manque de moyens fiables pour suivre toutes les transformations de données.
- Avant, les ingénieurs et analystes de données ne peuvent pas évaluer pleinement l'impact potentiel modifier ou supprimer des tableaux.
- Les gouverneurs de données ne peuvent pas comprendre comment les données sensibles sont utilisées l’organisation et garantir le respect des exigences réglementaires.
La traçabilité des données est une solution qui offre un moyen pratique de:
- Comprendre comment les données sont extraites et transformées grâce à la traçabilité des visualisations graphiques.
- Retracer les erreurs liées aux entrées et aux opérations de données jusqu'à leur racine causes.
- Améliorez la gestion du changement grâce à l'analyse d'impact: évitez les temps d'arrêt les erreurs inattendues, identifier les entrées dépendantes et collaborer avec les partenaires concernés.
Graphique de visualisation de la traçabilité
Les graphiques de traçabilité représentent les informations collectées par l'API Data Lineage pour une entrée Data Catalog spécifique:
![L'exemple de graphique montre les données de deux tables en cours de transformation, puis de fusion
dans une nouvelle table, avec un panneau de détails affichant le code SQL ancré en bas.](https://cloud.google.com/static/data-catalog/images/lineage_total_end_screen.png?authuser=3&hl=fr)
Dataplex utilise l'API Data Lineage pour identifier les entrées dont le nom complet correspond aux entités reconnues par la traçabilité des données. Pour les entrées Dataplex correspondantes, vous pouvez accéder à la traçabilité sur sa page d'informations et afficher le graphique.
Les graphiques de traçabilité affichent deux types d'éléments:
- Boutons larges et rectangulaires qui représentent les entités impliquées dans construire des informations de traçabilité en tant que sources ou cibles d'un événement de traçabilité.
- Boutons carrés plus petits représentant les processus responsables de la création ou de la mise à jour
les entités source ou cibles. Les boutons de processus utilisent
des icônes spécifiques au système source qui
les avoir signalés à l'API Data Lineage. Par exemple, les jobs BigQuery peuvent
utilisez la
Icône
.
Modèle d'informations sur la traçabilité des données
Dans sa forme de base, la traçabilité est un enregistrement des données transformées de sources à targets. L'API Data Lineage collecte ces informations et les organise dans un modèle de données hiérarchique en utilisant les concepts de processus, des exécutions et des événements.
Processus
Un processus est la définition d'une opération de transformation de données prise en charge pour
un système spécifique. Dans le contexte de la traçabilité BigQuery,
process
est l'un des types de tâches compatibles.
Exécuter
Une exécution est l'exécution d'un processus. Les processus peuvent
avoir plusieurs exécutions.
Les exécutions contiennent des informations telles que les heures de début et de fin, l'état ou des attributs supplémentaires.
Pour en savoir plus, consultez les
Documentation de référence de la ressource run
Événement
Un événement représente un moment précis où une opération de transformation de données a été effectuée lieu et a entraîné le déplacement de données entre une entité source et une entité cible.
Les événements contiennent une liste de liens définissant l'entrée correspondant à la source. et qui était la cible d'un événement particulier. Les événements sont utilisés pour calculer graphiques de visualisation de la traçabilité, ils ne sont pas directement exposés dans la console Google Cloud. Vous pouvez les créer, les lire et les supprimer (mais pas les mettre à jour) à l'aide de l'API Data Lineage.
Exemple
Prenons l'exemple suivant, où les données sont copiées entre BigQuery tableaux:
<ph type="x-smartling-placeholder">![L'exemple extrait des données de tables appelées customer_year et customers pour dériver une table appelée top_customer.](https://cloud.google.com/static/data-catalog/images/sample_lineage_graph.png?authuser=3&hl=fr)
Le processus de traçabilité décrit la manière dont les données se déplacent entre les tables
(représenté sur le graphique par la
): il peut s'agir d'une requête SQL
CREATE TABLE AS SELECT
ou d'une instruction INSERT
.
Chaque exécution de cette instruction SQL constitue une exécution individuelle.
Les exécutions contiennent des événements, qui enregistrent les tables utilisées comme sources et
en tant que cibles. Dans cet exemple, les tables
customer_year
et customers
sont tous deux la source.
pour la table cible top_customer
.
Suivi automatisé de la traçabilité des données
Lorsque vous activez l'API Data Lineage, les systèmes Google Cloud compatibles avec la traçabilité des données, qui commencent à signaler le transfert de leurs données. Chaque système intégré peut envoyer des informations de traçabilité pour différentes sources de données. Consultez les sections suivantes pour en savoir plus sur tous les produits compatibles.
<ph type="x-smartling-placeholder">BigQuery
Causes de l'activation de la traçabilité des données dans votre projet BigQuery Dataplex enregistre automatiquement les informations de traçabilité pour:
- Nouvelles tables issues des jobs BigQuery suivants:
<ph type="x-smartling-placeholder">
- </ph>
- Tâches de copie
- Les tâches de chargement qui utilisent le URI Cloud Storage permettant de charger des données dans n'importe quel format autorisé depuis Cloud Storage*
- Jobs de requête qui utilisent les données suivantes LDD (langage de définition) en langage SQL standard de Google: <ph type="x-smartling-placeholder">
- Tables existantes résultant de l'utilisation de la manipulation de données suivante
de langage (LMD) en SQL standard Google:
<ph type="x-smartling-placeholder">
- </ph>
- SÉLECTIONNER par rapport à l'un des types de tables répertoriés: <ph type="x-smartling-placeholder">
- INSÉRER SÉLECTION
- FUSIONNER
- METTRE À JOUR
- SUPPRIMER
Les jobs de copie, de requête et de chargement BigQuery sont représentés
en tant que processus (cliquez sur l'icône en forme de verre
sur le graphique de visualisation de la traçabilité
détails). Chaque processus contient le job_id BigQuery
dans
attributs
pour le job BigQuery le plus récent.
Autres services
La traçabilité des données peut être intégrée aux éléments suivants : Services Google Cloud:
Traçabilité des données pour les sources de données personnalisées
Vous pouvez utiliser l'API Data Lineage. dans Dataplex afin d'enregistrer manuellement les informations de traçabilité pour toutes les sources de données prises en charge par les systèmes intégrés.
Dataplex peut créer des graphiques de visualisation pour les enregistrements manuels
de la traçabilité si vous utilisez
fullyQualifiedNames
correspondant aux valeurs
des entrées Data Catalog existantes. Si vous voulez enregistrer
la traçabilité d'une source de données personnalisée, commencez par créer
entrée Data Catalog personnalisée.
Les attributs de chaque processus de source de données personnalisées peuvent contenir la clé sql
liste. La valeur de cette clé sera utilisée pour mettre en surbrillance le code dans les détails
du graphique de traçabilité des données. L'instruction SQL s'affichera telle qu'elle était
fournies. L'utilisateur est chargé de filtrer les informations sensibles. La
le nom de clé sql
est sensible à la casse.
OpenLineage
Si vous utilisez déjà OpenLineage pour collecter des informations de traçabilité auprès d'autres sources de données, vous pouvez importer des événements OpenLineage dans Dataplex et afficher ces événements dans la console Google Cloud. Pour en savoir plus, consultez Intégrer à OpenLineage
Limites actuelles des fonctionnalités
- Toutes les informations de traçabilité sont conservées dans le système pendant 30 jours uniquement.
- Les informations de traçabilité sont conservées une fois que vous avez supprimé la source de données associée. Autrement dit, si vous supprimez une table BigQuery et son vous pouvez tout de même lire la traçabilité de ce tableau à l'aide de l'API pendant 30 jours.
Accéder à la traçabilité des données
Vous pouvez accéder aux fonctionnalités de traçabilité des données à l'aide des éléments suivants:
- Pages d'informations des entrées dans l'UI Dataplex dans la console Google Cloud. Consultez Afficher les graphiques de traçabilité.
- Page "Détails de la table" dans l'UI BigQuery de la console Google Cloud. Consultez Afficher les graphiques de traçabilité.
- Pages d'ensembles de données et de registre de modèles dans l'interface utilisateur de Vertex AI dans la console Google Cloud Consultez Afficher les graphiques de traçabilité.
- API Data Lineage
Étape suivante
Découvrez comment suivre la traçabilité des données pour les jobs de copie et de requête d'une table BigQuery.
Découvrez comment utiliser la traçabilité des données avec les systèmes Google Cloud.
Pour obtenir des informations administratives, consultez les sections IAM mises à jour, les considérations relatives à la traçabilité et les journaux d'audit de la traçabilité des données.