Suivre la traçabilité des données pour une table BigQuery
La traçabilité des données vous permet de suivre la manière dont les données circulent dans vos systèmes: d'où elles proviennent, où elles sont transmises et quelles transformations leur sont appliquées.
Découvrez comment suivre la traçabilité des données pour les tâches de copie et de requête BigQuery:
Copiez deux tables à partir d'un ensemble de données
new_york_taxi_trips
accessible au public.Combinez le nombre total de courses en taxi des deux tableaux dans un nouveau tableau.
Affichez un graphique de visualisation de la traçabilité pour les trois opérations.
Avant de commencer
Configurer votre projet:
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Data Catalog, BigQuery, and data lineage.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Data Catalog, BigQuery, and data lineage.
Rôles requis
Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Lecteur Data Catalog (
roles/datacatalog.viewer
) sur le projet de ressources Data Catalog -
Lecteur de traçabilité des données (
roles/datalineage.viewer
) sur le projet dans lequel vous utilisez BigQuery -
Lecteur de données BigQuery (
roles/bigquery.dataViewer
) sur le projet dans lequel vous utilisez BigQuery
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Ajouter un ensemble de données public à votre projet
Dans la console Google Cloud, accédez à la page "BigQuery".
Dans le volet Explorateur, cliquez sur Ajouter.
Dans le volet Ajouter, recherchez
Public datasets
, puis sélectionnez le résultat Ensembles de données publics.Dans le volet Marketplace, recherchez
NYC TLC Trips
, puis cliquez sur le résultat NYC TLC Trips.Cliquez sur Afficher l'ensemble de données.
Cette étape ajoute l'ensemble de données new_york_taxi_trips à votre projet. Le volet de détails affiche les informations sur l'ensemble de données, y compris des informations telles que l'ID de l'ensemble de données, l'emplacement des données et la date de dernière modification.
Créer un ensemble de données dans votre projet
Dans le volet Explorateur, sélectionnez le projet dans lequel vous souhaitez créer l'ensemble de données.
Cliquez sur l'icône Actions
, puis sur Créer un ensemble de données.Sur la page Créer un ensemble de données, saisissez
data_lineage_demo
dans le champ ID de l'ensemble de données. Conservez les valeurs par défaut dans les autres champs.Cliquez sur Créer un ensemble de données.
Dans le volet Explorateur, cliquez sur le
data_lineage_demo
que vous venez d'ajouter.
Le volet des détails affiche les informations sur l'ensemble de données.
Copier deux tables accessibles publiquement dans votre ensemble de données
Ouvrez un éditeur de requête: dans le volet de détails, à côté de l'onglet
data_lineage_demo
, cliquez sur (Saisir une nouvelle requête). Cette étape crée un onglet appeléUntitled
.Dans l'éditeur de requête, copiez la première table en saisissant la requête suivante. Remplacez
PROJECT_ID
par l'identifiant de votre projet.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Cliquez sur
Exécuter. Cette étape crée la première table, appeléenyc_green_trips_2021
.Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu de la première table.
Dans l'éditeur de requête, copiez la deuxième table en remplaçant la requête précédente par la requête suivante. Remplacez
PROJECT_ID
par l'identifiant de votre projet.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Cliquez sur
Exécuter. Cette étape crée la deuxième table, appeléenyc_green_trips_2022
.Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu de la deuxième table.
Agréger des données dans un nouveau tableau
Dans l'éditeur de requête, saisissez la requête suivante. Remplacez
PROJECT_ID
par l'identifiant du projet.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Cliquez sur
Exécuter. Cette étape permet de créer une table combinée, appeléetotal_green_trips_22_21
.Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le tableau combiné.
Afficher le graphique de traçabilité dans Dataplex
Ouvrez la page de recherche Dataplex.
Dans le champ de recherche, saisissez
total_green_trips_22_21
, puis cliquez sur Rechercher.Dans la liste des résultats, cliquez sur
total_green_trips_22_21
. Cette étape affiche l'onglet Détails de la table BigQuery.Cliquez sur l'onglet Traçage.
Dans le graphique de traçabilité, chaque nœud rectangulaire représente une table, qu'il s'agisse d'une table d'origine, d'une table copiée ou d'une table combinée. Vous pouvez procéder comme suit :
Affichez ou masquez l'origine d'une table en cliquant sur + (Développer) ou - (Réduire).
Affichez les informations de la table en cliquant sur un nœud. Cette étape affiche un volet Détails du nœud.
Affichez les informations sur le processus en cliquant sur l'icône de processus . Cette étape affiche un volet Détails du processus, qui indique la tâche qui a transformé une table source en table cible.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- Dans la console Google Cloud, accédez à la page Gérer les ressources.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Supprimer l'ensemble de données
Accédez à la page BigQuery.
Dans le volet Explorateur, recherchez l'ensemble de données
data_lineage_demo
que vous avez créé.Effectuez un clic droit sur l'ensemble de données, puis sélectionnez Supprimer.
Confirmez votre action de suppression.
Étapes suivantes
- En savoir plus sur Dataplex et la traçabilité des données
- Découvrez comment exécuter des requêtes BigQuery.
- Découvrez comment utiliser la traçabilité des données et afficher les graphiques de traçabilité des données.
- En savoir plus sur les tarifs et la billing de Dataplex