Suivre la traçabilité des données d'une table BigQuery

Traçabilité des données permet de suivre la circulation des données dans vos systèmes: d'où elles proviennent, d'où auquel elle est transmise et les transformations qui lui sont appliquées.

Découvrez comment suivre la traçabilité des données pour Tâches de copie et de requête BigQuery:

  1. Copiez deux tables à partir d'un ensemble de données new_york_taxi_trips accessible au public.

  2. Combiner le nombre total de courses de taxi des deux tables dans une nouvelle table.

  3. Affichez un graphique de visualisation de la traçabilité pour les trois opérations.

Avant de commencer

Configurez votre projet:

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API Data Catalog, BigQuery, and data lineage.

    Activer les API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  7. Activer les API Data Catalog, BigQuery, and data lineage.

    Activer les API

<ph type="x-smartling-placeholder">

Rôles requis

Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Ajouter un ensemble de données public à votre projet

  1. Dans la console Google Cloud, accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet Explorateur, cliquez sur Ajouter.

  3. Dans le volet Add (Ajouter), recherchez Public datasets et sélectionnez le Résultat : ensembles de données publics

  4. Dans le volet Marketplace, recherchez NYC TLC Trips et cliquez sur le bouton Résultat NYC TLC Trips.

  5. Cliquez sur Afficher l'ensemble de données.

Cette étape permet d'ajouter l'ensemble de données new_york_taxi_trips à votre projet. Détails affiche le panneau Dataset info (Informations sur l'ensemble de données), y compris des informations telles que ID de l'ensemble de données, Emplacement des données et date de dernière modification.

Créer un ensemble de données dans votre projet

  1. Dans le volet Explorateur, sélectionnez le projet dans lequel vous souhaitez créer le ensemble de données.

  2. Cliquez sur l'icône Actions, puis sur Créer. ensemble de données.

  3. Sur la page Créer un ensemble de données, dans le champ ID de l'ensemble de données, saisissez: data_lineage_demo Conservez les valeurs par défaut dans les autres champs.

  4. Cliquez sur Créer un ensemble de données.

  5. Dans le volet Explorateur, cliquez sur le data_lineage_demo que vous venez d'ajouter.

Le volet de détails affiche les informations sur l'ensemble de données.

Copier deux tables accessibles publiquement dans votre ensemble de données

  1. Ouvrez un éditeur de requête: dans le volet "Détails", à côté de l'onglet intitulé data_lineage_demo, cliquez sur (Saisir une nouvelle requête) Cette étape crée un onglet appelé Untitled.

  2. Dans l'éditeur de requête, copiez la première table en saisissant la commande suivante : requête. Remplacez PROJECT_ID par le nom de votre projet identifiant.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Cliquez sur Exécuter. Cette étape crée la première table, appelée nyc_green_trips_2021.

  4. Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu du premier tableau.

  5. Dans l'éditeur de requête, copiez la deuxième table en remplaçant la précédente avec la requête suivante. Remplacez PROJECT_ID par votre identifiant.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Cliquez sur Exécuter. Cette étape crée la deuxième table, appelée nyc_green_trips_2022.

  7. Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu du deuxième tableau.

Agréger les données dans un nouveau tableau

  1. Dans l'éditeur de requête, saisissez la requête suivante. Remplacer PROJECT_ID par de votre projet identifiant.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Cliquez sur Exécuter. Cette étape crée une table combinée, appelée total_green_trips_22_21.

  3. Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le tableau combiné.

Afficher le graphique de traçabilité dans Dataplex

  1. Ouvrez la page "Recherche Dataplex".

    Ouvrir la recherche Dataplex

  2. Dans Choisir une plate-forme de recherche, sélectionnez Data Catalog comme mode de recherche.

  3. Dans le champ Rechercher, saisissez total_green_trips_22_21, puis cliquez sur Rechercher.

  4. Dans la liste des résultats, cliquez sur total_green_trips_22_21. Cette étape affiche l'onglet Détails de la table BigQuery.

  5. Cliquez sur l'onglet Tracé.

<ph type="x-smartling-placeholder">
</ph> Capture d&#39;écran de la table total_green_trips_22_21 avec le panneau des détails ancré en bas.
Figure 1. Traçabilité des données avec les détails du nœud

Dans le graphique de traçabilité, chaque nœud rectangulaire représente un tableau, soit un table d'origine, copiée ou combinée. Vous pouvez procéder comme suit :

  • Afficher ou masquer l'origine d'un tableau en cliquant sur + (Développer) ou - (Réduire).

  • Affichez les informations de la table en cliquant sur un nœud. Cette étape affiche un nœud Volet Details (Détails).

  • Afficher les informations sur le processus en cliquant sur un icône Processus de traçabilité icône Processus. Cette étape affiche un volet Détails du processus, qui indique la tâche qui a transformé une table source en table cible.

Capture d&#39;écran de la table nyc_green_trips_2021 intermédiaire avec le panneau des détails ancré en bas.
Figure 2. Traçabilité des données avec les détails du processus
<ph type="x-smartling-placeholder">
</ph>

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer l'ensemble de données

  1. Accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet Explorateur, recherchez l'ensemble de données data_lineage_demo que vous créé.

  3. Effectuez un clic droit sur l'ensemble de données, puis sélectionnez Supprimer.

  4. Confirmez votre suppression.

Étape suivante