Explorer la traçabilité des données à l'aide de métadonnées


Ce tutoriel explique comment utiliser Cloud Data Fusion pour explorer la traçabilité des données, c'est-à-dire leurs origines et leur mouvement au fil du temps.

Pour en savoir plus sur l'intégration de la traçabilité des éléments Data Catalog, consultez plutôt Afficher la traçabilité dans Dataplex.

Traçabilité des données Cloud Data Fusion

Vous pouvez utiliser la traçabilité des données Cloud Data Fusion pour effectuer les opérations suivantes:

  • Détecter la cause racine des événements de données incorrectes.

  • Effectuer une analyse d'impact avant d'apporter des modifications aux données.

Cloud Data Fusion fournit une traçabilité au niveau des ensembles de données et au niveau des champs, de manière référencée dans le temps.

  • La traçabilité au niveau des ensembles de données indique la relation entre les ensembles de données et les pipelines dans un intervalle de temps sélectionné.

  • La traçabilité au niveau des champs affiche les opérations effectuées sur un ensemble de champs présents dans l'ensemble de données source pour produire un autre ensemble de champs dans l'ensemble de données cible.

Scénario du tutoriel

Dans ce tutoriel, vous travaillez avec deux pipelines :

  • Le pipeline Shipment Data Cleansing lit les données d'expédition brutes d'un petit ensemble de données et applique des transformations pour nettoyer les données.

  • Le pipeline Delayed Shipments USA lit ensuite les données d'expédition nettoyées, les analyse et trouve les expéditions aux États-Unis retardées de plus d'un seuil.

Ces pipelines de tutoriel illustrent un scénario type dans lequel les données brutes sont nettoyées, puis envoyées pour traitement en aval. Entre les données brutes, les données d'expédition nettoyées et les données analytiques, ce parcours des données peut être exploré à l'aide de la fonctionnalité de traçabilité Cloud Data Fusion.

Objectifs

  • Produire une traçabilité en exécutant des exemples de pipelines
  • Explorer la traçabilité au niveau des ensembles de données et des champs
  • Apprendre à transmettre des informations de handshake du pipeline en amont au pipeline en aval.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  5. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  6. Activer les API Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Activer les API

  7. Créez une instance Cloud Data Fusion.
  8. Cliquez sur les liens suivants pour télécharger ces petits exemples d'ensembles de données sur votre ordinateur local :

Ouvrir l'interface utilisateur de Cloud Data Fusion

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface utilisateur Cloud Data Fusion distincte. Dans la console Google Cloud, vous pouvez créer un projet de console Google Cloud, ainsi que créer et supprimer des instances Cloud Data Fusion. Dans l'interface utilisateur de Cloud Data Fusion, vous pouvez accéder aux fonctionnalités de Cloud Data Fusion à l'aide des différentes pages, telles que la page Traçabilité.

  1. Dans la console Google Cloud, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien "Afficher l'instance". L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

  3. Dans le volet Integrate (Intégrer), cliquez sur Studio (Studio) pour ouvrir la page Studio de Cloud Data Fusion.

Déployer et exécuter des pipelines

  1. Importez les Données d'expédition brutes. Sur la page Studio, cliquez sur Importer ou sur + > Pipeline > Importer, puis sélectionnez et importez le pipeline de nettoyage des données de livraison que vous avez téléchargé à la section Avant de commencer.

  2. Déployez le pipeline. Cliquez sur "Déployer" en haut à droite de la page Studio. Après le déploiement, la page Pipeline s'ouvre.

  3. Exécutez le pipeline. Cliquez sur "Exécuter" situé en haut au centre de la page Pipeline.

  4. Importez, déployez et exécutez les données et le pipeline des expéditions retardées. Une fois que l'état du nettoyage des données de livraison affiche Réussite, appliquez les étapes précédentes aux données Delayed Shipments USA que vous avez téléchargées à la section Avant de commencer. Revenez à la page Studio pour importer les données, puis déployez et exécutez ce second pipeline à partir de la page Pipeline. Une fois le second pipeline terminé, procédez avec les étapes restantes.

Découvrir des ensembles de données

Vous devez découvrir un ensemble de données avant d'explorer sa traçabilité. Dans le panneau de navigation situé à gauche de l'interface utilisateur de Cloud Data Fusion, sélectionnez Métadonnées pour ouvrir la page de Recherche des métadonnées. Étant donné que l'ensemble de données "Shipment Data Cleansing" a spécifié Cleaned-Shipments comme ensemble de données de référence, insérez shipment dans le champ de recherche. Les résultats de recherche incluent cet ensemble de données.

Utiliser des tags pour découvrir des ensembles de données

Une recherche de métadonnées découvre des ensembles de données qui ont été utilisés, traités ou générés par des pipelines Cloud Data Fusion. Les pipelines s'exécutent sur un framework structuré qui génère et collecte des métadonnées techniques et opérationnelles. Les métadonnées techniques incluent le nom, le type, le schéma, les champs, l'heure de création et les informations de traitement de l'ensemble de données. Ces informations techniques sont utilisées par les fonctionnalités de recherche et de traçabilité des métadonnées Cloud Data Fusion.

Cloud Data Fusion accepte également l'annotation d'ensembles de données avec des métadonnées d'entreprise, telles que des balises et des propriétés clé-valeur, qui peuvent être utilisées comme critères de recherche. Par exemple, pour ajouter et rechercher une annotation de tag d'entreprise sur l'ensemble de données des données d'expédition brutes :

  1. Cliquez sur le bouton Propriétés du nœud des données d'expédition brutes sur la page Pipeline de nettoyage des données d'expédition pour ouvrir la page Propriétés Cloud Storage.

  2. Cliquez sur Afficher les métadonnées pour ouvrir la page Recherche.

  3. Sous Tags commerciaux, cliquez sur +, puis insérez un nom de tag (les caractères alphanumériques et les traits de soulignement sont autorisés) et appuyez sur Entrée.

Explorer la traçabilité

Traçabilité au niveau de l'ensemble de données

Cliquez sur le nom de l'ensemble de données Cleaned-Shipments indiqué sur la page de recherche (dans Découvrir les ensembles de données), puis sur l'onglet Traçabilité. Le graphique de traçabilité indique que cet ensemble de données a été généré par le pipeline "Nettoyage-Données-Expédition", qui avait consommé l'ensemble de données "Données-Expédition-Brutes".

Les flèches vers la gauche et vers la droite vous permettent de passer à la traçabilité d'un ensemble de données précédent ou suivant. Dans cet exemple, le graphique affiche la traçabilité complète de l'ensemble de données "Expéditions-nettoyées".

Traçabilité au niveau des champs

La traçabilité au niveau des champs de Cloud Data Fusion montre la relation entre les champs d'un ensemble de données et les transformations effectuées sur un ensemble de champs pour produire un autre ensemble de champs. Comme pour la traçabilité au niveau des ensembles de données, la traçabilité au niveau des champs est référencée dans le temps et ses résultats évoluent avec le temps.

En reprenant depuis l'étape Traçabilité au niveau des ensembles de données, cliquez sur le bouton "Traçabilité au niveau des champs" situé en haut à droite du graphique de traçabilité au niveau de l'ensemble de données "Expéditions nettoyées" pour afficher le graphique de traçabilité au niveau du champ.

Le graphique de traçabilité au niveau du champ affiche les connexions entre les champs. Vous pouvez sélectionner un champ pour afficher sa traçabilité. Sélectionnez Affichage > Épingler le champ pour n'afficher que la traçabilité de ce champ.

Sélectionnez Afficher > Voir l'impact pour effectuer une analyse d'impact.

Les liens de cause et d'impact indiquent les transformations effectuées des deux côtés d'un champ dans un format lisible. Ces informations peuvent être essentielles pour la création de rapports et la gouvernance.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Une fois le tutoriel terminé, nettoyez les ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer l'ensemble de données du tutoriel

Ce tutoriel crée un ensemble de données logistics_demo avec plusieurs tables dans votre projet.

Vous pouvez supprimer l'ensemble de données de l'interface utilisateur Web de BigQuery dans la console Google Cloud.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étapes suivantes