Explorer la traçabilité des données

Ce tutoriel explique comment utiliser Cloud Data Fusion pour explorer la traçabilité des données, leur origine et leur déplacement au fil du temps.

Traçabilité des données Cloud Data Fusion

La traçabilité des données Cloud Data Fusion vous aide à :

  • détecter l'origine des événements de données erronées
  • effectuer une analyse d'impact avant de modifier les données

Cloud Data Fusion fournit une traçabilité au niveau des ensembles de données et au niveau des champs, de manière référencée dans le temps.

  • La traçabilité au niveau des ensembles de données indique la relation entre les ensembles de données et les pipelines dans un intervalle de temps sélectionné.

  • La traçabilité au niveau des champs affiche les opérations effectuées sur un ensemble de champs présents dans l'ensemble de données source pour produire un autre ensemble de champs dans l'ensemble de données cible.

Scénario du tutoriel

Dans ce tutoriel, vous travaillez avec deux pipelines :

  • Le pipeline Shipment Data Cleansing lit les données d'expédition brutes d'un petit ensemble de données et applique des transformations pour nettoyer les données.

  • Le pipeline Delayed Shipments USA lit ensuite les données d'expédition nettoyées, les analyse et trouve les expéditions aux États-Unis retardées de plus d'un seuil.

Ces pipelines de tutoriel illustrent un scénario type dans lequel les données brutes sont nettoyées, puis envoyées pour traitement en aval. Entre les données brutes, les données d'expédition nettoyées et les données analytiques, ce parcours des données peut être exploré à l'aide de la fonctionnalité de traçabilité Cloud Data Fusion.

Objectifs

  • Produisez la traçabilité en exécutant des exemples de pipelines
  • Explorer la traçabilité au niveau des ensembles de données et des champs
  • Apprendre à transmettre des informations de handshake du pipeline en amont au pipeline en aval.

Coûts

Ce tutoriel utilise les composants facturables suivants de Google Cloud :

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier si la facturation est activée sur un projet.

  4. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  5. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier si la facturation est activée sur un projet.

  6. Activer les API Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Activer les API

  7. Créez une instance Cloud Data Fusion.
  8. Cliquez sur les liens suivants pour télécharger ces petits exemples d'ensemble de données sur votre ordinateur local :

Ouvrir l'interface utilisateur de Cloud Data Fusion

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois Google Cloud Console et l'interface utilisateur Cloud Data Fusion distincte. Dans Google Cloud Console, vous pouvez créer un projet Google Cloud Console, puis créer et supprimer des instances Cloud Data Fusion. Dans l'interface utilisateur de Cloud Data Fusion, vous pouvez accéder aux fonctionnalités de Cloud Data Fusion à l'aide des différentes pages, telles que la page Traçabilité.

  1. Dans Google Cloud Console, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien "Afficher l'instance". L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

  3. Dans le volet Integration (Intégrer), cliquez sur Studio pour ouvrir la page Cloud Data Fusion.

Déployer et exécuter des pipelines

  1. Importez les Données d'expédition brutes. Sur la page Studio, cliquez sur Importer ou sur + > Pipeline > Import, puis sélectionnez et importez le pipeline Shipment Data Cleansing que vous avez téléchargé dans Avant de commencer.

  2. Déployez le pipeline. Cliquez sur "Déployer" en haut à droite de la page Studio. Après le déploiement, la page Pipeline s'ouvre.

  3. Exécutez le pipeline. Cliquez sur "Exécuter" situé en haut au centre de la page Pipeline.

  4. Importez, déployez et exécutez les données et le pipeline des expéditions retardées. Après l'état du message "Shipping Data Cleansing" (Traitement des données de livraison) affiche "Succeeded" (Réussite), appliquez les étapes précédentes aux données "Delayed Shipments USA" que vous avez téléchargées Avant de commencer. Revenez à la page Studio pour importer les données, puis déployez et exécutez ce deuxième pipeline à partir de la page Pipeline. Une fois le deuxième pipeline terminé, passez aux étapes restantes.

Découvrir des ensembles de données

Vous devez découvrir un ensemble de données avant d'explorer sa traçabilité. Dans le panneau de navigation situé à gauche de l'interface utilisateur de Cloud Data Fusion, sélectionnez Métadonnées pour ouvrir la page de Recherche des métadonnées. Étant donné que l'ensemble de données de nettoyage des données d'expédition spécifiait "Expéditions-Nettoyées" comme ensemble de données de référence, insérez "expédition" dans le champ de recherche. Les résultats de recherche incluent cet ensemble de données.

Utiliser des tags pour découvrir des ensembles de données

Une recherche de métadonnées découvre des ensembles de données qui ont été utilisés, traités ou générés par des pipelines Cloud Data Fusion. Les pipelines s'exécutent sur un framework structuré qui génère et collecte des métadonnées techniques et opérationnelles. Les métadonnées techniques incluent le nom, le type, le schéma, les champs, l'heure de création et les informations de traitement de l'ensemble de données. Ces informations techniques sont utilisées par les fonctionnalités de recherche et de traçabilité des métadonnées Cloud Data Fusion.

Cloud Data Fusion accepte également l'annotation d'ensembles de données avec des métadonnées d'entreprise, telles que des balises et des propriétés clé-valeur, qui peuvent être utilisées comme critères de recherche. Par exemple, pour ajouter et rechercher une annotation de tag d'entreprise sur l'ensemble de données des données d'expédition brutes :

  1. Cliquez sur le bouton Propriétés du nœud des données d'expédition brutes sur la page Pipeline de nettoyage des données d'expédition pour ouvrir la page Propriétés Cloud Storage.

  2. Cliquez sur Afficher les métadonnées pour ouvrir la page Recherche.

  3. Sous Tags d'entreprise, cliquez sur +, puis insérez un nom de tag (les caractères alphanumériques et les traits de soulignement sont autorisés) et appuyez sur Entrée.

Explorer la traçabilité

Traçabilité au niveau des ensembles de données

Cliquez sur le nom de l'ensemble de données "Expéditions-Nettoyées" répertorié sur la page de recherche (dans la section Découvrir les ensembles de données), puis sur l'onglet "Traçabilité". Le graphique de traçabilité indique que cet ensemble de données a été généré par le pipeline "Nettoyage-Données-Expédition", qui avait consommé l'ensemble de données "Données-Expédition-Brutes".

Les flèches vers la gauche et vers la droite vous permettent de naviguer entre les lignes de l'ensemble de données précédent ou suivant. Dans cet exemple, le graphique affiche la traçabilité complète de l'ensemble de données "Expéditions-nettoyées".

Traçabilité au niveau des champs

La traçabilité au niveau des champs de Cloud Data Fusion montre la relation entre les champs d'un ensemble de données et les transformations effectuées sur un ensemble de champs pour produire un autre ensemble de champs. Comme pour la traçabilité au niveau des ensembles de données, la traçabilité au niveau des champs est référencée dans le temps et ses résultats évoluent avec le temps.

En reprenant depuis l'étape Traçabilité au niveau des ensembles de données, cliquez sur le bouton "Traçabilité au niveau des champs" situé en haut à droite du graphique de traçabilité au niveau de l'ensemble de données "Expéditions nettoyées" pour afficher le graphique de traçabilité au niveau du champ.

Le graphique de traçabilité au niveau du champ affiche les connexions entre les champs. Vous pouvez sélectionner un champ pour afficher sa traçabilité. Sélectionnez Afficher > Épingler le champ pour afficher uniquement la traçabilité de ce champ.

Sélectionnez Afficher > Afficher l'impact pour effectuer une analyse d'impact.

Les liens de cause et d'impact indiquent les transformations effectuées des deux côtés d'un champ dans un format lisible. Ces informations peuvent être essentielles pour la création de rapports et la gouvernance.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Une fois le tutoriel terminé, nettoyez les ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer l'ensemble de données du tutoriel

Ce tutoriel crée un ensemble de données logistics_demo avec plusieurs tables dans votre projet.

Vous pouvez supprimer l'ensemble de données de l'interface utilisateur Web BigQuery dans Google Cloud Console.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans Cloud Console, accédez à la page Gérer les ressources :

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étapes suivantes