Explorer la traçabilité des données

Ce tutoriel explique comment utiliser Cloud Data Fusion pour explorer la traçabilité des données : leur origine et leur mouvement dans le temps.

Traçabilité des données Cloud Data Fusion

La traçabilité des données Cloud Data Fusion vous aide à :

  • détecter l'origine des événements de données erronées
  • effectuer une analyse d'impact avant de modifier les données

Cloud Data Fusion fournit une traçabilité au niveau des ensembles de données et au niveau des champs, de manière référencée dans le temps.

  • La traçabilité au niveau des ensembles de données indique la relation entre les ensembles de données et les pipelines dans un intervalle de temps sélectionné.

  • La traçabilité au niveau des champs affiche les opérations effectuées sur un ensemble de champs présents dans l'ensemble de données source pour produire un autre ensemble de champs dans l'ensemble de données cible.

Scénario du tutoriel

Dans ce tutoriel, vous travaillez avec deux pipelines :

  • Le pipeline Shipment Data Cleansing lit les données d'expédition brutes d'un petit ensemble de données et applique des transformations pour nettoyer les données.

  • Le pipeline Delayed Shipments USA lit ensuite les données d'expédition nettoyées, les analyse et trouve les expéditions aux États-Unis retardées de plus d'un seuil.

Ces pipelines de tutoriel illustrent un scénario type dans lequel les données brutes sont nettoyées, puis envoyées pour traitement en aval. Entre les données brutes, les données d'expédition nettoyées et les données analytiques, ce parcours des données peut être exploré à l'aide de la fonctionnalité de traçabilité Cloud Data Fusion.

Objectifs

  • Exécuter des exemples de pipelines pour produire une traçabilité
  • Explorer la traçabilité au niveau des ensembles de données et des champs
  • Apprendre à transmettre des informations de handshake du pipeline en amont au pipeline en aval.

Coûts

Ce tutoriel utilise des composants facturables de Google Cloud, dont :

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activer les API Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Activer les API

  5. Créez une instance Cloud Data Fusion.
  6. Cliquez sur les liens suivants pour télécharger ces petits exemples d'ensembles de données sur votre ordinateur local :

Ouvrir l'interface utilisateur de Cloud Data Fusion

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois Cloud Console et l'interface utilisateur distincte Cloud Data Fusion. Dans Cloud Console, vous pouvez créer un projet Cloud Console, et créer et supprimer des instances Cloud Data Fusion. Dans l'interface utilisateur de Cloud Data Fusion, vous pouvez accéder aux fonctionnalités de Cloud Data Fusion à l'aide des différentes pages, telles que la page Traçabilité.

  1. Dans Cloud Console, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien "Afficher l'instance". L'interface utilisateur de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

  3. Cliquez sur "Studio" dans le panneau "Intégrer" ou dans le panneau de navigation de gauche afin d'ouvrir la page Studio de Cloud Data Fusion.

Déployer et exécuter des pipelines

  1. Importez les Données d'expédition brutes. Cliquez sur "Importer" en haut à droite de la page Studio (ou cliquez sur + → Pipeline → Importer), puis sélectionnez et importez le pipeline de nettoyage des données d'expédition que vous avez téléchargé à la section Avant de commencer.

  2. Déployez le pipeline. Cliquez sur "Déployer" en haut à droite de la page Studio. Après le déploiement, la page Pipeline s'affiche.

  3. Exécutez le pipeline. Cliquez sur "Exécuter" situé en haut au centre de la page Pipeline.

  4. Importez, déployez et exécutez les données et le pipeline des expéditions retardées. Une fois que l'état du nettoyage des données d'expédition indique "Réussi", appliquez les étapes ci-dessus aux données relatives aux expéditions retardées aux États-Unis que vous avez téléchargées à la section Avant de commencer. Revenez sur la page Studio pour importer les données, puis déployez et exécutez ce deuxième pipeline à partir de la page Pipeline. Une fois ce deuxième pipeline terminé, vous pouvez continuer et effectuer les étapes restantes ci-dessous.

Découvrir des ensembles de données

Vous devez découvrir un ensemble de données avant d'explorer sa traçabilité. Dans le panneau de navigation de gauche de l'interface utilisateur de Cloud Data Fusion, sélectionnez Metadata (Métadonnées) pour ouvrir la page des métadonnées de recherche de métadonnées. Étant donné que l'ensemble de données de nettoyage des données d'expédition spécifiait "Expéditions-Nettoyées" comme ensemble de données de référence, insérez "expédition" dans le champ de recherche. Les résultats de recherche incluent cet ensemble de données.

Utiliser des tags pour découvrir des ensembles de données

Une recherche de métadonnées découvre des ensembles de données qui ont été utilisés, traités ou générés par des pipelines Cloud Data Fusion. Les pipelines s'exécutent sur un framework structuré qui génère et collecte des métadonnées techniques et opérationnelles. Les métadonnées techniques incluent le nom, le type, le schéma, les champs, l'heure de création et les informations de traitement de l'ensemble de données. Ces informations techniques sont utilisées par les fonctionnalités de recherche et de traçabilité des métadonnées Cloud Data Fusion.

Cloud Data Fusion accepte également l'annotation d'ensembles de données avec des métadonnées d'entreprise, telles que des balises et des propriétés clé-valeur, qui peuvent être utilisées comme critères de recherche. Par exemple, pour ajouter et rechercher une annotation de tag d'entreprise sur l'ensemble de données des données d'expédition brutes :

  1. Cliquez sur le bouton Propriétés du nœud "Données de livraison brutes" sur la page Pipeline de nettoyage des données de livraison pour ouvrir les propriétés Cloud Storage. .

  2. Cliquez sur Afficher les métadonnées pour ouvrir la page Rechercher.

  3. Sous Tags d'entreprise, cliquez sur +, puis insérez un nom de tag (les caractères alphanumériques et de soulignement sont autorisés) et appuyez sur Entrée.

Explorer la traçabilité

Traçabilité au niveau des ensembles de données

Cliquez sur le nom de l'ensemble de données "Expéditions-Nettoyées" répertorié sur la page de recherche (dans la section Découvrir les ensembles de données), puis sur l'onglet "Traçabilité". Le graphique de traçabilité indique que cet ensemble de données a été généré par le pipeline "Nettoyage-Données-Expédition", qui avait consommé l'ensemble de données "Données-Expédition-Brutes".

Les flèches de gauche et de droite vous permettent de passer d'une traçabilité d'un ensemble de données à l'autre, qu'elle soit antérieure ou postérieure. Dans cet exemple, le graphique affiche la traçabilité complète de l'ensemble de données "Expéditions-nettoyées".

Traçabilité au niveau des champs

La traçabilité au niveau des champs de Cloud Data Fusion montre la relation entre les champs d'un ensemble de données et les transformations effectuées sur un ensemble de champs pour produire un autre ensemble de champs. Comme pour la traçabilité au niveau des ensembles de données, la traçabilité au niveau des champs est référencée dans le temps et ses résultats évoluent avec le temps.

En reprenant depuis l'étape Traçabilité au niveau des ensembles de données, cliquez sur le bouton "Traçabilité au niveau des champs" situé en haut à droite du graphique de traçabilité au niveau de l'ensemble de données "Expéditions nettoyées" pour afficher le graphique de traçabilité au niveau du champ.

Le graphique de traçabilité au niveau du champ affiche les connexions entre les champs. Vous pouvez sélectionner un champ pour afficher sa traçabilité. Sélectionnez Afficher → Épingler le champ pour afficher uniquement la traçabilité de ce champ.

Sélectionnez Afficher → Afficher l'impact pour effectuer une analyse d'impact.

Les liens de cause et d'impact indiquent les transformations effectuées des deux côtés d'un champ dans un format lisible. Ces informations peuvent être essentielles pour la création de rapports et la gouvernance.

Nettoyer

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et les ressources individuelles.

Une fois le tutoriel terminé, nettoyez les ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer l'ensemble de données du tutoriel

Ce tutoriel crée un ensemble de données logistics_demo avec plusieurs tables dans votre projet.

Vous pouvez supprimer l'ensemble de données depuis l'interface utilisateur Web de BigQuery dans Cloud Console.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans Cloud Console, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étape suivante