Concevoir et créer un pipeline réutilisable


Ce tutoriel explique comment créer un pipeline réutilisable qui lit les données depuis Cloud Storage, effectue des contrôles de qualité des données et écrit dans Cloud Storage.

Les pipelines réutilisables possèdent une structure de pipeline standard, mais vous pouvez modifier la configuration de chaque nœud de pipeline en fonction des configurations fournies par un serveur HTTP. Par exemple, un pipeline statique peut lire des données à partir de Cloud Storage, appliquer des transformations et écrire des données dans une table de sortie BigQuery. Si vous souhaitez que la transformation et la table de sortie BigQuery changent en fonction du fichier Cloud Storage lu par le pipeline, vous devez créer un pipeline réutilisable.

Objectifs

  • Utilisez le plug-in Setter d'argument Cloud Storage pour permettre au pipeline de lire différentes entrées à chaque exécution.
  • Utilisez le plug-in Setter d'argument Cloud Storage pour permettre au pipeline d'effectuer différents contrôles qualité à chaque exécution.
  • Écrire les données de sortie de chaque exécution dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

  • Cloud Data Fusion
  • Cloud Storage

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  5. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  6. Activer les API Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.

    Activer les API

  7. Créez une instance Cloud Data Fusion.

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface Web distincte de Cloud Data Fusion. Dans la console Google Cloud, vous pouvez créer un projet de console Google Cloud, ainsi que créer et supprimer des instances Cloud Data Fusion. Dans l'interface Web de Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Pipeline Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.

  1. Dans la console Google Cloud, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance. L'interface Web de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

Déployer le plug-in Setter d'argument Cloud Storage

  1. Dans l'interface Web de Cloud Data Fusion, accédez à la page Studio.

  2. Dans le menu Actions, cliquez sur Setter d'argument GCS.

Lire à partir de Cloud Storage

  1. Dans l'interface Web de Cloud Data Fusion, accédez à la page Studio.
  2. Cliquez sur Source, puis sélectionnez Cloud Storage. Le nœud d'une source Cloud Storage apparaît dans le pipeline.
  3. Sur le nœud Cloud Storage, cliquez sur Propriétés.

  4. Dans le champ Nom de référence, saisissez un nom.

  5. Dans le champ Chemin d'accès, saisissez ${input.path}. Cette macro contrôle quel sera le chemin d'entrée de Cloud Storage dans les différentes exécutions de pipeline.

  6. Dans le panneau "Output Schema" (Schéma de sortie) à droite, supprimez le champ offset du schéma de sortie en cliquant sur l'icône Corbeille dans la ligne du champ de décalage.

  7. Cliquez sur Valider et corrigez les erreurs éventuelles.

  8. Cliquez sur le pour quitter la boîte de dialogue Properties (Propriétés).

Transformer vos données

  1. Dans l'interface Web de Cloud Data Fusion, accédez à votre pipeline de données sur la page Studio.
  2. Dans le menu déroulant Transformer , sélectionnez Wrangler.
  3. Dans le canevas de Pipeline Studio, faites glisser une flèche du nœud Cloud Storage vers le nœud Wrangler.
  4. Accédez au nœud Wrangler de votre pipeline et cliquez sur Properties (Propriétés).
  5. Dans le Nom du champ de saisie, saisissez body.
  6. Dans le champ Recette, saisissez ${directives}. Cette macro contrôle la logique de transformation dans les différentes exécutions de pipeline.
  7. Cliquez sur Valider et corrigez les erreurs éventuelles.
  8. Cliquez sur le pour quitter la boîte de dialogue Properties (Propriétés).

Écrire dans Cloud Storage

  1. Dans l'interface Web de Cloud Data Fusion, accédez à votre pipeline de données sur la page Studio.
  2. Dans le menu déroulant Récepteur , sélectionnez Cloud Storage.
  3. Dans le canevas de Pipeline Studio, faites glisser une flèche du nœud Wrangler vers le nœud Cloud Storage que vous venez d'ajouter.
  4. Accédez au nœud du récepteur Cloud Storage de votre pipeline et cliquez sur Properties (Propriétés).
  5. Dans le champ Nom de référence, saisissez un nom.
  6. Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans votre projet, où votre pipeline peut écrire les fichiers de sortie. Si vous n'avez pas de bucket Cloud Storage, créez-en un.
  7. Cliquez sur Valider et corrigez les erreurs éventuelles.
  8. Cliquez sur le pour quitter la boîte de dialogue Properties (Propriétés).

Définir les arguments de macro

  1. Dans l'interface Web de Cloud Data Fusion, accédez à votre pipeline de données sur la page Studio.
  2. Dans le menu déroulant Conditions et actions , cliquez sur Setter d'argument GCS.
  3. Sur le canevas de Pipeline Studio, faites glisser une flèche du nœud "Setter" de l'argument Cloud Storage vers le nœud source de Cloud Storage.
  4. Dans votre pipeline, accédez au nœud Setter de l'argument Cloud Storage et cliquez sur Properties (Propriétés).
  5. Dans le champ URL, saisissez l'URL suivante:

    gs://reusable-pipeline-tutorial/args.json
    

    L'URL correspond à un objet accessible au public dans Cloud Storage qui contient le contenu suivant :

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    Le premier des deux arguments est la valeur de input.path. Le chemin d'accès gs://reusable-pipeline-tutorial/user-emails.txt est un objet accessible au public dans Cloud Storage qui contient les données de test suivantes :

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    Le deuxième argument est la valeur de directives. La valeur send-to-error !dq:isEmail(body) configure Wrangler pour filtrer les lignes qui ne sont pas une adresse e-mail valide. Par exemple, craig@invalid@example.com est exclu.

  6. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

  7. Cliquez sur le pour quitter la boîte de dialogue Properties (Propriétés).

Déployer et exécuter votre pipeline

  1. Dans la barre supérieure de la page Pipeline Studio, cliquez sur Nommer votre pipeline. Nommez votre pipeline et cliquez sur Enregistrer.

  2. Cliquez sur Deploy (Déployer).

  3. Pour ouvrir la section Runtime Arguments (Arguments d'exécution) et afficher les arguments input.path et directives de la macro (d'exécution), cliquez sur le menu déroulant à côté de Run (Exécuter).

    Laissez les champs de valeur vides pour avertir Cloud Data Fusion que le nœud Setter de l'argument Cloud Storage dans le pipeline définira les valeurs de ces arguments lors de l'exécution.

  4. Cliquez sur Exécuter.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Une fois le tutoriel terminé, nettoyez les ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étapes suivantes