Concevoir et créer un pipeline réutilisable


Ce tutoriel explique comment créer un pipeline réutilisable qui lit les données depuis Cloud Storage, effectue des contrôles de qualité des données et écrit dans Cloud Storage.

Les pipelines réutilisables possèdent une structure de pipeline standard, mais vous pouvez modifier la configuration de chaque nœud de pipeline en fonction des configurations fournies par un serveur HTTP. Par exemple, un pipeline statique peut lire des données à partir de Cloud Storage, appliquer des transformations et écrire des données dans une table de sortie BigQuery. Si vous souhaitez que la transformation et la table de sortie BigQuery changent en fonction du fichier Cloud Storage lu par le pipeline, vous devez créer un pipeline réutilisable.

Objectifs

  • Utilisez le plug-in Cloud Storage Argument Setter pour autoriser le pipeline à lire différents à chaque exécution.
  • Utiliser le plug-in Setter d'argument Cloud Storage pour autoriser le pipeline à effectuer différents contrôles qualité à chaque diffusion.
  • Écrire les données de sortie de chaque exécution dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

  • Cloud Data Fusion
  • Cloud Storage

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc APIs.

    Enable the APIs

  7. Créez une instance Cloud Data Fusion.

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Google Cloud et l'interface Web distincte Cloud Data Fusion. Dans la console Google Cloud, vous pouvez créer un projet Google Cloud, et créer et supprimer des instances Cloud Data Fusion. Dans l'interface Web de Cloud Data Fusion, vous pouvez utiliser les différentes pages, telles que Pipeline Studio ou Wrangler, pour utiliser les fonctionnalités de Cloud Data Fusion.

  1. Dans la console Google Cloud, ouvrez la page Instances.

    Ouvrir la page "Instances"

  2. Dans la colonne Actions de l'instance, cliquez sur le lien Afficher l'instance. L'interface Web de Cloud Data Fusion s'ouvre dans un nouvel onglet du navigateur.

Déployer le plug-in Argument Setter Cloud Storage

  1. Dans l'interface Web de Cloud Data Fusion, accédez à la page Studio.

  2. Dans le menu Actions, cliquez sur GCS Argument Setter (GCS Argument Setter).

Lire à partir de Cloud Storage

  1. Dans l'interface Web de Cloud Data Fusion, accédez à la page Studio.
  2. Cliquez sur Source, puis sélectionnez Cloud Storage. Le nœud d'une source Cloud Storage s'affiche dans le pipeline.
  3. Sur le nœud Cloud Storage, cliquez sur Propriétés.

  4. Dans le champ Nom de référence, saisissez un nom.

  5. Dans le champ Chemin d'accès, saisissez ${input.path}. Cette macro contrôle quel sera le chemin d'entrée de Cloud Storage dans les différentes exécutions de pipeline.

  6. Dans le panneau "Schéma de sortie" situé à droite, supprimez le champ Décalage du schéma de sortie en cliquant sur l'icône de la corbeille dans la ligne correspondante.

  7. Cliquez sur Valider, puis corrigez les erreurs éventuelles.

  8. Cliquez sur  pour quitter la boîte de dialogue Properties (Propriétés).

Transformer vos données

  1. Dans l'interface Web de Cloud Data Fusion, accédez à votre pipeline de données sur la page Studio.
  2. Dans le menu déroulant Transformer , sélectionnez Wrangler.
  3. Dans le canevas Pipeline Studio, faites glisser une flèche depuis le nœud Cloud Storage. au nœud Wrangler.
  4. Accédez au nœud Wrangler de votre pipeline, puis cliquez sur Properties (Propriétés).
  5. Dans le Nom du champ de saisie, saisissez body.
  6. Dans le champ Recette, saisissez ${directives}. Cette macro contrôle la logique de transformation dans les différentes exécutions de pipeline.
  7. Cliquez sur Valider, puis corrigez les erreurs éventuelles.
  8. Cliquez sur  pour quitter la boîte de dialogue Propriétés.

Écrire dans Cloud Storage

  1. Dans l'interface Web de Cloud Data Fusion, accédez à votre pipeline de données sur la page Studio.
  2. Dans le menu déroulant Sink (Récepteur) , sélectionnez Cloud Storage.
  3. Dans le canevas Pipeline Studio, faites glisser une flèche du nœud Wrangler vers que vous venez d'ajouter.
  4. Accédez au nœud du récepteur Cloud Storage dans votre pipeline, puis cliquez sur Propriétés.
  5. Dans le champ Nom de référence, saisissez un nom.
  6. Dans le champ Chemin d'accès, saisissez le chemin d'un bucket Cloud Storage dans votre projet, où votre pipeline peut écrire les fichiers de sortie. Si vous n'avez pas de bucket Cloud Storage, créez-en un.
  7. Cliquez sur Valider, puis corrigez les erreurs éventuelles.
  8. Cliquez sur  pour quitter la boîte de dialogue Propriétés.

Définir les arguments de macro

  1. Dans l'interface Web de Cloud Data Fusion, accédez à votre pipeline de données sur la page Studio.
  2. Dans le menu déroulant Conditions et actions, cliquez sur GCS Argument Setter (GCS Argument Setter).
  3. Dans le canevas Pipeline Studio, faites glisser une flèche du nœud Setter d'argument Cloud Storage vers le nœud source Cloud Storage.
  4. Accédez au nœud Setter d'argument Cloud Storage de votre pipeline et cliquez sur Properties (Propriétés).
  5. Dans le champ URL, saisissez l'URL suivante:

    gs://reusable-pipeline-tutorial/args.json
    

    L'URL correspond à un objet accessible au public dans Cloud Storage qui contient le contenu suivant :

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    Le premier des deux arguments est la valeur de input.path. Le chemin d'accès gs://reusable-pipeline-tutorial/user-emails.txt est un objet accessible au public dans Cloud Storage qui contient les données de test suivantes :

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    Le deuxième argument est la valeur de directives. La valeur send-to-error !dq:isEmail(body) configure Wrangler pour filtrer les lignes qui ne sont pas une adresse e-mail valide. Par exemple, craig@invalid@example.com est exclu.

  6. Cliquez sur Valider pour vérifier qu'il n'y a pas d'erreurs.

  7. Cliquez sur  pour quitter la boîte de dialogue Propriétés.

Déployer et exécuter votre pipeline

  1. Dans la barre supérieure de la page Pipeline Studio, cliquez sur Nommer votre pipeline. Nommez votre pipeline et cliquez sur Enregistrer.

  2. Cliquez sur Déployer.

  3. Pour ouvrir les arguments de l'environnement d'exécution et afficher la macro (environnement d'exécution) input.path et directives, cliquez sur le bouton à côté de Exécuter.

    Laissez les champs de valeur vides pour indiquer à Cloud Data Fusion que le nœud d'Argument Setter Cloud Storage dans le pipeline définira les valeurs de ces arguments lors de l'exécution.

  4. Cliquez sur Exécuter.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Une fois le tutoriel terminé, nettoyez les ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer l'instance Cloud Data Fusion

Suivez les instructions pour supprimer votre instance Cloud Data Fusion.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Étape suivante