Utiliser le générateur de tâches pour créer un pipeline

Le générateur de jobs est une interface utilisateur visuelle permettant de créer et d'exécuter des pipelines Dataflow dans la console Google Cloud, sans écrire de code.

L'image suivante montre des détails provenant de l'interface utilisateur du générateur de jobs. Dans cette image, l'utilisateur crée un pipeline permettant de lire les données de Pub/Sub vers BigQuery:

Capture d'écran de l'interface utilisateur du générateur de jobs

Présentation

Le générateur de tâches prend en charge la lecture et l'écriture des types de données suivants :

  • Messages Pub/Sub
  • Données de table BigQuery
  • Fichiers CSV, fichiers JSON et fichiers texte dans Cloud Storage

Il est compatible avec les transformations de pipeline, y compris les opérations de filtre, de jointure, de mappage, de regroupement et de type "Explode" (tableau aplatir).

Le générateur de tâches peut également enregistrer des pipelines sous forme de fichiers YAML Apache Beam. Grâce à cette fonctionnalité, vous pouvez concevoir votre pipeline dans le générateur de jobs, puis stocker le fichier YAML dans Cloud Storage ou dans un dépôt de gestion de code source pour le réutiliser.

Envisageons d'utiliser le générateur de tâches pour les cas d'utilisation suivants :

  • Vous souhaitez créer un pipeline rapidement sans écrire de code.
  • Vous souhaitez enregistrer un pipeline en YAML pour le réutiliser.
  • Votre pipeline peut être exprimé à l'aide des sources, récepteurs et transformations compatibles.
  • Aucun modèle fourni par Google ne correspond à votre cas d'utilisation.

Créer un pipeline

Pour créer un pipeline dans le générateur de tâches, procédez comme suit :

  1. Accédez à la page Jobs dans la console Google Cloud.

    Accéder aux tâches

  2. Cliquez sur Créer un job à partir d'un modèle.

  3. Cliquez sur Générateur de tâches.

  4. Dans le champ Nom du job, saisissez un nom pour la tâche.

  5. Sélectionnez Par lot ou Streaming.

  6. Si vous sélectionnez Streaming, sélectionnez un mode de fenêtrage. Saisissez ensuite une spécification pour la fenêtre, comme suit :

    • Fenêtre fixe : saisissez une taille de fenêtre en secondes.
    • Fenêtre glissante : saisissez une taille et une durée de fenêtre, en secondes.
    • Fenêtre de session : saisissez un intervalle de session en secondes.

    Pour en savoir plus sur le fenêtrage, consultez la page Windows et fonctions de fenêtrage.

Ajoutez ensuite des sources, des transformations et des récepteurs au pipeline, comme décrit dans les sections suivantes.

Ajouter une source au pipeline

Un pipeline doit avoir au moins une source. Au départ, le générateur de tâches est renseigné avec une source vide. Pour configurer la source, procédez comme suit :

  1. Dans le champ Nom de la source, saisissez un nom pour la source ou utilisez le nom par défaut. Le nom apparaît dans le graphique de la tâche lors de son exécution.

  2. Dans la liste Type de source, sélectionnez le type de source de données.

  3. Selon le type de source, fournissez des informations de configuration supplémentaires. Par exemple, si vous sélectionnez BigQuery, spécifiez la table à lire.

    Si vous sélectionnez Pub/Sub, spécifiez un schéma de message. Saisissez le nom et le type de données de chaque champ que vous souhaitez lire à partir des messages Pub/Sub. Le pipeline supprime tous les champs qui ne sont pas spécifiés dans le schéma.

  4. Facultatif : Pour certains types de sources, vous pouvez cliquer sur Prévisualiser les données sources pour prévisualiser les données sources.

Pour ajouter une autre source au pipeline, cliquez sur Ajouter une source. Pour combiner des données provenant de plusieurs sources, ajoutez la transformation Join à votre pipeline.

Ajouter une transformation au pipeline

Ajoutez éventuellement une ou plusieurs transformations au pipeline. Pour ajouter une transformation, procédez comme suit :

  1. Cliquez sur Ajouter une transformation.

  2. Dans le champ Transformation, saisissez un nom pour la transformation ou utilisez le nom par défaut. Le nom apparaît dans le graphique de la tâche lors de son exécution.

  3. Dans la liste Type de transformation, sélectionnez le type de transformation.

  4. Selon le type de transformation, fournissez des informations de configuration supplémentaires. Par exemple, si vous sélectionnez Filtre (Python), saisissez une expression Python à utiliser comme filtre.

  5. Sélectionnez l'étape d'entrée de la transformation. L'étape d'entrée correspond à la source ou à la transformation dont le résultat fournit l'entrée pour cette transformation.

Ajouter un récepteur au pipeline

Un pipeline doit comporter au moins un récepteur. Initialement, le générateur de tâches est renseigné avec un récepteur vide. Pour configurer le récepteur, procédez comme suit :

  1. Dans le champ Nom du récepteur, saisissez un nom pour le récepteur ou utilisez le nom par défaut. Le nom apparaît dans le graphique de la tâche lors de son exécution.

  2. Dans la liste Type de récepteur, sélectionnez le type de récepteur.

  3. Selon le type de récepteur, fournissez des informations de configuration supplémentaires. Par exemple, si vous sélectionnez le récepteur BigQuery, sélectionnez la table BigQuery dans laquelle écrire.

  4. Sélectionnez l'étape d'entrée du récepteur. L'étape d'entrée correspond à la source ou à la transformation dont la sortie fournit l'entrée pour cette transformation.

  5. Pour ajouter un autre récepteur au pipeline, cliquez sur Ajouter un récepteur.

Exécuter le pipeline

Pour exécuter un pipeline à partir du générateur de tâches, procédez comme suit :

  1. Facultatif : Définissez les options de la tâche Dataflow. Pour développer la section des options Dataflow, cliquez sur la flèche de développement .

  2. Cliquez sur Run Job (Exécuter la tâche). Le générateur de tâches accède au graphique de tâche de la tâche envoyée. Vous pouvez utiliser le graphique de la tâche pour surveiller son état.

Enregistrer un pipeline

Pour enregistrer un pipeline dans le fichier YAML de Beam, procédez comme suit :

  1. Cliquez sur Enregistrer pour ouvrir la fenêtre Enregistrer YAML.

  2. Effectuez l'une des actions suivantes :

    • Pour copier le fichier YAML dans le presse-papiers, cliquez sur Copier.
    • Pour enregistrer dans Cloud Storage, saisissez un chemin d'accès Cloud Storage, puis cliquez sur Enregistrer.
    • Pour télécharger un fichier local, cliquez sur Télécharger.

Charger un pipeline

Après avoir enregistré un pipeline dans le fichier YAML de Beam, vous pouvez le charger dans le générateur de tâches. Vous pouvez ensuite utiliser le générateur de tâches pour modifier ou exécuter le pipeline.

Vous pouvez charger un fichier YAML Beam à partir de Cloud Storage ou de texte.

Charger un pipeline à partir de Cloud Storage

Pour charger un pipeline à partir de Cloud Storage, procédez comme suit :

  1. Cliquez sur Charger.
  2. Cliquez sur Charger depuis Cloud Storage.
  3. Dans le champ Emplacement du fichier YAML, saisissez l'emplacement Cloud Storage du fichier YAML ou cliquez sur Parcourir pour sélectionner le fichier.
  4. Cliquez sur Charger.

Charger un pipeline à partir d'un texte

Pour charger un pipeline à partir d'un texte, procédez comme suit :

  1. Cliquez sur Charger.
  2. Cliquez sur Charger à partir du texte.
  3. Collez le fichier YAML dans la fenêtre.
  4. Cliquez sur Charger.

Étape suivante