Cette page a été traduite par l'API Cloud Translation.

Utiliser le générateur de tâches pour créer un pipeline

Le générateur de jobs est une interface utilisateur visuelle permettant de créer et d'exécuter des pipelines Dataflow dans la console Google Cloud, sans avoir à écrire de code.

L'image suivante montre des détails provenant de l'interface utilisateur du générateur de jobs. Dans cette image, l'utilisateur crée un pipeline pour lire de Pub/Sub vers BigQuery:

Capture d'écran de l'interface utilisateur du générateur de jobs

Présentation

Le générateur de tâches prend en charge la lecture et l'écriture des types de données suivants :

Messages Pub/Sub
Données de la table BigQuery
Fichiers CSV, fichiers JSON et fichiers texte dans Cloud Storage

Il est compatible avec les transformations de pipeline, y compris le filtrage, la jointure, la mise en correspondance, le regroupement et l'explosion (aplatissement de tableau).

Le générateur de jobs peut également enregistrer des pipelines en tant que fichiers YAML Apache Beam. Grâce à cette fonctionnalité, vous pouvez concevoir votre pipeline dans le générateur de tâches, puis stocker le fichier YAML dans Cloud Storage ou dans un dépôt de contrôle des sources pour le réutiliser.

Envisageons d'utiliser le générateur de tâches pour les cas d'utilisation suivants :

Vous souhaitez créer rapidement un pipeline sans écrire de code.
Vous souhaitez enregistrer un pipeline au format YAML pour le réutiliser.
Votre pipeline peut être exprimé à l'aide des sources, des récepteurs et des transformations compatibles.
Aucun modèle fourni par Google ne correspond à votre cas d'utilisation.

Créer un pipeline

Pour créer un pipeline dans le générateur de tâches, procédez comme suit :

Accédez à la page Jobs dans la console Google Cloud.

Accéder aux tâches
Cliquez sur Create job from builder (Créer une tâche à partir du générateur).
Dans le champ Nom du job, saisissez un nom pour la tâche.
Sélectionnez Par lot ou Par flux.
Si vous sélectionnez Streaming, sélectionnez un mode de fenêtrage. Saisissez ensuite une spécification pour la fenêtre, comme suit :
- Fenêtre fixe : saisissez une taille de fenêtre en secondes.
- Fenêtre glissante : saisissez une taille et une durée de fenêtre, en secondes.
- Fenêtre de session : saisissez un intervalle de session en secondes.
Pour en savoir plus sur le fenêtrage, consultez la page Windows et fonctions de fenêtrage.

Ajoutez ensuite des sources, des transformations et des destinations au pipeline, comme décrit dans les sections suivantes.

Ajouter une source au pipeline

Un pipeline doit comporter au moins une source. Initialement, le générateur de tâches est renseigné avec une source vide. Pour configurer la source, procédez comme suit :

Dans le champ Nom de la source, saisissez un nom pour la source ou utilisez le nom par défaut. Le nom apparaît dans le graphique de la tâche lorsque vous l'exécutez.
Dans la liste Type de source, sélectionnez le type de source de données.
Selon le type de source, fournissez des informations de configuration supplémentaires. Par exemple, si vous sélectionnez BigQuery, spécifiez la table à lire.

Si vous sélectionnez Pub/Sub, spécifiez un schéma de message. Saisissez le nom et le type de données de chaque champ que vous souhaitez lire à partir des messages Pub/Sub. Le pipeline supprime tous les champs qui ne sont pas spécifiés dans le schéma.
Facultatif : Pour certains types de sources, vous pouvez cliquer sur Prévisualiser les données sources pour prévisualiser les données sources.

Pour ajouter une autre source au pipeline, cliquez sur Ajouter une source. Pour combiner les données de plusieurs sources, ajoutez la transformation Join à votre pipeline.

Ajouter une transformation au pipeline

Vous pouvez éventuellement ajouter une ou plusieurs transformations au pipeline. Pour ajouter une transformation, procédez comme suit :

Cliquez sur Ajouter une transformation.
Dans le champ Transformation, saisissez un nom pour la transformation ou utilisez le nom par défaut. Le nom apparaît dans le graphique de la tâche lorsque vous l'exécutez.
Dans la liste Type de transformation, sélectionnez le type de transformation.
Selon le type de transformation, fournissez des informations de configuration supplémentaires. Par exemple, si vous sélectionnez Filtre (Python), saisissez une expression Python à utiliser comme filtre.
Sélectionnez l'étape d'entrée pour la transformation. L'étape d'entrée est la source ou la transformation dont la sortie fournit l'entrée pour cette transformation.

Remarque : La transformation Join peut comporter plusieurs étapes d'entrée.

Ajouter un récepteur au pipeline

Un pipeline doit comporter au moins un sink. Initialement, le générateur de tâches est renseigné avec un récepteur vide. Pour configurer le récepteur, procédez comme suit :

Dans le champ Nom du récepteur, saisissez un nom pour le récepteur ou utilisez le nom par défaut. Le nom apparaît dans le graphique de la tâche lorsque vous l'exécutez.
Dans la liste Type de lavabo, sélectionnez le type de lavabo.
Selon le type de sink, fournissez des informations de configuration supplémentaires. Par exemple, si vous sélectionnez le récepteur BigQuery, sélectionnez la table BigQuery dans laquelle écrire.
Sélectionnez l'étape d'entrée du récepteur. L'étape d'entrée est la source ou la transformation dont la sortie fournit l'entrée pour cette transformation.
Pour ajouter un autre entonnoir au pipeline, cliquez sur Ajouter un entonnoir.

Exécuter le pipeline

Pour exécuter un pipeline à partir du générateur de tâches, procédez comme suit :

Facultatif : Définissez les options de la tâche Dataflow. Pour développer la section "Options de flux de données", cliquez sur la flèche de développement .
Cliquez sur Run Job (Exécuter la tâche). Le générateur de jobs accède au graphique de job pour le job envoyé. Vous pouvez utiliser le graphique de la tâche pour surveiller son état.

Enregistrer un pipeline

Pour enregistrer un pipeline dans le fichier YAML de Beam, procédez comme suit :

Cliquez sur Enregistrer pour ouvrir la fenêtre Enregistrer le fichier YAML.
Effectuez l'une des actions suivantes :
- Pour copier le fichier YAML dans le presse-papiers, cliquez sur Copier.
- Pour enregistrer dans Cloud Storage, saisissez un chemin d'accès Cloud Storage, puis cliquez sur Enregistrer.
- Pour télécharger un fichier local, cliquez sur Télécharger.

Charger un pipeline

Une fois que vous avez enregistré un pipeline dans le fichier YAML de Beam, vous pouvez le recharger dans le générateur de jobs. Vous pouvez ensuite utiliser le générateur de tâches pour modifier ou exécuter le pipeline.

Vous pouvez charger un fichier YAML Beam à partir de Cloud Storage ou de texte.

Charger un pipeline à partir de Cloud Storage

Pour charger un pipeline à partir de Cloud Storage, procédez comme suit :

Cliquez sur Charger.
Cliquez sur Charger à partir de Cloud Storage.
Dans le champ Emplacement du fichier YAML, saisissez l'emplacement Cloud Storage du fichier YAML ou cliquez sur Parcourir pour sélectionner le fichier.
Cliquez sur Charger.

Charger un pipeline à partir d'un texte

Pour charger un pipeline à partir d'un texte, procédez comme suit :

Cliquez sur Charger.
Cliquez sur Charger à partir du texte.
Collez le code YAML dans la fenêtre.
Cliquez sur Charger.

Valider le pipeline avant de le lancer

Pour les pipelines dont la configuration est complexe, tels que les filtres Python et les expressions SQL, il peut être utile de vérifier la configuration du pipeline pour détecter les erreurs de syntaxe avant de le lancer. Pour valider la syntaxe du pipeline, procédez comme suit:

Cliquez sur Valider pour ouvrir Cloud Shell et démarrer le service de validation.
Cliquez sur Démarrer la validation.
Si une erreur est détectée lors de la validation, un point d'exclamation rouge s'affiche.
Corrigez les erreurs détectées et vérifiez les corrections en cliquant sur Valider. Si aucune erreur n'est détectée, une coche verte s'affiche.

Étape suivante

Utiliser l'interface de surveillance des jobs Dataflow
Apprenez-en plus sur YAML Beam.