Modèles Cloud Dataflow

Les modèles Cloud Dataflow vous permettent de préproduire vos pipelines sur Cloud Storage et de les exécuter à partir de divers environnements. Vous pouvez utiliser l'un des modèles fournis par Google ou créer le vôtre.

Les modèles vous offrent des avantages supplémentaires par rapport au déploiement traditionnel sur Cloud Dataflow, tels que les suivants :

  • Vous n'avez pas à recompiler systématiquement votre code lorsque vous exécutez votre pipeline.
  • Vous pouvez exécuter vos pipelines sans l'environnement de développement ni les dépendances associées qui sont couramment utilisés avec le déploiement traditionnel. Cela s'avère utile pour planifier des tâches par lots récurrentes.
  • Les paramètres d'exécution vous permettent de personnaliser l'exécution du pipeline.
  • Les utilisateurs non techniques peuvent exécuter des modèles à l'aide de la console Google Cloud Platform, de l'outil de ligne de commande gcloud ou de l'API REST.

Différences entre l'exécution traditionnelle et l'exécution modélisée des tâches

Les modèles Cloud Dataflow introduisent un nouveau workflow de développement et d'exécution qui diffère du workflow traditionnel d'exécution des tâches. Le workflow des modèles sépare l'étape de développement des étapes de préproduction et d'exécution.

Tâches Cloud Dataflow traditionnelles

Le développement du pipeline Apache Beam et l'exécution des tâches se déroulent au sein d'un environnement de développement.

Voici le workflow classique associé aux tâches Cloud Dataflow traditionnelles :

  1. Les développeurs créent un environnement de développement et développent leur pipeline. L'environnement comprend le SDK Apache Beam ainsi que d'autres dépendances.
  2. Les utilisateurs exécutent le pipeline à partir de l'environnement de développement. Le SDK Apache Beam préproduit les fichiers dans Cloud Storage, crée un fichier de requête de tâche, puis l'envoie au service Cloud Dataflow.

Tâches Cloud Dataflow modélisées

Lorsque vous utilisez des modèles Cloud Dataflow, les étapes de préproduction et d'exécution sont séparées. Cette séparation vous permet de choisir qui peut exécuter des tâches et où.

Voici le workflow classique associé aux tâches Cloud Dataflow modélisées :

  1. Les développeurs créent un environnement de développement et développent leur pipeline. L'environnement comprend le SDK Apache Beam ainsi que d'autres dépendances.
  2. Les développeurs exécutent le pipeline et créent un modèle. Le SDK Apache Beam préproduit les fichiers dans Cloud Storage, crée un fichier de modèle (comparable à une requête de tâche), puis l'enregistre dans Cloud Storage.
  3. Les utilisateurs non techniques peuvent facilement exécuter des tâches à l'aide de la console GCP, de l'outil de ligne de commande gcloud ou de l'API REST pour envoyer des requêtes d'exécution de fichier de modèle au service Cloud Dataflow.

Avant de commencer

Avant de créer vos propres modèles, vérifiez que votre version du SDK Apache Beam est compatible avec la création de modèles.

Java : SDK 2.x

Pour pouvoir créer des modèles avec le SDK Cloud Dataflow 2.x pour Java, vous devez disposer de la version 2.0.0-beta3 ou ultérieure.

Python

Pour pouvoir créer des modèles avec le SDK Cloud Dataflow 2.x pour Python, vous devez disposer de la version 2.0.0 ou ultérieure.

Java : SDK 1.x

Pour pouvoir créer des modèles avec le SDK Cloud Dataflow 1.x pour Java, vous devez disposer de la version 1.9.0 ou ultérieure.

Pour pouvoir exécuter des modèles à l'aide de l'outil de ligne de commande gcloud, vous devez disposer de la version 138.0.0 ou ultérieure du SDK Cloud.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.