Premiers pas avec Dataflow.

Le service Dataflow exécute les pipelines définis par le SDK Apache Beam. Toutefois, pour de nombreux cas d'utilisation, vous n'avez pas besoin d'écrire de code avec le SDK, car Dataflow propose plusieurs options sans code et à faible code.

  • Modèles. Dataflow fournit des modèles prédéfinis pour transférer des données d'un produit à un autre. Par exemple, vous pouvez utiliser un modèle pour déplacer des données de Pub/Sub vers BigQuery.

  • Outil de création de jobs Le générateur de jobs est une interface utilisateur visuelle permettant de créer des pipelines Dataflow dans la consoleGoogle Cloud . Il est compatible avec un sous-ensemble de sources et de récepteurs Apache Beam, ainsi qu'avec des transformations telles que les jointures, les fonctions Python et les requêtes SQL. Nous recommandons le générateur de tâches pour les cas d'utilisation simples, tels que le déplacement de données.

  • Transformations clé en main pour le ML. Pour les pipelines de machine learning (ML), Dataflow fournit des transformations clés en main qui nécessitent un minimum de code pour être configurées. Pour commencer, exécutez un exemple de notebook de ML dans Google Colab. Pour en savoir plus, consultez la présentation de Dataflow ML.

  • SDK Apache Beam Pour exploiter tout le potentiel d'Apache Beam, utilisez le SDK pour écrire un pipeline personnalisé en Python, Java ou Go.

Pour vous aider à prendre votre décision, le tableau suivant présente quelques exemples courants.

Je souhaite… Approche recommandée
Déplacer des données d'une source vers un récepteur, sans logique personnalisée.

Outil de création de tâches ou modèle

Nous vous recommandons de commencer par l'outil de création de tâches. Si le générateur de jobs n'est pas compatible avec votre cas d'utilisation, vérifiez s'il existe un modèle pour celui-ci.

Déplacez des données d'une source vers un récepteur et appliquez une logique personnalisée à l'aide de fonctions Python ou de SQL. Créateur de tâches
Utiliser un modèle de ML dans mon pipeline ou préparer mes données pour l'entraînement ou l'inférence Transformations clés en main Dataflow ML
Écrivez un pipeline qui nécessite des fonctionnalités Apache Beam plus avancées. SDK Apache Beam pour Java, Python ou Go

Étapes suivantes