Cette page explique comment installer le SDK Apache Beam afin de pouvoir exécuter vos pipelines sur le service Dataflow.
Installer les versions du SDK
Le SDK Apache Beam est un modèle de programmation Open Source pour les pipelines de données. Vous définissez ces pipelines avec un programme Apache Beam et pouvez choisir un exécuteur, tel que Dataflow, pour les lancer.
Java
La dernière version du SDK Apache Beam pour Java est la version 2.61.0. Pour en savoir plus sur les modifications incluses dans la version, consultez l'annonce la concernant.
Pour obtenir le SDK Apache Beam pour Java à l'aide de Maven, utilisez l'un des artefacts disponibles dans le répertoire central Maven.
Ajoutez des dépendances et des outils de gestion des dépendances à votre fichier pom.xml
pour l'artefact SDK. Pour en savoir plus, consultez la page Gérer les dépendances de pipeline dans Dataflow.
Pour en savoir plus sur le SDK Apache Beam pour les dépendances Java, consultez les pages SDK Apache Beam pour les dépendances Java et Gérer les dépendances Beam dans Java. dans la documentation d'Apache Beam.
Python
La dernière version du SDK Apache Beam pour Python est la version 2.61.0. Pour en savoir plus sur les modifications incluses dans la version, consultez l'annonce la concernant.
Pour obtenir le SDK Apache Beam pour Python, utilisez l'un des packages disponibles dans l'index de packages Python.
Installez la roue Python en exécutant la commande suivante :
pip install wheel
Pour installer la dernière version du SDK Apache Beam pour Python, exécutez la commande suivante depuis un environnement virtuel :
pip install 'apache-beam[gcp]'
En fonction de la connexion, l'installation peut prendre un certain temps.
Pour mettre à niveau une installation Apache Beam existante, utilisez l'indicateur --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
La dernière version du SDK Apache Beam pour Go est la version 2.61.0. Pour en savoir plus sur les modifications incluses dans la version, consultez l'annonce la concernant.
Pour installer la dernière version du SDK Apache Beam pour Go, exécutez la commande suivante :
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configurer l'environnement de développement
Pour en savoir plus sur la configuration de votre projet Google Cloud et de votre environnement de développement pour utiliser Dataflow, suivez l'un des guides de démarrage rapide :
- Créer un pipeline Dataflow à l'aide de Java
- Créer un pipeline Dataflow à l'aide de Python
- Créer un pipeline Dataflow à l'aide de Go
- Créer un pipeline de traitement en flux continu à l'aide d'un modèle Dataflow
Code source et exemples
Le code source Apache Beam est disponible dans le dépôt Apache Beam sur GitHub.
Java
Des exemples de code sont disponibles dans le dépôt d'exemples Apache Beam sur GitHub.
Python
Des exemples de code sont disponibles dans le dépôt d'exemples Apache Beam sur GitHub.
Go
Des exemples de code sont disponibles dans le dépôt d'exemples Apache Beam sur GitHub.
Identifier la version du SDK Dataflow
Les détails d'installation dépendent de votre environnement de développement. Si vous utilisez Maven, plusieurs versions du SDK Dataflow peuvent être "installées" dans un ou plusieurs dépôts Maven locaux.
Java
Pour connaître la version du SDK Dataflow exécutée par un pipeline spécifique, vous pouvez consulter la sortie de la console lors de l'exécution avec DataflowPipelineRunner
ou BlockingDataflowPipelineRunner
. La console affiche un message semblable au suivant, qui contient les informations liées à la version du SDK Dataflow :
Python
Pour connaître la version du SDK Dataflow exécutée par un pipeline spécifique, vous pouvez consulter la sortie de la console lors de l'exécution avec DataflowRunner
. La console affiche un message semblable au suivant, qui contient les informations liées à la version du SDK Dataflow :
Go
Pour connaître la version du SDK Dataflow exécutée par un pipeline spécifique, vous pouvez consulter la sortie de la console lors de l'exécution avec DataflowRunner
. La console affiche un message semblable au suivant, qui contient les informations liées à la version du SDK Dataflow :
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
Étapes suivantes
- Dataflow s'intègre à Google Cloud CLI. Pour obtenir des instructions sur l'installation de l'interface de ligne de commande Dataflow, consultez la page Utiliser l'interface de ligne de commande Dataflow.
- Pour découvrir quelles sont les fonctionnalités Apache Beam compatibles avec Dataflow, consultez la page Matrice des fonctionnalités Apache Beam.