Installer le SDK Apache Beam

Cette page explique comment installer le SDK Apache Beam afin de pouvoir exécuter vos pipelines sur le service Dataflow.

Avis d'abandon concernant le SDK Dataflow : La version 2.5.0 du SDK Dataflow est la dernière version distincte du SDK Apache Beam. Le service Dataflow est entièrement compatible avec les versions officielles du SDK Apache Beam. Pour connaître l'état de compatibilité des différentes versions du SDK, consultez la page d'assistance de Dataflow.

Installer les versions du SDK

Le SDK Apache Beam est un modèle de programmation Open Source pour les pipelines de données. Vous définissez ces pipelines avec un programme Apache Beam et pouvez choisir un exécuteur, tel que Dataflow, pour les lancer. Pour en savoir plus sur la configuration de votre projet Google Cloud et de votre environnement de développement pour utiliser Dataflow, suivez l'un des guides de démarrage rapide.

Java

La dernière version du SDK Apache Beam pour Java est la version 2.22.0. Pour en savoir plus sur les modifications incluses dans la version, consultez l'annonce la concernant.

Pour obtenir le SDK Apache Beam pour Java à l'aide de Maven, utilisez l'un des artefacts disponibles dans le dépôt central Maven.

Ajoutez une dépendance dans votre fichier pom.xml et spécifiez une plage de versions pour l'artefact SDK comme suit :

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>[2.22.0, 2.99)</version>
  </dependency>
  

Python

La dernière version du SDK Apache Beam pour Python est la version 2.22.0. Pour en savoir plus sur les modifications incluses dans la version, consultez l'annonce la concernant.

Le 7 octobre 2020, les pipelines qui fonctionnent sous Python 2 ne seront plus compatibles avec Dataflow. Pour plus d'informations, consultez la page Compatibilité avec Python 2 sur Google Cloud.

Pour obtenir le SDK Apache Beam pour Python, utilisez l'un des packages disponibles dans l'index de packages Python.

Pour installer la dernière version du SDK Apache Beam pour Python, exécutez la commande suivante depuis un environnement virtuel :

pip install apache-beam[gcp]

Pour mettre à niveau une installation Apache Beam existante, utilisez l'indicateur --upgrade :

pip install --upgrade apache-beam[gcp]

Code source et exemples

Le code source Apache Beam est disponible dans le dépôt Apache Beam sur GitHub.

Java

Des exemples de code sont disponibles dans le dépôt d'exemples Apache Beam sur GitHub.

Python

Des exemples de code sont disponibles dans le dépôt d'exemples Apache Beam sur GitHub.

Outils complémentaires

Java

Dataflow s'intègre à l'outil de ligne de commande gcloud du SDK Cloud. Pour obtenir des instructions sur l'installation de l'interface de ligne de commande Dataflow, consultez la page Utiliser l'interface de ligne de commande Dataflow.

Python

Dataflow s'intègre à l'outil de ligne de commande gcloud du SDK Cloud. Consultez la page Utiliser l'interface de ligne de commande Dataflow pour obtenir des instructions sur l'installation de l'interface de ligne de commande du service.