Instalar el SDK de Apache Beam

En esta página, se muestra cómo instalar el SDK de Apache Beam para que puedas ejecutar tus canalizaciones en el servicio de Dataflow.

Instala actualizaciones del SDK

El SDK de Apache Beam es un modelo de programación de código abierto para canalizaciones de datos. Debes definir estas canalizaciones con un programa Apache Beam y puedes elegir un ejecutor, como Dataflow, para ejecutar tu canalización.

Java

La versión más reciente del SDK de Apache Beam para Java es la 2.59.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.

Para obtener el SDK de Apache Beam para Java con Maven, usa uno de los artefactos publicados del Repositorio central de Maven.

Agrega dependencias y herramientas de administración de dependencias al archivo pom.xml para el artefacto del SDK. Para obtener más información, consulta Administra dependencias de canalizaciones en Dataflow.

Para obtener más información sobre el SDK de Apache Beam para las dependencias de Java, consulta SDK de Apache Beam para dependencias de Java y Administra dependencias de Beam en Java. en la documentación de Apache Beam.

Python

La versión más reciente del SDK de Apache Beam para Python es la 2.59.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.

A fin de obtener el SDK de Apache Beam para Python, usa uno de los paquetes publicados del Índice de paquetes de Python.

Instala la rueda de Python mediante la ejecución del siguiente comando:

pip install wheel

Instala la versión más reciente del SDK de Apache Beam para Python. Para hacerlo, ejecuta el siguiente comando desde un entorno virtual:

pip install 'apache-beam[gcp]'

Según la conexión, la instalación puede demorar un poco.

Si deseas actualizar una instalación existente de Apache Beam, usa la marca --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Go

La versión más reciente del SDK de Apache Beam para Go es la 2.59.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.

Si deseas instalar la versión más reciente del SDK de Apache Beam para Go, ejecuta el siguiente comando:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Configura tu entorno de desarrollo

Si deseas obtener información sobre cómo configurar tu proyecto de Google Cloud y el entorno de desarrollo para usar Dataflow, sigue una de las guías de inicio rápido.

Código fuente y ejemplos

El código fuente de Apache Beam está disponible en el repositorio de Apache Beam en GitHub.

Java

Las muestras de código están disponibles en el Directorio de ejemplos de Apache Beam en GitHub.

Python

Las muestras de código están disponibles en el Directorio de ejemplos de Apache Beam en GitHub.

Go

Las muestras de código están disponibles en el Directorio de ejemplos de Apache Beam en GitHub.

Busca la versión del SDK de Dataflow

Los detalles de instalación dependen de tu entorno de desarrollo. Si usas Maven, puedes tener varias versiones del SDK de Dataflow “instaladas” en uno o más repositorios locales de Maven.

Java

Para saber qué versión del SDK de Dataflow se ejecuta en una canalización determinada, puedes ver la salida de la consola cuando se ejecuta con DataflowPipelineRunner o BlockingDataflowPipelineRunner. En la consola, aparecerá un mensaje como el que se muestra a continuación, que contiene la información de la versión del SDK de Dataflow:

Python

Para saber qué versión del SDK de Dataflow se ejecuta en una canalización determinada, puedes ver la salida de la consola cuando se ejecuta con DataflowRunner. En la consola, aparecerá un mensaje como el que se muestra a continuación, que contiene la información de la versión del SDK de Dataflow:

Go

Para saber qué versión del SDK de Dataflow se ejecuta en una canalización determinada, puedes ver la salida de la consola cuando se ejecuta con DataflowRunner. En la consola, aparecerá un mensaje como el que se muestra a continuación, que contiene la información de la versión del SDK de Dataflow:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

¿Qué sigue?