Instala el SDK de Apache Beam

En esta página, se muestra cómo instalar el SDK de Apache Beam para que puedas ejecutar tus canalizaciones en el servicio de Dataflow.

Aviso de baja del SDK de Dataflow: El SDK de Dataflow 2.5.0 es la última versión del SDK de Dataflow que es independiente de las versiones del SDK de Apache Beam. El servicio de Dataflow es totalmente compatible con las actualizaciones oficiales del SDK de Apache Beam. Consulta la página de asistencia de Dataflow para conocer el estado de varios SDK.

Instala actualizaciones del SDK

El SDK de Apache Beam es un modelo de programación de código abierto para canalizaciones de datos. Debes definir estas canalizaciones con un programa Apache Beam y puedes elegir un ejecutor, como Dataflow, para ejecutar tu canalización. Si deseas obtener información sobre cómo configurar tu proyecto de Google Cloud y el entorno de desarrollo para usar Dataflow, sigue una de las guías de inicio rápido.

Java

La versión de actualización más reciente del SDK de Apache Beam para Java es la 2.20.0. Consulta el anuncio de actualización para obtener información sobre los cambios incluidos en la actualización.

A fin de obtener el SDK de Apache Beam para Java con Maven, usa uno de los artefactos publicados del Repositorio central de Maven.

Agrega una dependencia en tu archivo pom.xml y especifica un rango de versión para el artefacto del SDK como se indica a continuación:

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>[2.20.0, 2.99)</version>
  </dependency>
  

Python

La actualización más reciente del SDK de Apache Beam para Python es la 2.20.0. Consulta el anuncio de actualización para obtener información sobre los cambios incluidos en la actualización.

El 7 de octubre de 2020, Dataflow dejará de admitir canalizaciones con Python 2. Obtén más información en la página Compatibilidad con Python 2 en Google Cloud.

A fin de obtener el SDK de Apache Beam para Python, usa uno de los paquetes publicados del Índice de paquetes de Python.

Instala la versión más reciente del SDK de Apache Beam para Python. A fin de hacerlo, ejecuta el siguiente comando desde un entorno virtual:

pip install apache-beam[gcp]

Si deseas actualizar una instalación existente de Apache Beam, usa la marca --upgrade:

pip install --upgrade apache-beam[gcp]

Código fuente y ejemplos

El código fuente de Apache Beam está disponible en el repositorio de Apache Beam en GitHub.

Java

Las muestras de código están disponibles en el repositorio de ejemplos de Apache Beam en GitHub.

Python

Las muestras de código están disponibles en el repositorio de ejemplos de Apache Beam en GitHub.

Herramientas adicionales

Java

Dataflow se integra con la herramienta de línea de comandos de gcloud del SDK de Cloud. Con el fin de obtener instrucciones para instalar la interfaz de línea de comandos de Dataflow, consulta Usa la interfaz de línea de comandos de Cloud Dataflow.

Python

Dataflow se integra con la herramienta de línea de comandos de gcloud del SDK de Cloud. Con el fin de obtener instrucciones para instalar la interfaz de línea de comandos de Dataflow, consulta Usa la interfaz de línea de comandos de Cloud Dataflow.