En esta página, se muestra cómo instalar el SDK de Apache Beam para que puedas ejecutar tus canalizaciones en el servicio de Dataflow.
Instala actualizaciones del SDK
El SDK de Apache Beam es un modelo de programación de código abierto para canalizaciones de datos. Debes definir estas canalizaciones con un programa Apache Beam y puedes elegir un ejecutor, como Dataflow, para ejecutar tu canalización.
Java
La versión más reciente del SDK de Apache Beam para Java es la 2.57.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.
Para obtener el SDK de Apache Beam para Java con Maven, usa uno de los artefactos publicados del Repositorio central de Maven.
Agrega dependencias y herramientas de administración de dependencias al archivo pom.xml
para el artefacto del SDK. Para obtener más información, consulta Administra dependencias de canalizaciones en Dataflow.
Para obtener más información sobre el SDK de Apache Beam para las dependencias de Java, consulta SDK de Apache Beam para dependencias de Java y Administra dependencias de Beam en Java. en la documentación de Apache Beam.
Python
La versión más reciente del SDK de Apache Beam para Python es la 2.57.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.
A fin de obtener el SDK de Apache Beam para Python, usa uno de los paquetes publicados del Índice de paquetes de Python.
Instala la rueda de Python mediante la ejecución del siguiente comando:
pip install wheel
Instala la versión más reciente del SDK de Apache Beam para Python. Para hacerlo, ejecuta el siguiente comando desde un entorno virtual:
pip install 'apache-beam[gcp]'
Según la conexión, la instalación puede demorar un poco.
Si deseas actualizar una instalación existente de Apache Beam, usa la marca --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
La versión más reciente del SDK de Apache Beam para Go es la 2.57.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.
Si deseas instalar la versión más reciente del SDK de Apache Beam para Go, ejecuta el siguiente comando:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configura tu entorno de desarrollo
Si deseas obtener información sobre cómo configurar tu proyecto de Google Cloud y el entorno de desarrollo para usar Dataflow, sigue una de las guías de inicio rápido.
- Crea una canalización de Dataflow con Java
- Crea una canalización de Dataflow con Python
- Crea una canalización de Dataflow con Go
- Crea una canalización de transmisión con una plantilla de Dataflow
Código fuente y ejemplos
El código fuente de Apache Beam está disponible en el repositorio de Apache Beam en GitHub.
Java
Las muestras de código están disponibles en el Directorio de ejemplos de Apache Beam en GitHub.
Python
Las muestras de código están disponibles en el Directorio de ejemplos de Apache Beam en GitHub.
Go
Las muestras de código están disponibles en el Directorio de ejemplos de Apache Beam en GitHub.
Busca la versión del SDK de Dataflow
Los detalles de instalación dependen de tu entorno de desarrollo. Si usas Maven, puedes tener varias versiones del SDK de Dataflow “instaladas” en uno o más repositorios locales de Maven.
Java
Para saber qué versión del SDK de Dataflow se ejecuta en una canalización determinada, puedes ver la salida de la consola cuando se ejecuta con DataflowPipelineRunner
o BlockingDataflowPipelineRunner
. En la consola, aparecerá un mensaje como el que se muestra a continuación, que contiene la información de la versión del SDK de Dataflow:
Python
Para saber qué versión del SDK de Dataflow se ejecuta en una canalización determinada, puedes ver la salida de la consola cuando se ejecuta con DataflowRunner
. En la consola, aparecerá un mensaje como el que se muestra a continuación, que contiene la información de la versión del SDK de Dataflow:
Go
Para saber qué versión del SDK de Dataflow se ejecuta en una canalización determinada, puedes ver la salida de la consola cuando se ejecuta con DataflowRunner
. En la consola, aparecerá un mensaje como el que se muestra a continuación, que contiene la información de la versión del SDK de Dataflow:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
¿Qué sigue?
- Dataflow se integra con Google Cloud CLI. Con el fin de obtener instrucciones para instalar la interfaz de línea de comandos de Dataflow, consulta Usa la interfaz de línea de comandos de Dataflow.
- Para obtener información sobre las capacidades de Apache Beam compatibles con Dataflow, revisa la matriz de capacidad de Apache Beam.