En esta página, se muestra cómo instalar el SDK de Apache Beam para que puedas ejecutar tus canalizaciones en el servicio de Dataflow.
Aviso de baja del SDK de Dataflow: El SDK de Dataflow 2.5.0 es la última versión del SDK de Dataflow que es independiente de las versiones del SDK de Apache Beam. El servicio de Dataflow es totalmente compatible con las actualizaciones oficiales del SDK de Apache Beam. Consulta la página de asistencia de Dataflow para conocer el estado de varios SDK.
Instala versiones del SDK
El SDK de Apache Beam es un modelo de programación de código abierto para canalizaciones de datos. Debes definir estas canalizaciones con un programa Apache Beam y puedes elegir un ejecutor, como Dataflow, para ejecutar tu canalización. Si deseas obtener información sobre cómo configurar tu proyecto de Google Cloud y el entorno de desarrollo para usar Dataflow, sigue una de las guías de inicio rápido.
Java
La versión más reciente del SDK de Apache Beam para Java es la 2.25.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.
A fin de obtener el SDK de Apache Beam para Java con Maven, usa uno de los artefactos publicados del Repositorio central de Maven.
Agrega una dependencia en tu archivo pom.xml
y especifica un rango de versión para el artefacto del SDK como se indica a continuación:
<dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-sdks-java-core</artifactId> <version>[2.25.0, 2.99)</version> </dependency>
Python
La versión más reciente del SDK de Apache Beam para Python es la 2.25.0. Consulta el anuncio de actualización para obtener información sobre los cambios que se incluyen en la actualización.
El 7 de octubre de 2020, Dataflow dejará de admitir canalizaciones con Python 2. Obtén más información en la página Compatibilidad con Python 2 en Google Cloud.
A fin de obtener el SDK de Apache Beam para Python, usa uno de los paquetes publicados del Índice de paquetes de Python.
Instala la versión más reciente del SDK de Apache Beam para Python. A fin de hacerlo, ejecuta el siguiente comando desde un entorno virtual:
pip install apache-beam[gcp]
Si deseas actualizar una instalación existente de Apache Beam, usa la marca --upgrade
:
pip install --upgrade apache-beam[gcp]
Código fuente y ejemplos
El código fuente de Apache Beam está disponible en el repositorio de Apache Beam en GitHub.
Java
Las muestras de código están disponibles en el repositorio de ejemplos de Apache Beam en GitHub.
Python
Las muestras de código están disponibles en el repositorio de ejemplos de Apache Beam en GitHub.
Herramientas adicionales
Java
Dataflow se integra en la herramienta de línea de comandos de gcloud
del SDK de Cloud. Con el fin de obtener instrucciones para instalar la interfaz de línea de comandos de Dataflow, consulta Usa la interfaz de línea de comandos de Cloud Dataflow.
Python
Dataflow se integra en la herramienta de línea de comandos de gcloud
del SDK de Cloud. Con el fin de obtener instrucciones para instalar la interfaz de línea de comandos de Dataflow, consulta Usa la interfaz de línea de comandos de Cloud Dataflow.