Dataflow se basa en el proyecto de código abierto Apache Beam. Puedes usar el SDK de Apache Beam para crear flujos de procesamiento para Dataflow. En este documento se enumeran algunos recursos para empezar a programar con Apache Beam.
Empezar
Instala el SDK de Apache Beam: muestra cómo instalar el SDK de Apache Beam para ejecutar tus flujos de procesamiento en Dataflow.
Crear un flujo de procesamiento de Java: muestra cómo crear un flujo de procesamiento con el SDK de Apache Beam para Java y ejecutarlo en Dataflow.
Crear un flujo de procesamiento de Python: muestra cómo crear un flujo de procesamiento con el SDK de Apache Beam para Python y ejecutarlo en Dataflow.
Crear un flujo de procesamiento de Go: muestra cómo crear un flujo de procesamiento con el SDK de Apache Beam para Go y ejecutarlo en Dataflow.
Aprender a usar Apache Beam
Puedes consultar las siguientes páginas del sitio web de Apache Beam para obtener información sobre la programación de Apache Beam.
Guía de programación de Apache Beam: proporciona directrices para usar las clases del SDK de Apache Beam con el fin de crear y probar tu flujo de procesamiento.
Recorrido por Apache Beam: una guía de aprendizaje que puedes usar para familiarizarte con Apache Beam. Las unidades de aprendizaje incluyen ejemplos de código que puedes ejecutar y modificar.
Playground de Apache Beam: un entorno interactivo para probar transformaciones y ejemplos de Apache Beam sin tener que instalar Apache Beam en tu entorno.
Crea tu flujo de procesamiento: se explica cómo usar las clases de los SDKs de Apache Beam y los pasos necesarios para crear un flujo de procesamiento.
Desarrollar flujos de procesamiento
Planifica tu flujo de trabajo: descubre cómo planificar tu flujo de trabajo antes de empezar a desarrollar el código.
Desarrollar y probar flujos de procesamiento: consulta las prácticas recomendadas para desarrollar y probar tu flujo de procesamiento de Dataflow.
Flujos de procesamiento de streaming: descubre las consideraciones de diseño importantes para los flujos de procesamiento de streaming, como las ventanas, los activadores y las marcas de agua.
Ejemplos de código
Puedes usar los siguientes ejemplos de Apache Beam en GitHub para empezar a crear una canalización de streaming:
- Extracción de palabras en streaming (Java)
- Recuento de palabras en streaming (Python) y
streaming_wordcap
(Ir).
Siguientes pasos
- Despliega flujos de procesamiento de Dataflow.
- Usa la interfaz de monitorización de trabajos de Dataflow.