En esta página, se describen las diferentes formas de compilar canalizaciones para Dataflow y las ventajas de cada método.
Plantillas proporcionadas por Google
Google proporciona plantillas de código abierto para docenas de canalizaciones de Dataflow prediseñadas. Puedes ejecutar estas plantillas desde la consola deGoogle Cloud o desde la línea de comandos. Algunas plantillas admiten la adición de una función definida por el usuario (UDF), de modo que puedas transformar los datos antes de escribirlos en el destino de salida.
Considera usar una plantilla si hay una que coincida con tu situación. Para obtener una lista completa, consulta Plantillas que proporciona Google.
Compilador de trabajos
El compilador de trabajos es una IU visual para compilar y ejecutar canalizaciones de Dataflow en la consola de Google Cloud , sin escribir ningún código. En el compilador de trabajos, crea una canalización seleccionando fuentes, receptores y transformaciones, y conectándolos para formar un gráfico. El compilador de trabajos también te permite guardar y cargar tus canalizaciones como archivos YAML.
Considera el compilador de trabajos para las siguientes situaciones:
- Crea canalizaciones personalizadas cuando una plantilla proporcionada por Google no coincida con tu situación.
- Crea canalizaciones sin escribir código.
- Crear canalizaciones con varias fuentes o receptores
- Crea prototipos rápidos.
Para obtener más información, consulta la descripción general de la IU del compilador de trabajos.
El compilador de trabajos admite un subconjunto de las fuentes y los receptores disponibles en Apache Beam. Si necesitas una que no sea compatible con el compilador de trabajos, prueba una plantilla proporcionada por Google o usa el SDK de Apache Beam.
SDK de Apache Beam
Las canalizaciones de Dataflow se compilan con el SDK de Apache Beam de código abierto. Si usas el SDK para escribir tu canalización, obtendrás toda la potencia de Apache Beam para tus cargas de trabajo. Las canalizaciones se pueden escribir en Java, Python o Go.
Considera usar el SDK de Apache Beam si no puedes lograr tu objetivo con una plantilla proporcionada por Google o con el compilador de trabajos. Por ejemplo:
- Canalizaciones más complejas que necesitan el conjunto completo de funciones de Apache Beam
- Canalizaciones de transmisión que requieren estrategias más sofisticadas para controlar los datos retrasados, como el reprocesamiento
Para obtener más información, consulta Usa Apache Beam para compilar canalizaciones.
Notebooks
Puedes ejecutar código de Python de Apache Beam en un notebook de JupyterLab. Estos notebooks están disponibles a través de Vertex AI Workbench, un servicio que aloja VMs de notebooks preinstaladas con los frameworks más recientes de ciencia de datos y aprendizaje automático. Con los notebooks, no necesitas configurar un entorno de desarrollo y puedes iterar rápidamente el código de tu canalización. Los notebooks se ejecutan en un entorno de prueba, pero puedes exportar el código para usarlo en producción.
Para obtener más información, consulta Cómo desarrollar notebooks de Apache Beam.