Crear flujos de procesamiento de Dataflow

En esta página se describen las diferentes formas de crear canalizaciones para Dataflow y las ventajas de cada método.

Plantillas proporcionadas por Google

Google proporciona plantillas de código abierto para docenas de flujos de procesamiento de Dataflow prediseñados. Puedes ejecutar estas plantillas desde la Google Cloud consola o desde la línea de comandos. Algunas plantillas admiten la adición de una función definida por el usuario (UDF), de forma que pueda transformar los datos antes de escribirlos en el destino de salida.

Si hay alguna plantilla que se ajuste a tu situación, te recomendamos que la uses. Para ver una lista completa, consulta Plantillas proporcionadas por Google.

Creador de tareas

El creador de tareas es una interfaz de usuario visual para crear y ejecutar flujos de procesamiento de Dataflow en la consola de Google Cloud sin tener que escribir código. Google Cloud En el creador de tareas, puedes crear una canalización seleccionando fuentes, receptores y transformaciones, y conectándolos para formar un gráfico. El creador de trabajos también te permite guardar y cargar tus pipelines como archivos YAML.

Considera la herramienta de creación de empleo en los siguientes casos:

  • Crea las tuyas cuando una plantilla proporcionada por Google no se ajuste a tu situación.
  • Crea flujos de trabajo sin escribir código.
  • Crear canalizaciones con varias fuentes o receptores.
  • Crea prototipos rápidos.

Para obtener más información, consulta la descripción general de la interfaz de usuario del creador de trabajos.

El creador de tareas admite un subconjunto de las fuentes y los receptores que están disponibles en Apache Beam. Si necesitas una que no sea compatible con el creador de tareas, prueba una plantilla proporcionada por Google o usa el SDK de Apache Beam.

SDK de Apache Beam

Los flujos de procesamiento de Dataflow se basan en el SDK de Apache Beam de código abierto. Si usas el SDK para escribir tu flujo de procesamiento, podrás aprovechar todo el potencial de Apache Beam en tus cargas de trabajo. Las canalizaciones se pueden escribir en Java, Python o Go.

Si no puedes llevar a cabo tu caso práctico con una plantilla proporcionada por Google o con el creador de tareas, te recomendamos que uses el SDK de Apache Beam. Por ejemplo:

  • Tuberías más complejas que necesitan el conjunto completo de funciones de Apache Beam.
  • Pipelines de streaming que requieren estrategias más sofisticadas para gestionar datos tardíos, como el reprocesamiento.

Para obtener más información, consulta Usar Apache Beam para crear flujos de procesamiento.

Notebooks

Puedes ejecutar código Python de Apache Beam en un cuaderno de JupyterLab. Estos cuadernos están disponibles a través de Vertex AI Workbench, un servicio que aloja VMs de cuadernos con los frameworks de ciencia de datos y aprendizaje automático más recientes preinstalados. Con los cuadernos, no necesitas configurar un entorno de desarrollo y puedes iterar rápidamente en el código de tu canalización. Los cuadernos se ejecutan en un entorno de pruebas, pero puedes exportar el código para usarlo en producción.

Para obtener más información, consulta Desarrollar cuadernos de Apache Beam.