Plantillas de Cloud Dataflow

Las plantillas de Cloud Dataflow te permiten habilitar a etapa las canalizaciones en Cloud Storage y ejecutarlas desde una variedad de entornos. Puedes usar una de las plantillas provistas por Google o crear las tuyas.

Las plantillas te proporcionan beneficios adicionales en comparación con la implementación tradicional de Cloud Dataflow. Por ejemplo:

  • La ejecución de canalizaciones no requiere que vuelvas a compilar el código cada vez.
  • Puedes ejecutar las canalizaciones sin el entorno de desarrollo y las dependencias asociadas que son comunes con la implementación tradicional. Esto es útil para programar trabajos por lotes recurrentes.
  • Los parámetros de entorno de ejecución te permiten personalizar la ejecución de la canalización.
  • Los usuarios no técnicos pueden ejecutar plantillas con Google Cloud Platform Console, la herramienta de línea de comandos de gcloud o la API de REST.

Ejecución de trabajos con plantilla en comparación con la tradicional

Las plantillas de Cloud᠎ Dataflow ingresan un nuevo flujo de trabajo de desarrollo y ejecución que difiere del flujo de trabajo tradicional de ejecución de trabajos. El flujo de trabajo de la plantilla separa el paso de desarrollo de los pasos de etapa de pruebas y ejecución.

Trabajos tradicionales de Cloud Dataflow

El desarrollo de la canalización de Apache Beam y la ejecución de trabajos se producen en un entorno de desarrollo.

Flujo de trabajo típico para trabajos tradicionales de Cloud Dataflow:

  1. Los desarrolladores crean un entorno de desarrollo y desarrollan su canalización. El entorno incluye el SDK de Apache Beam y otras dependencias.
  2. Los usuarios ejecutan la canalización desde el entorno de desarrollo. El SDK de Apache Beam habilita a etapa archivos en Cloud Storage, crea un archivo de solicitud de trabajo y envía el archivo al servicio de Cloud Dataflow.

Trabajos de Cloud Dataflow con plantillas

Si usas plantillas de Cloud Dataflow, la etapa de pruebas y la ejecución son pasos separados. Esta separación te brinda flexibilidad adicional para decidir quién puede ejecutar trabajos y desde dónde.

Flujo de trabajo típico para trabajos de Cloud Dataflow con plantillas:

  1. Los desarrolladores crean un entorno de desarrollo y desarrollan su canalización. El entorno incluye el SDK de Apache Beam y otras dependencias.
  2. Los desarrolladores ejecutan la canalización y crean una plantilla. El SDK de Apache Beam habilita a etapa archivos en Cloud Storage, crea un archivo de solicitud de plantilla (parecido a la solicitud de trabajo) y guarda el archivo con plantilla en Cloud Storage.
  3. Los usuarios que no son desarrolladores pueden ejecutar trabajos fácilmente con GCP Console, la herramienta de línea de comandos de gcloud o la API de REST para enviar solicitudes de ejecución de archivos con plantillas al servicio Cloud Dataflow.

Antes de comenzar

Para crear tus propias plantillas, asegúrate de que la versión del SDK de Apache Beam admita la creación de plantillas.

Java: SDK 2.x

Si quieres crear plantillas con el SDK 2.x de Cloud Dataflow para Java, debes tener la versión 2.0.0-beta3 o superior.

Python

Si quieres crear plantillas con el SDK 2.x de Cloud Dataflow para Python, debes tener la versión 2.0.0 o superior.

Java: SDK 1.x

Si quieres crear plantillas con el SDK 1.x de Cloud Dataflow para Java, debes tener la versión 1.9.0 o superior.

Para ejecutar plantillas con la herramienta de línea de comandos de gcloud, debes tener el SDK de Cloud versión 138.0.0 o superior.

¿Qué sigue?

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.