En este documento, se muestra cómo crear una configuración de flujo de trabajo en Dataform para programar y configurar ejecuciones de flujos de trabajo de SQL. Puedes usar configuraciones de flujo de trabajo para ejecutar flujos de trabajo de SQL de Dataform de manera programada.
Información acerca de las configuraciones de flujo de trabajo
Para programar ejecuciones de Dataform de todas o algunas acciones de flujo de trabajo de SQL en BigQuery, puedes crear parámetros de configuración de flujo de trabajo. En una configuración de flujo de trabajo, seleccionas una configuración de lanzamiento de compilación, seleccionas acciones de flujo de trabajo de SQL para la ejecución y estableces el programa de ejecución.
Luego, durante una ejecución programada de la configuración de tu flujo de trabajo, Dataform implementa tu selección de acciones del resultado de compilación más reciente en tu configuración de lanzamiento a BigQuery. También puedes activar de forma manual la ejecución de una configuración de flujo de trabajo con workflowConfigs de la API de Dataform.
Una configuración de flujo de trabajo de Dataform contiene la siguiente configuración de ejecución:
- ID de la configuración del flujo de trabajo
- Configuración de lanzamiento
Cuenta de servicio
Cuenta de servicio asociada con la configuración del flujo de trabajo. Puedes seleccionar la cuenta de servicio predeterminada de Dataform, una cuenta de servicio asociada con tu proyecto de Google Cloud o ingresar manualmente una cuenta de servicio diferente. De forma predeterminada, las configuraciones de flujo de trabajo usan las mismas cuentas de servicio que sus repositorios.
Acciones del flujo de trabajo de SQL que se ejecutarán:
- Todas las acciones
- Seleccionar acciones
- Selección de etiquetas
Programa de ejecución y zona horaria
Antes de comenzar
En la consola de Google Cloud, ve a la página Dataform.
Selecciona o crea un repositorio.
Crea una configuración de lanzamiento.
Roles obligatorios
Para obtener los permisos que necesitas para crear una configuración de flujo de trabajo, pídele a tu administrador que te otorgue el rol de IAM Administrador de Dataform (roles/dataform.admin
) en los repositorios.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Para usar una cuenta de servicio distinta de la cuenta de servicio predeterminada de Dataform, otorga acceso a la cuenta de servicio personalizada.
Crea una configuración de flujo de trabajo
Para crear una configuración de flujo de trabajo de Dataform, sigue estos pasos:
- En tu repositorio, ve a Lanzamientos y programación.
- En la sección Configuraciones de flujo de trabajo, haz clic en Crear.
En el panel Crear configuración de flujo de trabajo, en el campo ID de configuración, ingresa un ID único para la configuración del flujo de trabajo.
Los IDs solo pueden incluir números, letras, guiones y guiones bajos.
En el menú desplegable Configuración de lanzamiento, selecciona una configuración de lanzamiento de compilación.
Opcional: En el campo Frecuencia, ingresa la frecuencia de las ejecuciones en el formato cron de Unix.
Para garantizar que Dataform ejecute el resultado de compilación más reciente en la configuración de lanzamiento correspondiente, mantén un descanso mínimo de 1 hora entre el momento de la creación del resultado de compilación y el momento de la ejecución programada.
En el menú desplegable Service account, selecciona una cuenta de servicio para la configuración del flujo de trabajo.
En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con tu proyecto de Google Cloud al que tengas acceso. Si no seleccionas una cuenta de servicio, la configuración del flujo de trabajo usará la cuenta de servicio del repositorio.
Opcional: En el menú desplegable Zona horaria, selecciona la zona horaria para las ejecuciones.
La zona horaria predeterminada es UTC.
Selecciona las acciones del flujo de trabajo de SQL que se ejecutarán:
- Para ejecutar todo el flujo de trabajo de SQL, haz clic en Todas las acciones.
- Para ejecutar acciones seleccionadas en el flujo de trabajo de SQL, haz clic en Selección de acciones y, luego, selecciona las acciones.
- Para ejecutar acciones con etiquetas seleccionadas, haz clic en Selección de etiquetas y, luego, selecciona las etiquetas.
- Opcional: Para ejecutar las acciones o etiquetas seleccionadas y sus dependencias, selecciona la opción Incluir dependencias.
- Opcional: Para ejecutar las acciones o etiquetas seleccionadas y sus dependencias, selecciona la opción Incluir dependencias.
- Opcional: Para volver a compilar todas las tablas desde cero, selecciona la opción Run with full refresh.
Sin esta opción, Dataform actualiza las tablas incrementales sin volver a compilarlas desde cero.
Haz clic en Crear.
Por ejemplo, la siguiente configuración de flujo de trabajo ejecuta acciones con la etiqueta hourly
cada hora en la zona horaria CEST:
- ID de configuración:
production-hourly
- Configuración de lanzamiento: -
- Frecuencia:
0 * * * *
- Zona horaria:
Central European Summer Time (CEST)
- Selección de acciones de flujo de trabajo de SQL: selección de etiquetas, etiqueta
hourly
Edita la configuración de un flujo de trabajo
Para editar la configuración de un flujo de trabajo, sigue estos pasos:
- En tu repositorio, ve a Lanzamientos y programación.
- En la configuración del flujo de trabajo que deseas editar, haz clic en el menú Más y, luego, en Editar.
- En el panel Editar configuración del flujo de trabajo, edita la configuración de la configuración de lanzamiento y, luego, haz clic en Guardar.
Borra la configuración de un flujo de trabajo
Para borrar la configuración de un flujo de trabajo, sigue estos pasos:
- En tu repositorio, ve a Lanzamientos y programación.
- En la configuración del flujo de trabajo que deseas borrar, haz clic en el menú Más y, luego, en Borrar.
- En el diálogo Borrar configuración de lanzamiento, haz clic en Borrar.
¿Qué sigue?
- Si quieres aprender a configurar las configuraciones de lanzamiento de compilación de Dataform, consulta Cómo crear una configuración de lanzamiento.
- Para obtener más información sobre el ciclo de vida del código de Dataform, consulta Introducción al ciclo de vida del código en Dataform.