Programa ejecuciones con configuraciones de flujo de trabajo

En este documento, se muestra cómo crear una configuración de flujo de trabajo en Dataform para programar y configurar ejecuciones de flujos de trabajo de SQL. Puedes usar configuraciones de flujos de trabajo para ejecutar flujos de trabajo de SQL de Dataform de forma programada.

Acerca de las configuraciones de flujos de trabajo de Dataform

Para programar ejecuciones de Dataform de todas las acciones del flujo de trabajo de SQL o de algunas de ellas seleccionadas en BigQuery, puedes crear configuraciones del flujo de trabajo. En una configuración de flujo de trabajo, debes seleccionar una configuración de lanzamiento de compilación, elegir las acciones del flujo de trabajo de SQL para la ejecución y establecer el programa de ejecución.

Luego, durante una ejecución programada de la configuración del flujo de trabajo, Dataform implementa la selección de acciones del resultado de la compilación más reciente en la configuración de lanzamiento en BigQuery. También puedes activar manualmente la ejecución de una configuración de flujo de trabajo con los flujos de trabajo de la API de Dataform.

Una configuración de flujo de trabajo de Dataform contiene la siguiente configuración de ejecución:

  • ID de la configuración del flujo de trabajo
  • Configuración de lanzamiento
  • Cuenta de servicio

    Cuenta de servicio asociada con la configuración del flujo de trabajo. Puedes seleccionar la cuenta de servicio predeterminada de Dataform, una cuenta de servicio asociada a tu proyecto de Google Cloud o ingresar manualmente una cuenta de servicio diferente. De forma predeterminada, las configuraciones de flujo de trabajo usan las mismas cuentas de servicio que sus repositorios.

  • Acciones del flujo de trabajo de SQL que se ejecutarán:

    • Todas las acciones
    • Seleccionar acciones
    • Selección de etiquetas
  • Programa de ejecución y zona horaria

Antes de comenzar

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a la página Dataform

  2. Selecciona o crea un repositorio.

  3. Crea una configuración de lanzamiento.

Roles obligatorios

Si quieres obtener los permisos que necesitas para crear una configuración de flujo de trabajo, pídele a tu administrador que te otorgue el rol de IAM Editor de formularios de datos (roles/dataform.editor) en los repositorios. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios mediante funciones personalizadas, o bien otras funciones predefinidas.

Para usar una cuenta de servicio que no sea la predeterminada de Dataform, otorga acceso a la cuenta de servicio no predeterminada.

Crea una configuración de flujo de trabajo

Para crear una configuración de flujo de trabajo de Dataform, sigue estos pasos:

  1. En el repositorio, ve a Configuración del flujo de trabajo y, luego, haz clic en Configuración del flujo de trabajo nueva.
  2. En el panel Crear configuración del flujo de trabajo, en el campo ID de configuración, ingresa un ID único para la configuración del flujo de trabajo.

    Los ID solo pueden incluir números, letras, guiones y guiones bajos.

  3. En el menú desplegable Configuración de lanzamiento, selecciona una configuración de lanzamiento de compilación.

  4. Opcional: En el campo Frecuencia, ingresa la frecuencia de las ejecuciones en el formato cron de Unix.

    Para asegurarte de que Dataform ejecute el resultado de la compilación más reciente en la configuración de lanzamiento correspondiente, mantén una pausa mínima de 1 hora entre el momento de creación del resultado de la compilación y el momento de la ejecución programada.

  5. En el menú desplegable Cuenta de servicio, selecciona una cuenta de servicio para la configuración del flujo de trabajo.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con el proyecto de Google Cloud al que tengas acceso. Si no seleccionas una cuenta de servicio, la configuración del flujo de trabajo usa la cuenta de servicio del repositorio.

  6. Opcional: En el menú desplegable Zona horaria, selecciona la zona horaria para las ejecuciones.

    La zona horaria predeterminada es UTC.

  7. Selecciona las acciones del flujo de trabajo de SQL que se ejecutarán:

    1. Para ejecutar todo el flujo de trabajo de SQL, haz clic en Todas las acciones.
    2. Para ejecutar las acciones seleccionadas en el flujo de trabajo de SQL, haz clic en Selección de acciones y, luego, elige acciones.
    3. Para ejecutar acciones con las etiquetas seleccionadas, haz clic en Selección de etiquetas y, luego, elige etiquetas.
    4. Opcional: Para ejecutar acciones o etiquetas seleccionadas y sus dependencias, selecciona la opción Incluir dependencias.
    5. Opcional: Para ejecutar acciones o etiquetas seleccionadas y sus dependientes, selecciona la opción Include dependientes.
    6. Opcional: Para volver a compilar todas las tablas desde cero, selecciona la opción Ejecutar con actualización completa.

    Sin esta opción, Dataform actualiza las tablas incrementales sin volver a compilarlas desde cero.

  8. Haz clic en Crear.



Por ejemplo, la siguiente configuración del flujo de trabajo ejecuta acciones con la etiqueta hourly cada hora en la zona horaria de CEST:

  • ID de configuración: production-hourly
  • Configuración de lanzamiento: -
  • Frecuencia: 0 * * * *
  • Zona horaria: Central European Summer Time (CEST)
  • Selección de acciones del flujo de trabajo de SQL: selección de etiquetas, etiqueta hourly

Edita la configuración de un flujo de trabajo

Para editar la configuración de un flujo de trabajo, sigue estos pasos:

  1. En tu repositorio, ve a Configuración del flujo de trabajo.
  2. Junto a la configuración del flujo de trabajo que deseas editar, haz clic en el menú Más y, luego, en Editar.
  3. En el panel Editar configuración del flujo de trabajo, edita la configuración de lanzamiento y, luego, haz clic en Guardar.

Borrar la configuración de un flujo de trabajo

Para borrar la configuración de un flujo de trabajo, sigue estos pasos:

  1. En tu repositorio, ve a Configuración del flujo de trabajo.
  2. Junto a la configuración del flujo de trabajo que deseas borrar, haz clic en el menú Más y, luego, en Borrar.
  3. En la ventana emergente Borrar configuración de lanzamiento, haz clic en Borrar.

¿Qué sigue?