Programa ejecuciones con configuraciones de flujo de trabajo

En este documento, se muestra cómo crear una configuración de flujo de trabajo en Dataform para programar y configurar ejecuciones de flujo de trabajo de SQL. Puedes usar configuraciones de flujo de trabajo para ejecutar flujos de trabajo de SQL de Dataform de manera programada.

Información acerca de las configuraciones del flujo de trabajo

Para programar ejecuciones de Dataform de todas o algunas acciones de flujos de trabajo de SQL seleccionadas en BigQuery, puedes crear configuraciones de flujo de trabajo. En una configuración de flujo de trabajo, debes seleccionar una configuración de lanzamiento de compilación, seleccionar acciones de flujo de trabajo de SQL para la ejecución y establecer el programa de ejecución.

Luego, durante una ejecución programada de la configuración del flujo de trabajo, Dataform implementa la selección de acciones del resultado de compilación más reciente en la configuración de lanzamiento en BigQuery. También puedes activar manualmente la ejecución de una configuración de flujo de trabajo con FlowConfigs de la API de Dataform.

Una configuración de flujo de trabajo de Dataform contiene la siguiente configuración de ejecución:

  • ID de la configuración del flujo de trabajo
  • Configuración del lanzamiento
  • Cuenta de servicio

    Cuenta de servicio asociada con la configuración del flujo de trabajo. Puedes seleccionar la cuenta de servicio predeterminada de Dataform, una cuenta de servicio asociada a tu proyecto de Google Cloud o ingresar manualmente una cuenta de servicio diferente. De forma predeterminada, los parámetros de configuración del flujo de trabajo usan las mismas cuentas de servicio que sus repositorios.

  • Acciones del flujo de trabajo de SQL que se ejecutarán:

    • Todas las acciones
    • Seleccionar acciones
    • Selección de etiquetas
  • Programa de ejecución y zona horaria

Antes de comenzar

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a la página de Dataform

  2. Selecciona o crea un repositorio.

  3. Crea una configuración de lanzamiento.

Funciones obligatorias

Si quieres obtener los permisos necesarios para crear una configuración de flujo de trabajo, pídele a tu administrador que te otorgue el rol de IAM Editor de Dataform (roles/dataform.editor) en los repositorios. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios a través de los roles personalizados o de otros roles predefinidos.

Para usar una cuenta de servicio que no sea la predeterminada de Dataform, otorga acceso a la cuenta de servicio personalizada.

Crea una configuración de flujo de trabajo

Para crear una configuración de flujo de trabajo de Dataform, sigue estos pasos:

  1. En tu repositorio, ve a Lanzamientos y programación.
  2. En la sección Configuración del flujo de trabajo, haz clic en Crear.
  3. En el panel Crear configuración del flujo de trabajo, en el campo ID de configuración, ingresa un ID único para la configuración del flujo de trabajo.

    Los IDs solo pueden incluir números, letras, guiones y guiones bajos.

  4. En el menú desplegable Configuración de lanzamiento, selecciona una configuración de lanzamiento de compilación.

  5. Opcional: En el campo Frecuencia, ingresa la frecuencia de las ejecuciones en el formato unix-cron.

    Para asegurarte de que Dataform ejecute el resultado de compilación más reciente en la configuración de lanzamiento correspondiente, mantén una pausa mínima de 1 hora entre el momento de la creación del resultado de la compilación y el momento de la ejecución programada.

  6. En el menú desplegable Cuenta de servicio, selecciona una cuenta de servicio para la configuración del flujo de trabajo.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con el proyecto de Google Cloud al que tengas acceso. Si no seleccionas una cuenta de servicio, la configuración del flujo de trabajo usa la cuenta de servicio del repositorio.

  7. Opcional: En el menú desplegable Zona horaria, selecciona la zona horaria para las ejecuciones.

    La zona horaria predeterminada es UTC.

  8. Selecciona las acciones del flujo de trabajo de SQL que se ejecutarán:

    1. Para ejecutar todo el flujo de trabajo de SQL, haz clic en Todas las acciones.
    2. Para ejecutar las acciones seleccionadas en el flujo de trabajo de SQL, haz clic en Selección de acciones y, luego, selecciónalas.
    3. Para ejecutar acciones con las etiquetas seleccionadas, haz clic en Selección de etiquetas y, luego, selecciónalas.
    4. Opcional: Para ejecutar las acciones o las etiquetas seleccionadas y sus dependencias, selecciona la opción Incluir dependencias.
    5. Opcional: Para ejecutar las acciones o etiquetas seleccionadas y sus dependientes, selecciona la opción Include dependents.
    6. Opcional: Para volver a compilar todas las tablas desde cero, selecciona la opción Ejecutar con actualización completa.

    Sin esta opción, Dataform actualiza las tablas incrementales sin volver a compilarlas desde cero.

  9. Haz clic en Crear.



Por ejemplo, la siguiente configuración de flujo de trabajo ejecuta acciones con la etiqueta hourly cada hora en la zona horaria CEST:

  • ID de configuración: production-hourly
  • Configuración del lanzamiento: -
  • Frecuencia: 0 * * * *
  • Zona horaria: Central European Summer Time (CEST)
  • Selección de acciones del flujo de trabajo de SQL: selección de etiquetas, etiqueta hourly

Edita la configuración de un flujo de trabajo

Para editar la configuración de un flujo de trabajo, sigue estos pasos:

  1. En tu repositorio, ve a Lanzamientos y programación.
  2. Junto a la configuración del flujo de trabajo que desees editar, haz clic en el menú Más y, luego, en Editar.
  3. En el panel Editar configuración del flujo de trabajo, edita la configuración de lanzamiento y, luego, haz clic en Guardar.

Borrar una configuración de flujo de trabajo

Para borrar la configuración de un flujo de trabajo, sigue estos pasos:

  1. En tu repositorio, ve a Lanzamientos y programación.
  2. Junto a la configuración del flujo de trabajo que deseas borrar, haz clic en el menú Más y, luego, en Borrar.
  3. En el diálogo Borrar configuración de lanzamiento, haz clic en Borrar.

¿Qué sigue?