Programa ejecuciones con parámetros de configuración de flujos de trabajo

En este documento, se muestra cómo crear una configuración de flujo de trabajo en Dataform para programar y configurar ejecuciones de flujos de trabajo de SQL. Puedes usar configuraciones de flujo de trabajo para ejecutar flujos de trabajo de SQL de Dataform de manera programada.

Información acerca de las configuraciones de flujo de trabajo

Para programar ejecuciones de Dataform de todas o algunas acciones de flujo de trabajo de SQL en BigQuery, puedes crear parámetros de configuración de flujo de trabajo. En una configuración de flujo de trabajo, seleccionas una configuración de lanzamiento de compilación, seleccionas acciones de flujo de trabajo de SQL para la ejecución y estableces el programa de ejecución.

Luego, durante una ejecución programada de la configuración de tu flujo de trabajo, Dataform implementa tu selección de acciones del resultado de compilación más reciente en tu configuración de lanzamiento a BigQuery. También puedes activar de forma manual la ejecución de una configuración de flujo de trabajo con workflowConfigs de la API de Dataform.

Una configuración de flujo de trabajo de Dataform contiene la siguiente configuración de ejecución:

  • ID de la configuración del flujo de trabajo
  • Configuración de lanzamiento
  • Cuenta de servicio

    Cuenta de servicio asociada con la configuración del flujo de trabajo. Puedes seleccionar la cuenta de servicio predeterminada de Dataform, una cuenta de servicio asociada con tu proyecto de Google Cloud o ingresar manualmente una cuenta de servicio diferente. De forma predeterminada, las configuraciones de flujo de trabajo usan las mismas cuentas de servicio que sus repositorios.

  • Acciones del flujo de trabajo de SQL que se ejecutarán:

    • Todas las acciones
    • Seleccionar acciones
    • Selección de etiquetas
  • Programa de ejecución y zona horaria

Antes de comenzar

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ve a la página de Dataform

  2. Selecciona o crea un repositorio.

  3. Crea una configuración de lanzamiento.

Roles obligatorios

Para obtener los permisos que necesitas para crear una configuración de flujo de trabajo, pídele a tu administrador que te otorgue el rol de IAM Administrador de Dataform (roles/dataform.admin) en los repositorios. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Para usar una cuenta de servicio distinta de la cuenta de servicio predeterminada de Dataform, otorga acceso a la cuenta de servicio personalizada.

Crea una configuración de flujo de trabajo

Para crear una configuración de flujo de trabajo de Dataform, sigue estos pasos:

  1. En tu repositorio, ve a Lanzamientos y programación.
  2. En la sección Configuraciones de flujo de trabajo, haz clic en Crear.
  3. En el panel Crear configuración de flujo de trabajo, en el campo ID de configuración, ingresa un ID único para la configuración del flujo de trabajo.

    Los IDs solo pueden incluir números, letras, guiones y guiones bajos.

  4. En el menú desplegable Configuración de lanzamiento, selecciona una configuración de lanzamiento de compilación.

  5. Opcional: En el campo Frecuencia, ingresa la frecuencia de las ejecuciones en el formato cron de Unix.

    Para garantizar que Dataform ejecute el resultado de compilación más reciente en la configuración de lanzamiento correspondiente, mantén un descanso mínimo de 1 hora entre el momento de la creación del resultado de compilación y el momento de la ejecución programada.

  6. En el menú desplegable Service account, selecciona una cuenta de servicio para la configuración del flujo de trabajo.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con tu proyecto de Google Cloud al que tengas acceso. Si no seleccionas una cuenta de servicio, la configuración del flujo de trabajo usará la cuenta de servicio del repositorio.

  7. Opcional: En el menú desplegable Zona horaria, selecciona la zona horaria para las ejecuciones.

    La zona horaria predeterminada es UTC.

  8. Selecciona las acciones del flujo de trabajo de SQL que se ejecutarán:

    1. Para ejecutar todo el flujo de trabajo de SQL, haz clic en Todas las acciones.
    2. Para ejecutar acciones seleccionadas en el flujo de trabajo de SQL, haz clic en Selección de acciones y, luego, selecciona las acciones.
    3. Para ejecutar acciones con etiquetas seleccionadas, haz clic en Selección de etiquetas y, luego, selecciona las etiquetas.
    4. Opcional: Para ejecutar las acciones o etiquetas seleccionadas y sus dependencias, selecciona la opción Incluir dependencias.
    5. Opcional: Para ejecutar las acciones o etiquetas seleccionadas y sus dependencias, selecciona la opción Incluir dependencias.
    6. Opcional: Para volver a compilar todas las tablas desde cero, selecciona la opción Run with full refresh.

    Sin esta opción, Dataform actualiza las tablas incrementales sin volver a compilarlas desde cero.

  9. Haz clic en Crear.



Por ejemplo, la siguiente configuración de flujo de trabajo ejecuta acciones con la etiqueta hourly cada hora en la zona horaria CEST:

  • ID de configuración: production-hourly
  • Configuración de lanzamiento: -
  • Frecuencia: 0 * * * *
  • Zona horaria: Central European Summer Time (CEST)
  • Selección de acciones de flujo de trabajo de SQL: selección de etiquetas, etiqueta hourly

Edita la configuración de un flujo de trabajo

Para editar la configuración de un flujo de trabajo, sigue estos pasos:

  1. En tu repositorio, ve a Lanzamientos y programación.
  2. En la configuración del flujo de trabajo que deseas editar, haz clic en el menú Más y, luego, en Editar.
  3. En el panel Editar configuración del flujo de trabajo, edita la configuración de la configuración de lanzamiento y, luego, haz clic en Guardar.

Borra la configuración de un flujo de trabajo

Para borrar la configuración de un flujo de trabajo, sigue estos pasos:

  1. En tu repositorio, ve a Lanzamientos y programación.
  2. En la configuración del flujo de trabajo que deseas borrar, haz clic en el menú Más y, luego, en Borrar.
  3. En el diálogo Borrar configuración de lanzamiento, haz clic en Borrar.

¿Qué sigue?