Introducción al ciclo de vida del código en Dataform

En este documento, se describe el ciclo de vida del código en Dataform y las formas de configurar la compilación y la ejecución en Dataform.

Acerca del ciclo de vida del código en Dataform

El ciclo de vida del código de Dataform consta de las siguientes fases:

Desarrollo
Desarrollas un flujo de trabajo de SQL en un lugar de trabajo de Dataform.
Compilación

Dataform compila el código del flujo de trabajo de SQL en tu lugar de trabajo en SQL en tiempo real y crea un resultado de compilación del lugar de trabajo que puedes ejecutar en BigQuery. Dataform usa la configuración que definiste en el archivo dataform.json para crear el resultado de la compilación.

Dataform compila tu código en un entorno de zona de pruebas de V8 sin acceso a Internet. Por lo tanto, las acciones adicionales, como la llamada a API externas, no están disponibles durante la compilación.

Ejecución

En una invocación de flujo de trabajo, Dataform ejecuta el resultado de compilación del lugar de trabajo en BigQuery.

A fin de adaptar el ciclo de vida del código de Dataform a tus necesidades, puedes configurar el resultado de la compilación para influir en el lugar y la forma en que Dataform ejecuta tu flujo de trabajo de SQL. Luego, puedes activar o programar ejecuciones de forma manual para influir en el momento en el que Dataform ejecute todo el flujo de trabajo de SQL o sus elementos seleccionados.

Formas de configurar la compilación de Dataform

De forma predeterminada, Dataform usa la configuración del archivo dataform.json para crear resultados de compilación. Puedes anular la configuración predeterminada con las anulaciones de compilación para crear resultados de compilación personalizados. Luego,puedes activar de forma manual la ejecución de un resultado de compilación personalizado
o programar ejecuciones.

Dataform proporciona las siguientes opciones para configurar los resultados de la compilación:

Anulaciones de compilación de Workspace
Puedes configurar anulaciones de compilación que se apliquen a todos los lugares de trabajo en un repositorio. Puedes usar anulaciones de compilación del lugar de trabajo para crear entornos de desarrollo aislados.
Opciones de configuración de la versión
Puedes crear configuraciones de versiones a fin de configurar plantillas para crear resultados de compilación de un repositorio de Dataform. Luego, puedes crear una configuración de flujo de trabajo para programar ejecuciones de los resultados de compilación creados en una configuración de lanzamiento seleccionada.
Anulaciones de compilación de la API de Dataform
Puedes pasar solicitudes a la API de Dataform en la terminal para crear y ejecutar un solo resultado de compilación con anulaciones de compilación.

Configura anulaciones de compilación de lugares de trabajo

Con las anulaciones de compilación del lugar de trabajo, puedes crear anulaciones de compilación para todos los lugares de trabajo en un repositorio de Dataform. Puedes crear una configuración de anulaciones de compilación de lugar de trabajo por repositorio.

Cuando activas de forma manual la ejecución en un lugar de trabajo en un repositorio con anulaciones de compilación del lugar de trabajo, Dataform aplica estas anulaciones al resultado de la compilación del lugar de trabajo.

Puedes configurar las siguientes anulaciones de compilación del lugar de trabajo:

  • Proyecto de Google Cloud en el que Dataform ejecuta el contenido del lugar de trabajo
  • Prefijo de la tabla
  • Sufijo de esquema

Puedes usar anulaciones de compilación del lugar de trabajo para crear entornos de desarrollo aislados mediante el aislamiento de los resultados de compilación del lugar de trabajo en BigQuery con anulaciones de compilación dinámicas. Las anulaciones de compilación del sufijo de la tabla dinámica y del prefijo de la tabla contienen la variable ${workspaceName}. Cuando activas la ejecución en un lugar de trabajo, Dataform reemplaza la variable ${workspaceName} con el nombre del lugar de trabajo actual, lo que crea anulaciones de compilación únicas para el lugar de trabajo.

Ten en cuenta que no puedes programar ejecuciones de resultados de compilación creados con anulaciones de compilación del lugar de trabajo.

Crear configuraciones de lanzamiento

Con la configuración de lanzamiento, puedes establecer plantillas de configuración para crear resultados de compilación de repositorios.

En una configuración de lanzamiento, puedes modificar anulaciones de configuración de dataform.json, variables de compilación y la frecuencia de creación de resultados de compilación de todo el repositorio.

En una configuración de lanzamiento, puedes establecer las siguientes anulaciones de compilación:

Puedes crear varias configuraciones de lanzamiento en un repositorio de Dataform, una para cada etapa de tu ciclo de vida de desarrollo, y crear resultados de compilación de repositorio aislados.

Luego, puedes crear configuraciones de flujo de trabajo para programar ejecuciones de los resultados de compilación creados en una configuración de versión seleccionada.

También puedes activar manualmente la ejecución de un resultado de compilación en una configuración de lanzamiento elegida.

Cómo configurar un solo resultado de compilación con anulaciones de compilación de la API de Dataform

Si pasas las solicitudes a la API de Dataform en la terminal, puedes configurar anulaciones de compilación para un solo resultado de compilación.

En la solicitud compilationResults.create, puedes crear un solo resultado de compilación de un lugar de trabajo de Dataform o una de Git específica.

En el objeto CodeCompilationConfig de la solicitud compilationResults.create, puedes configurar anulaciones de compilación para la solicitud de compilación.

Puedes configurar las siguientes anulaciones de compilación de la API de Dataform:

Ten en cuenta que las anulaciones de compilación de la API de Dataform se aplican a un solo resultado de compilación y a una sola ejecución. No puedes usarlos para programar ejecuciones de Dataform.

Puedes ejecutar un resultado de compilación en la solicitud workflowInvocations.create.

Formas de configurar la ejecución de Dataform

Dataform proporciona las siguientes opciones para configurar la ejecución:

Ejecución manual en un lugar de trabajo
Puedes activar de forma manual la ejecución instantánea de un flujo de trabajo de SQL en un lugar de trabajo de Dataform, fuera de cualquier programa. Puedes ejecutar acciones seleccionadas en el flujo de trabajo de SQL.
Configuración del flujo de trabajo
Puedes programar ejecuciones de resultados de compilación creados en una configuración de lanzamiento seleccionada. Puedes seleccionar acciones del flujo de trabajo de SQL para ejecutar y configurar la frecuencia y la zona horaria de las ejecuciones.

Activa la ejecución instantánea en un lugar de trabajo

En un lugar de trabajo de Dataform, puedes ejecutar de forma manual el flujo de trabajo de SQL de forma manual en tu lugar de trabajo, fuera de cualquier programa.

Puedes ejecutar manualmente los siguientes elementos del flujo de trabajo de SQL en tu lugar de trabajo:

Si tu repositorio contiene anulaciones de compilación de lugar de trabajo, puedes ver las anulaciones de compilación que aplicará Dataform al resultado de la compilación del lugar de trabajo.

Crear configuraciones de flujos de trabajo

Con las configuraciones de flujo de trabajo, puedes programar ejecuciones de resultados de compilación desde una configuración de lanzamiento seleccionada. Puedes crear múltiples configuraciones de flujo de trabajo en un repositorio de Dataform.

En una configuración de flujo de trabajo, puedes establecer la siguiente configuración de ejecución:

  • Se aplicó la configuración de lanzamiento de la compilación
  • Selección de las acciones del flujo de trabajo de SQL que se ejecutarán
  • Programa y zona horaria de las ejecuciones

Puedes seleccionar las siguientes acciones del flujo de trabajo de SQL que se ejecutarán:

  • Todas las acciones
  • Acciones seleccionadas
  • Acciones con etiquetas seleccionadas

Luego, durante una ejecución programada de la configuración de tu flujo de trabajo, Dataform implementa tu selección de acciones del resultado de la compilación aplicada a BigQuery.

Las configuraciones de lanzamiento y de flujo de trabajo de Dataform te permiten configurar la compilación y programar ejecuciones dentro de Dataform, sin necesidad de depender de servicios adicionales.

Vencimiento de los recursos del ciclo de vida

Dataform almacena los resultados de la compilación y las invocaciones del flujo de trabajo durante un período específico.

Vencimiento de las invocaciones del flujo de trabajo

Las invocaciones de flujo de trabajo vencen después de 90 días o cuando las borras de forma manual.

En una configuración de flujo de trabajo, puedes ver una lista de las invocaciones de flujo de trabajo más recientes que creó la configuración. Cuando una invocación de flujo de trabajo creada por una configuración de flujo de trabajo vence, Dataform quita esa invocación de flujo de trabajo de la lista de invocaciones recientes.

Vencimiento de los resultados de la compilación

El vencimiento de los resultados de compilación depende de la forma en que se crean: en un lugar de trabajo de desarrollo, en una configuración de lanzamiento o en una invocación de flujo de trabajo.

Cuando desarrollas un flujo de trabajo de SQL en un lugar de trabajo de Dataform, este compila tu código en un resultado de compilación en tiempo real para proporcionar una validación de consulta. Los resultados de compilación creados de esta manera vencen después de 24 horas.

En una configuración de lanzamiento, el resultado de compilación más reciente se convierte en el resultado de compilación en vivo. Un nuevo resultado de compilación reemplaza el resultado de compilación en vivo actual. Dataform retiene el resultado de la compilación en vivo hasta que se reemplace por un nuevo resultado de compilación. Un resultado de compilación reemplazado vence en hasta 24 horas.

Dataform quita los resultados de compilación vencidos de la lista de resultados de compilación anteriores en la página Detalles de una configuración de lanzamiento.

Dataform retiene los resultados de la compilación creados por invocaciones del flujo de trabajo durante toda su vida útil, hasta 24 horas después de que la invocación del flujo de trabajo se borra o se borra.

¿Qué sigue?