Información general sobre los flujos de trabajo

Este documento te ayuda a comprender la arquitectura y la ejecución de los flujos de trabajo en Dataform.

Puedes usar Dataform para desarrollar, probar y controlar las versiones de los flujos de trabajo que puedes ejecutar en BigQuery para transformar datos con fines analíticos. Puedes desarrollar flujos de trabajo con Dataform Core, usando archivos SQLX y, opcionalmente, archivos JavaScript, o con JavaScript.

Un flujo de trabajo puede constar de los siguientes objetos:

Declaraciones de fuentes de datos
Declaraciones de fuentes de datos de BigQuery que te permiten hacer referencia a estas fuentes de datos en definiciones de tablas de Dataform y operaciones de SQL.
Tablas
Tablas que creas en Dataform a partir de las fuentes de datos declaradas u otras tablas de tu flujo de trabajo. Dataform admite los siguientes tipos de tablas: tabla, tabla incremental, vista y vista materializada.
Aserciones
Consultas de prueba de calidad de los datos que puedes usar para validar los datos de las tablas. Dataform ejecuta aserciones cada vez que actualiza tu flujo de trabajo y te avisa si falla alguna.
Operaciones de SQL personalizadas
Instrucciones SQL que Dataform ejecuta en BigQuery tal cual, sin modificaciones.
Incluye
Archivos JavaScript con definiciones de variables y funciones que puedes reutilizar en tu flujo de trabajo.

Visualización de un flujo de trabajo

Puedes ver tu flujo de trabajo visualizado en forma de grafo acíclico dirigido (DAG). El DAG muestra todos los objetos del flujo de trabajo definidos en tu espacio de trabajo y las relaciones entre ellos. Puedes ampliar y reducir la vista, así como usar la navegación mediante arrastrar y soltar en el DAG. Si hay errores de compilación en tu flujo de trabajo, Dataform muestra un mensaje de error en lugar del DAG.

Para ver el DAG de tu flujo de trabajo, en tu espacio de trabajo, haz clic en Gráfico compilado.

Ejecución de un flujo de trabajo

En tu espacio de trabajo de desarrollo, puedes activar manualmente una ejecución de todo tu flujo de trabajo, de una selección de acciones o de una selección de etiquetas.

Puedes programar ejecuciones con configuraciones de versiones y configuraciones de flujos de trabajo de Dataform. Primero, crea una configuración de lanzamiento para generar resultados de compilación de tu repositorio. A continuación, cree una configuración de flujo de trabajo, seleccione una configuración de lanzamiento, seleccione las acciones de flujo de trabajo que quiera ejecutar y defina la programación de ejecución.

También puedes programar ejecuciones con Cloud Composer o con Workflows y Cloud Scheduler.

Durante la ejecución, Dataform ejecuta consultas de SQL en BigQuery, siguiendo el orden de las dependencias de los objetos de tu flujo de trabajo. Una vez ejecutado, puedes usar las tablas y vistas que hayas definido para todos tus análisis en BigQuery.

Opciones de configuración de la ejecución

Para ejecutar un grupo específico de acciones de su flujo de trabajo, puede añadir etiquetas de ejecución de Dataform a los archivos que seleccione. Después, puedes ejecutar solo los archivos con una etiqueta seleccionada cuando activas manualmente una ejecución.

De forma predeterminada, Dataform ejecuta el flujo de trabajo con los ajustes de ejecución definidos en el archivo dataform.json. Puedes anular estos ajustes de ejecución con anulaciones de compilación.

Con las sustituciones de compilación de espacios de trabajo, puedes convertir los espacios de trabajo en entornos de ejecución aislados. Esto significa que, cuando activas manualmente la ejecución en un espacio de trabajo, Dataform ejecuta la salida en una ubicación aislada de BigQuery.

Para crear y ejecutar un único resultado de compilación con anulaciones de compilación, puede enviar solicitudes con la API Dataform.

Con las configuraciones de lanzamiento, puedes configurar anulaciones de compilación para todo tu repositorio, así como la frecuencia con la que se crean resultados de compilación con los ajustes aplicados.

Para obtener más información sobre las formas de configurar la compilación y el ciclo de vida del código en Dataform, consulta el artículo Introducción al ciclo de vida del código en Dataform.

Siguientes pasos