Introducción a los flujos de trabajo de SQL

En este documento, encontrarás ayuda para comprender la arquitectura y la ejecución de los flujos de trabajo de SQL en Dataform.

Puedes usar Dataform para desarrollar, probar y controlar versiones de flujos de trabajo de SQL que puedes ejecutar en BigQuery para transformar datos con fines de análisis. Puedes desarrollar flujos de trabajo de SQL con Dataform core, con archivos SQLX y, de manera opcional, archivos JavaScript, o con JavaScript.

Un flujo de trabajo de SQL puede constar de los siguientes objetos:

Declaraciones de fuentes de datos
Declaraciones de fuentes de datos de BigQuery que te permiten hacer referencia a estas fuentes de datos en las definiciones de tablas de Dataform y las operaciones de SQL.
Tablas
Son las tablas que creas en Dataform en función de las fuentes de datos declaradas o de otras tablas de tu flujo de trabajo de SQL. Dataform admite los siguientes tipos de tablas: tabla, tabla incremental, vista y vista materializada.
Afirmaciones
Consultas de prueba de calidad de los datos que puedes usar para validar los datos de la tabla. Dataform ejecuta aserciones cada vez que actualiza tu flujo de trabajo de SQL y te alerta si alguna falla.
Operaciones de SQL personalizadas
Son instrucciones SQL que Dataform ejecuta en BigQuery tal como están, sin modificaciones.
Incluye
Archivos JavaScript con definiciones de variables y funciones que puedes volver a usar en tu flujo de trabajo de SQL.

Visualización de un flujo de trabajo de SQL

Puedes ver tu flujo de trabajo de SQL visualizado en forma de un grafo acíclico dirigido (DAG). El DAG muestra todos los objetos del flujo de trabajo de SQL definidos en tu espacio de trabajo y las relaciones entre ellos. Puedes acercar y alejar la imagen, y usar arrastrar y soltar para navegar por el DAG. Si hay errores de compilación en tu flujo de trabajo de SQL, Dataform mostrará un mensaje de error en lugar del DAG.

Para ver el DAG de tu flujo de trabajo de SQL, en tu lugar de trabajo, haz clic en Gráfico compilado.

Ejecución de un flujo de trabajo de SQL

En tu lugar de trabajo de desarrollo, puedes activar manualmente la ejecución de todo tu flujo de trabajo de SQL, una selección de acciones o una selección de etiquetas.

Puedes programar ejecuciones con parámetros de configuración de lanzamiento y parámetros de configuración de flujo de trabajo de Dataform. Primero, crea una configuración de lanzamiento para crear resultados de compilación de tu repositorio. Luego, crea una configuración de flujo de trabajo, selecciona una configuración de lanzamiento, selecciona las acciones de flujo de trabajo de SQL que deseas ejecutar y establece el programa de ejecución.

Como alternativa, puedes programar ejecuciones con Cloud Composer o con Workflows y Cloud Scheduler.

Durante la ejecución, Dataform ejecuta consultas de SQL en BigQuery, siguiendo el orden de dependencias de objetos en tu flujo de trabajo de SQL. Después de la ejecución, puedes usar las tablas y vistas definidas para todos tus fines de análisis en BigQuery.

Opciones de configuración de la ejecución

Para ejecutar un grupo específico de tus objetos de flujo de trabajo de SQL, puedes agregar etiquetas de ejecución de Dataform a los archivos que selecciones. Luego, puedes ejecutar solo los archivos con una etiqueta seleccionada cuando actives la ejecución de forma manual.

De forma predeterminada, Dataform ejecuta tu flujo de trabajo de SQL con la configuración de ejecución definida en el archivo dataform.json. Puedes anular esta configuración de ejecución con anulaciones de compilación.

Con las anulaciones de compilación de lugares de trabajo, puedes convertir los lugares de trabajo en entornos de ejecución aislados. Esto significa que, cuando activas de forma manual la ejecución en un lugar de trabajo, Dataform ejecuta el resultado en una ubicación aislada en BigQuery.

Para crear y ejecutar un solo resultado de compilación con anulaciones de compilación, puedes pasar solicitudes con la API de Dataform.

Con las configuraciones de lanzamiento, puedes configurar anulaciones de compilación para todo el repositorio, así como la frecuencia con la que se crean los resultados de compilación con la configuración aplicada.

Para obtener más información sobre las formas de configurar la compilación y el ciclo de vida del código en Dataform, consulta Introducción al ciclo de vida del código en Dataform.

¿Qué sigue?