Este documento te ayuda a comprender la arquitectura y la ejecución de los flujos de trabajo de SQL en Dataform.
Puedes usar Dataform a fin de desarrollar, probar y control de versión de flujos de trabajo de SQL que puedes ejecutar en BigQuery para transformar datos con fines estadísticos. Puedes desarrollar flujos de trabajo de SQL con Dataform core, mediante archivos SQLX y, de forma opcional, archivos JavaScript o con JavaScript.
Un flujo de trabajo de SQL puede constar de los siguientes objetos:
- Declaraciones de fuentes de datos
- Declaraciones de fuentes de datos de BigQuery que te permiten hacer referencia a estas fuentes de datos en definiciones de tablas de Dataform y operaciones de SQL.
- Tablas
- Tablas que creas en Dataform basadas en las fuentes de datos declaradas o en otras tablas en el flujo de trabajo de SQL. Dataform admite los siguientes tipos de tablas: tabla, tabla incremental, vista y vista materializada.
- Aserciones
- Consultas de prueba de calidad de los datos que puedes usar para validar datos de tablas. Dataform ejecuta aserciones cada vez que actualiza tu flujo de trabajo de SQL y te alerta si falla alguna aserción.
- Operaciones de SQL personalizadas
- Instrucciones de SQL que Dataform ejecuta en BigQuery tal como están, sin modificaciones
- Incluye
- Archivos JavaScript con definiciones de variables y funciones que puedes volver a usar en todo tu flujo de trabajo de SQL.
Visualización de un flujo de trabajo de SQL
Puedes visualizar tu flujo de trabajo de SQL visualizado en forma de un grafo acíclico dirigido (DAG). El DAG muestra todos los objetos del flujo de trabajo de SQL definido en tu lugar de trabajo, así como las relaciones entre ellos. Puedes acercar y alejar la imagen, y usar la función de arrastrar y soltar para navegar por el DAG. Si hay errores de compilación en tu flujo de trabajo de SQL, Dataform muestra un mensaje de error en lugar del DAG.
Para ver el DAG de tu flujo de trabajo de SQL, en tu lugar de trabajo, haz clic en Gráfico compilado.
Ejecución de un flujo de trabajo en SQL
En tu lugar de trabajo de desarrollo, puedes activar manualmente la ejecución de todo el flujo de trabajo de SQL, una selección de acciones o una selección de etiquetas.
Puedes programar ejecuciones con los parámetros de configuración de lanzamiento y los parámetros de configuración del flujo de trabajo de Dataform. Primero, crea una configuración de lanzamiento para generar resultados de compilación de tu repositorio. Luego, crea una configuración de flujo de trabajo, selecciona una configuración de lanzamiento, selecciona las acciones del flujo de trabajo de SQL que deseas ejecutar y establece el programa de ejecución.
Como alternativa, puedes programar ejecuciones con Cloud Composer o con Flujos de trabajo y Cloud Scheduler.
Durante la ejecución, Dataform ejecuta consultas en SQL en BigQuery, de acuerdo con el orden de las dependencias de objetos en el flujo de trabajo de SQL. Después de la ejecución, puedes usar las tablas y vistas definidas para todos tus propósitos de análisis en BigQuery.
Opciones de configuración de la ejecución
Para ejecutar un grupo específico de objetos del flujo de trabajo de SQL, puedes agregar etiquetas de ejecución de Dataform a los archivos que selecciones. Luego, puedes ejecutar solo los archivos con una etiqueta seleccionada cuando actives la ejecución de forma manual.
De forma predeterminada, Dataform ejecuta el flujo de trabajo de SQL con la configuración de ejecución definida en el archivo dataform.json
.
Puedes anular esta configuración de ejecución con anulaciones de compilación.
Con las anulaciones de compilación de lugares de trabajo, puedes convertirlos en entornos de ejecución aislados. Esto significa que cuando activas la ejecución de forma manual en un lugar de trabajo, Dataform ejecuta el resultado en una ubicación aislada en BigQuery.
Para crear y ejecutar un solo resultado de compilación con anulaciones de compilación, puedes pasar solicitudes con la API de Dataform.
Con las configuraciones de lanzamiento, puedes configurar anulaciones de compilación para todo el repositorio, además de la frecuencia con la que se crean resultados de compilación con la configuración aplicada.
Para obtener más información sobre las formas de configurar el ciclo de vida de compilación y del código en Dataform, consulta Introducción al ciclo de vida del código en Dataform.
¿Qué sigue?
- Si deseas aprender a declarar una fuente de datos, consulta Cómo declarar una fuente de datos.
- Si quieres aprender a declarar dependencias para definir relaciones entre objetos en tu flujo de trabajo de SQL, consulta Cómo declarar dependencias.
- Para aprender a definir operaciones personalizadas de SQL, consulta Agrega operaciones de SQL personalizadas.
- Para aprender a volver a usar el código en el flujo de trabajo de SQL con inclusiones, consulta Reutiliza variables y funciones con inclusiones.