Dataform es un servicio sin servidores para que los analistas de datos desarrollen y implementar tablas, tablas incrementales o vistas en BigQuery. Dataform ofrece un entorno web para el desarrollo de flujos de trabajo de SQL, conexión con GitHub, GitLab, Azure DevOps Services y Bitbucket, la integración y la implementación continuas y la ejecución del flujo de trabajo.
Repositorios
Cada proyecto de Dataform se almacena en un repositorio. Un repositorio de Dataform aloja una colección de archivos de configuración JSON, archivos SQLX y archivos JavaScript.
Los repositorios de Dataform contienen los siguientes tipos de archivos:
Archivos de configuración
Los archivos de configuración JSON o SQLX te permiten configurar tus flujos de trabajo de SQL. Contienen la configuración general, los programas de ejecución o el esquema para creando tablas y vistas nuevas.
Definiciones
Las definiciones son archivos SQLX y JavaScript que definen nuevas tablas, vistas, y operaciones de SQL adicionales para ejecutarlas en BigQuery.
Incluye
Las inclusiones son archivos JavaScript en los que puedes definir variables y funciones para usar en tu proyecto.
Cada repositorio de Dataform está conectado a una cuenta de servicio. Puedes seleccionar una cuenta de servicio cuando crees un repositorio o edita la cuenta de servicio más adelante.
De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu el número de proyecto en el siguiente formato:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Control de versión
Dataform usa el sistema de control de versión Git para mantener un registro de cada cambio realizado en los archivos del proyecto y para administrar las versiones de los archivos.
Cada repositorio de Dataform puede administrar su propio repositorio de Git que está conectada a un repositorio de Git remoto de terceros. Puedes Conecta un repositorio de Dataform a un repositorio de GitHub, GitLab, Azure DevOps Services o Bitbucket.
Los usuarios controlan la versión del código de su flujo de trabajo de SQL en los espacios de trabajo de Dataform. En un lugar de trabajo de Dataform, puedes extraer cambios del repositorio, confirmarlos todos o los seleccionados, y enviarlas a las ramas Git del repositorio.
Desarrollo del flujo de trabajo
En Dataform, puedes realizar cambios en archivos y directorios dentro de un lugar de trabajo de desarrollo. Un espacio de trabajo de desarrollo es una copia virtual y editable de el contenido de un repositorio de Git. Dataform preserva el estado de archivos en tu espacio de trabajo de desarrollo entre sesiones.
En un lugar de trabajo de desarrollo, puedes desarrollar acciones de flujo de trabajo de SQL usando Dataform Core con SQLX y JavaScript, o exclusivamente con JavaScript. Puedes formatear automáticamente tu código principal o JavaScript de Dataform.
Cada elemento de un flujo de trabajo de SQL de Dataform, como una tabla o una aserción corresponde a una acción que Dataform realiza en BigQuery. Por ejemplo, un archivo de definición de tablas es una acción de crear o actualizar el en BigQuery.
En un lugar de trabajo de Dataform, puedes desarrollar los siguientes elementos: Acciones del flujo de trabajo de SQL:
- Declaraciones de datos de origen
- Tablas y vistas
- Tablas incrementales
- Clústeres y particiones de tablas
- Dependencias entre acciones
- Documentación de las tablas
- Operaciones de SQL personalizadas
- Etiquetas de BigQuery
- Etiquetas de política de BigQuery
- Etiquetas de Dataform
- Pruebas de calidad de los datos, llamadas aserciones
Puedes usar JavaScript para reutilizar el código de tu flujo de trabajo de SQL de Dataform. de las siguientes maneras:
- En un archivo con encapsulamiento de código
- En un repositorio con inclusiones
- En todos los repositorios con paquetes
Dataform compila el código del flujo de trabajo de SQL en tu lugar de trabajo en tiempo real. En tu lugar de trabajo, puedes ver las consultas compiladas y los detalles de las acciones. en cada archivo. También puedes ver el estado de compilación y los errores en en el archivo editado o en el repositorio.
Para probar el resultado de una consulta en SQL compilada antes de ejecutarla en BigQuery, puedes ejecutar la vista previa de la consulta en el lugar de trabajo de Dataform.
Para inspeccionar todo el flujo de trabajo de SQL definido en tu lugar de trabajo, puedes hacer lo siguiente: ver un gráfico compilado interactivo que muestra todas las acciones compiladas en tu flujo de trabajo de SQL y las relaciones entre ellas.
Compilación de flujos de trabajo
Dataform usa la configuración de compilación predeterminada, configurados en el archivo de configuración del flujo de trabajo para compilar el flujo de trabajo de SQL código en tu espacio de trabajo a SQL en tiempo real creando un resultado de compilación del espacio de trabajo.
Puedes anular la configuración de compilación para personalizar el modo en que Dataform compila tu flujo de trabajo de SQL en un resultado de compilación.
Con las anulaciones de compilación de lugares de trabajo, puedes configurar anulaciones de compilación para todos los lugares de trabajo en un repositorio. Puedes configurar anulaciones de lugares de trabajo dinámicas para crear resultados de compilación personalizados para cada lugar de trabajo y convertirlos en entornos de desarrollo aislados. Puedes anular el proyecto de Google Cloud en el que se ejecutará Dataform el contenido de un espacio de trabajo, agregar un prefijo a los nombres de todas las tablas compiladas y agregarás un sufijo al esquema predeterminado.
Con las configuraciones de lanzamiento, puedes configurar plantillas de configuración de compilación para crear resultados de la compilación de un repositorio de Dataform. En una versión puedes anular el proyecto de Google Cloud en el que Dataform ejecutará los resultados de la compilación y agregará un prefijo a los nombres de todas las tablas compiladas, agrega un sufijo al esquema predeterminado y agregar variables de compilación. También puedes establecer la frecuencia de creando resultados de compilación. Para programar ejecuciones de resultados de compilaciones crear en una configuración de lanzamiento seleccionada, puedes crear una configuración de flujo de trabajo
Ejecución del flujo de trabajo
Durante la ejecución del flujo de trabajo, Dataform ejecuta resultados de compilación de Flujos de trabajo de SQL para crear o actualizar elementos en BigQuery
Para crear o actualizar las tablas y vistas definidas en tu flujo de trabajo de SQL en BigQuery, puedes iniciar la ejecución de un flujo de trabajo manualmente en un lugar de trabajo de desarrollo o programar ejecuciones.
Puedes programar ejecuciones de Dataform en BigQuery en la de la siguiente manera:
- Crear parámetros de configuración de flujo de trabajo para programar ejecuciones de resultados de compilaciones creados en configuraciones de lanzamiento
- Programa ejecuciones con Cloud Composer
- Programa ejecuciones con Workflows y Cloud Scheduler
Para depurar errores, puedes supervisar las ejecuciones de las siguientes maneras:
- Consulta los registros de ejecución detallados de Dataform
- Consulta los registros de auditoría de Dataform
- Visualiza los registros de Cloud Logging para Dataform
¿Qué sigue?
- Para obtener más información sobre Dataform Core, consulta Descripción general del núcleo de Dataform.
- Para obtener más información sobre los repositorios de Dataform, consulta Introducción a los repositorios.
- Para obtener más información sobre los lugares de trabajo de Dataform, consulta Introducción al desarrollo en un lugar de trabajo.
- Para obtener más información sobre el desarrollo de flujos de trabajo de SQL en Dataform, consulta Introducción a los flujos de trabajo de SQL.
- Para obtener más información sobre el uso de JavaScript en Dataform, consulta Introducción a JavaScript en Dataform.
- Para obtener más información sobre el ciclo de vida del código en Dataform, consulta Introducción al ciclo de vida del código en Dataform.