Este documento te ayuda a comprender el concepto de repositorios en Dataform.
Cada repositorio de Dataform aloja una colección de archivos SQLX y JavaScript que conforman el flujo de trabajo de SQL, así como los archivos y paquetes de configuración de Dataform. Interactúas con el contenido de tu repositorio en un lugar de trabajo de desarrollo.
Dataform muestra tus repositorios en la página de Dataform en el orden alfabético de los ID de repositorio. Puedes ordenarlos y filtrarlos.
Cada repositorio de Dataform está conectado a una cuenta de servicio. Puedes seleccionar una cuenta de servicio cuando crees un repositorio o edites la cuenta de servicio más adelante.
De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu número de proyecto en el siguiente formato:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform usa Git para registrar cambios y administrar las versiones de los archivos. Cada repositorio de Dataform corresponde a un repositorio de Git. Después de crear un repositorio de Dataform, puedes conectarlo a un repositorio remoto de GitHub, GitLab o Bitbucket.
En un repositorio de Dataform, Dataform almacena el código del repositorio. En un repositorio conectado, el repositorio de terceros almacena el código del repositorio. Dataform interactúa con el repositorio de terceros para que puedas editar y ejecutar su contenido en un lugar de trabajo de desarrollo de Dataform.
Una página de repositorio de Dataform consta de los siguientes componentes:
- Pestaña de lugares de trabajo de desarrollo
- Muestra los lugares de trabajo de desarrollo creados en el repositorio.
- Pestaña Configuración de la versión
- Te permite inspeccionar, crear, editar y borrar versiones.
- Pestaña Registros de ejecución del flujo de trabajo
- Muestra los registros de ejecución del flujo de trabajo de Dataform.
- Pestaña Configuración del flujo de trabajo
- Te permite inspeccionar, crear, editar y borrar configuraciones de flujo de trabajo.
- Pestaña Configuración
- Muestra el nombre y la ubicación del repositorio. Para un repositorio conectado a un repositorio de Git de terceros, muestra la fuente del repositorio de terceros, el nombre predeterminado de la rama y el token secreto. Muestra los botones para conectar el repositorio a un repositorio de Git de terceros y editar la conexión de Git.
- Botón Crear lugar de trabajo de desarrollo
- Te permite crear un lugar de trabajo de desarrollo.
Después de crear y, luego, inicializar un lugar de trabajo de desarrollo, puedes editar el archivo dataform.json
para establecer la siguiente configuración de Dataform del repositorio:
- La base de datos predeterminada (ID del proyecto de Google Cloud)
- El esquema predeterminado (ID del conjunto de datos de BigQuery)
- La ubicación predeterminada de BigQuery
- El esquema predeterminado (ID del conjunto de datos de BigQuery) para las aserciones
- El almacén, que se debe configurar como
bigquery
- Variables definidas por el usuario que están disponibles para el código del proyecto durante la compilación.
Si quieres obtener más información sobre la configuración del repositorio de Dataform, consulta IProjectConfig en la referencia principal de Dataform.
¿Qué sigue?
- Para obtener información sobre cómo crear y, luego, inicializar un lugar de trabajo, consulta Crea un lugar de trabajo.
- Para obtener información sobre cómo configurar el repositorio de Dataform, consulta Establece la configuración de Dataform.
- Para aprender a conectar un repositorio de Dataform a un repositorio de Git de terceros, consulta Conéctate a un repositorio de Git de terceros.
- Para aprender a ver los registros de ejecución del flujo de trabajo, consulta Supervisa los registros de ejecución.
- Si quieres aprender a crear versiones de compilación de Dataform, consulta Cómo crear una versión de compilación.
- Para obtener más información sobre cómo el tamaño del repositorio afecta el desarrollo en Dataform, consulta la Descripción general del tamaño del repositorio.
- Para aprender a programar ejecuciones de Dataform con parámetros de configuración del flujo de trabajo, consulta Programa ejecuciones con configuraciones de flujo de trabajo.
- Para obtener más información sobre la división de un repositorio en Dataform, consulta Introducción a la división de repositorios.