Este documento te ayuda a comprender el concepto de repositorios en Dataform y cómo crear uno nuevo.
Acerca de los repositorios de Dataform
Cada repositorio de Dataform contiene una colección de archivos SQLX y JavaScript que conforman tu flujo de trabajo, así como archivos y paquetes de configuración de Dataform. Interactúas con el contenido de tu repositorio en un lugar de trabajo de desarrollo.
Dataform muestra tus repositorios en la página de Dataform en el orden alfabético de los IDs de repositorio. Puedes ordenarlas y filtrarlas.
Para ver tus repositorios, ve a la página Dataform en la consola de Google Cloud.
Cada repositorio de Dataform está conectado a una cuenta de servicio. Puedes seleccionar una cuenta de servicio cuando creas un repositorio o editar la cuenta de servicio más adelante.
De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu número de proyecto en el siguiente formato:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform usa Git para registrar cambios y administrar versiones de archivos. Cada repositorio de Dataform corresponde a un repositorio de Git. Después de crear un repositorio de Dataform, puedes conectarlo a un repositorio remoto de GitHub, GitLab o Bitbucket.
En un repositorio de Dataform, Dataform almacena el código del repositorio. En un repositorio conectado, el repositorio de terceros almacena el código del repositorio. Dataform interactúa con el repositorio de terceros para permitirte editar y ejecutar su contenido en un lugar de trabajo de desarrollo de Dataform.
Una página del repositorio de Dataform consta de los siguientes componentes:
- Pestaña Espacios de trabajo de desarrollo
- Muestra los espacios de trabajo de desarrollo creados en el repositorio.
- Pestaña Parámetros de configuración del lanzamiento
- Te permite inspeccionar, crear, editar y borrar versiones.
- Pestaña de registros de ejecución del flujo de trabajo
- Muestra los registros de ejecución del flujo de trabajo de Dataform.
- Pestaña Parámetros de configuración del flujo de trabajo
- Te permite inspeccionar, crear, editar y borrar parámetros de configuración de flujos de trabajo.
- Pestaña Configuración
- Muestra el nombre y la ubicación del repositorio. En el caso de un repositorio conectado a un repositorio de Git de terceros, se muestra la fuente del repositorio de terceros, el nombre de la rama predeterminada y el token secreto. Muestra los botones para conectar el repositorio a un repositorio de Git de terceros y para editar la conexión de Git.
- Botón Crear lugar de trabajo de desarrollo
- Te permite crear un lugar de trabajo de desarrollo.
Después de crear e inicializar un espacio de trabajo de desarrollo, puedes editar el archivo de configuración de flujo de trabajo para configurar los siguientes parámetros de configuración de Dataform de tu repositorio:
- La base de datos predeterminada (ID del proyectoGoogle Cloud ).
- El esquema predeterminado (ID del conjunto de datos de BigQuery).
- La ubicación predeterminada de BigQuery.
- Es el esquema predeterminado (ID del conjunto de datos de BigQuery) para las aserciones.
- El almacén, que se debe establecer en
bigquery
- Son variables definidas por el usuario que se ponen a disposición del código del proyecto durante la compilación.
Para obtener más información sobre la configuración del repositorio de Dataform, consulta IProjectConfig en la referencia principal de Dataform.
Configuración del repositorio
Cuando creas un repositorio de Dataform, debes establecer la siguiente configuración:
- ID del repositorio
- Un ID único del repositorio. Los IDs solo pueden incluir números, letras, guiones y guiones bajos.
- Región
Región de Dataform para almacenar el repositorio y su contenido.
Esta región de almacenamiento puede ser diferente de la región de procesamiento en la que Dataform procesa tu código y almacena el resultado de las ejecuciones. De forma predeterminada, la región de procesamiento se establece en la región predeterminada del conjunto de datos de BigQuery. Puedes editar la región de procesamiento en el archivo de configuración del flujo de trabajo después de crear el repositorio. Para obtener más información, consulta Configura la configuración de Dataform.
- Cuenta de servicio
Cuenta de servicio asociada con el repositorio. Puedes seleccionar la cuenta de servicio predeterminada de Dataform, una cuenta de servicio asociada con tu proyecto de Google Cloud o ingresar manualmente una cuenta de servicio diferente. De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu número de proyecto en el siguiente formato:
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform usa la cuenta de servicio predeterminada para todas las operaciones del repositorio. Puedes usar una cuenta de servicio diferente para ejecutar flujos de trabajo en tu repositorio, pero la cuenta de servicio predeterminada se seguirá usando para todas las demás operaciones del repositorio.
- Encriptación
Es el método de encriptación del repositorio. Puedes usar la encriptación predeterminada, una clave de encriptación única de Cloud KMS administrada por el cliente o una clave de CMEK predeterminada de Dataform. Para obtener más información sobre el uso de claves de encriptación administradas por el cliente (CMEK) en Dataform, consulta Usa claves de encriptación administradas por el cliente.
Después de crear un repositorio, puedes conectarlo a GitHub o GitLab.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
- Para usar la encriptación de CMEK para el repositorio, habilita la encriptación de CMEK de los repositorios de Dataform.
Roles obligatorios
Para obtener los permisos que necesitas para crear y borrar un repositorio,
pídele a tu administrador que te otorgue el rol de IAM de
Administrador de Dataform (roles/dataform.admin
) en los repositorios.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Para usar una cuenta de servicio distinta de la cuenta de servicio predeterminada de Dataform, otorga acceso a la cuenta de servicio personalizada.
Después de crear un repositorio de Dataform, Dataform te otorga automáticamente el rol de administrador de Dataform en ese repositorio.
Crea un repositorio
Para crear un repositorio de Dataform, sigue estos pasos:
En la consola de Google Cloud, ve a la página Dataform.
Haz clic en Crear repositorio.
En el campo ID del repositorio de la página Crear repositorio, ingresa un ID único.
Los IDs solo pueden incluir números, letras, guiones y guiones bajos.
En la lista desplegable Región, selecciona una región de Dataform para almacenar el repositorio y su contenido. Selecciona la región de Dataform más cercana a tu ubicación.
Para obtener una lista de las regiones de Dataform disponibles, consulta Ubicaciones. La región del repositorio no tiene que coincidir con la ubicación de tus conjuntos de datos de BigQuery.
En el archivo
workflow_settings.yaml
, puedes establecer la región de procesamiento en la que Dataform procesa tu código y almacena el resultado de las ejecuciones. La región de procesamiento debe coincidir con la ubicación de tus conjuntos de datos de BigQuery, pero no es necesario que coincida con la región del repositorio. Para obtener más información, consulta Configura la configuración de Dataform.En el menú desplegable Service account, selecciona una cuenta de servicio para el repositorio.
En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con tu proyecto de Google Cloud al que tengas acceso. Ten en cuenta que las cuentas de servicio personalizadas solo se usan para la ejecución de flujos de trabajo. La cuenta de servicio predeterminada de Dataform sigue realizando todas las demás operaciones del repositorio.
- Opcional: Para seleccionar una cuenta de servicio que no se muestra en el menú desplegable, haz clic en Ingresar manualmente y, luego, ingresa el ID de la cuenta de servicio.
Configura el mecanismo de encriptación seleccionado para el repositorio:
.Clave CMEK predeterminada
Dataform muestra la casilla de verificación Usar la clave de KMS predeterminada y la selecciona de forma predeterminada.
- Para encriptar el repositorio con la clave de CMEK predeterminada de Dataform, deja seleccionada la casilla de verificación Usar la clave de KMS predeterminada.
Clave CMEK única
Para encriptar el repositorio con una clave CMEK única, haz lo siguiente:
- Si la casilla de verificación Usar la clave de KMS predeterminada está seleccionada de forma predeterminada, desmarca la casilla de verificación.
- En la sección Encriptación, selecciona la opción Claves de encriptación administradas por el cliente (CMEK).
- En el menú desplegable Seleccionar una clave administrada por el cliente, selecciona una clave CMEK única.
Encriptación en reposo
- Para usar la encriptación predeterminada, en la sección Encriptación, selecciona la opción Google-managed encryption key.
Haz clic en Crear y, luego, en Listo.
Edita la cuenta de servicio
Puedes asociar una cuenta de servicio personalizada con un repositorio de Dataform para la ejecución de flujos de trabajo. La cuenta de servicio predeterminada de Dataform sigue realizando todas las demás operaciones del repositorio.
Para editar la cuenta de servicio de un repositorio de Dataform, sigue estos pasos:
En la consola de Google Cloud, ve a la página Dataform.
Selecciona un repositorio y, luego, haz clic en Configuración.
En el campo Cuenta de servicio, haz clic en
Editar cuenta de servicio.En el menú desplegable Service account, selecciona una cuenta de servicio para el repositorio.
En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con tu proyecto de Google Cloud al que tengas acceso.
- Opcional: Para seleccionar una cuenta de servicio que no se muestra en el menú desplegable, haz clic en Ingresar manualmente y, luego, ingresa el ID de la cuenta de servicio.
Haz clic en Guardar.
Borra un repositorio
Para borrar un repositorio y todo su contenido, sigue estos pasos:
En la consola de Google Cloud, ve a la página Dataform.
En el repositorio que quieres borrar, haz clic en el menú
Más y, luego, selecciona Borrar.En la ventana Borrar repositorio, ingresa el nombre del repositorio para confirmar su eliminación.
Haz clic en Borrar.
¿Qué sigue?
- Para obtener más información sobre cómo conectar un repositorio de Dataform a un repositorio de GitHub de terceros, consulta Cómo conectarse a un repositorio de GitHub de terceros.
- Para obtener más información sobre cómo el tamaño del repositorio afecta el desarrollo en Dataform, consulta Descripción general del tamaño del repositorio.
- Para obtener más información sobre cómo dividir un repositorio en Dataform, consulta Introducción a la división de repositorios.
- Para aprender a configurar la configuración de procesamiento de Dataform, consulta Configura la configuración de Dataform.
- Si quieres obtener más información para crear e inicializar un lugar de trabajo, consulta Crea un lugar de trabajo.