Crea un repositorio de Dataform

En este documento, se muestra cómo crear un repositorio, configurar y editar la cuenta de servicio del repositorio, y borrar un repositorio en Dataform.

Cuando creas un repositorio de Dataform, debes establecer la siguiente configuración del repositorio:

ID del repositorio
Es un ID único del repositorio. Los ID solo pueden incluir números, letras, guiones y guiones bajos.
Región

Región de Dataform para almacenar el repositorio y su contenido.

Esta región de almacenamiento puede ser diferente de la región de procesamiento en la que Dataform procesa tu código y almacena el resultado de las ejecuciones. De forma predeterminada, la región de procesamiento se establece en la región predeterminada del conjunto de datos de BigQuery. Puedes editar la región de procesamiento en el archivo dataform.json después de crear el repositorio. Para obtener más información, consulta Cómo definir la configuración de Dataform.

Cuenta de servicio

Cuenta de servicio asociada con el repositorio. Cuenta de servicio asociada con el repositorio Puedes seleccionar la cuenta de servicio predeterminada de Dataform o una cuenta de servicio asociada con tu proyecto de Google Cloud, o bien ingresar otra cuenta de servicio de forma manual. De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu número de proyecto con el siguiente formato:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform usa la cuenta de servicio predeterminada para todas las operaciones del repositorio. Puedes usar una cuenta de servicio diferente para ejecutar flujos de trabajo en tu repositorio, pero la cuenta de servicio predeterminada aún se usa para todas las demás operaciones del repositorio.

Después de crear un repositorio, puedes conectarlo a GitHub o GitLab.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita las API de BigQuery and Dataform.

    Habilita las API

  5. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita las API de BigQuery and Dataform.

    Habilita las API

Roles obligatorios

Si quieres obtener los permisos que necesitas para crear y borrar un repositorio, pídele a tu administrador que te otorgue el rol de IAM de Administrador de Dataform (roles/dataform.admin) en los repositorios. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios mediante funciones personalizadas, o bien otras funciones predefinidas.

Para usar una cuenta de servicio que no sea la predeterminada de Dataform, otorga acceso a la cuenta de servicio no predeterminada.

Crea un repositorio de Dataform

Para crear un repositorio de Dataform, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a Dataform

  2. Haz clic en Crear repositorio.

  3. En la página Crear repositorio, en el campo ID del repositorio, ingresa un ID único.

    Los ID solo pueden incluir números, letras, guiones y guiones bajos.

  4. En la lista desplegable Región, selecciona una región de Dataform para almacenar el repositorio y su contenido. Selecciona la región de Dataform más cercana a tu ubicación.

    Para obtener una lista de las regiones de Dataform disponibles, consulta Ubicaciones. La región del repositorio no tiene que coincidir con la ubicación de tus conjuntos de datos de BigQuery.

    En el archivo dataform.json, puedes establecer la región de procesamiento en la que Dataform procesa tu código y almacena el resultado de las ejecuciones. La región de procesamiento debe coincidir con la ubicación de tus conjuntos de datos de BigQuery, pero no es necesario que coincida con la región del repositorio. Para obtener más información, consulta Cómo definir la configuración de Dataform.

  5. En el menú desplegable Cuenta de servicio, selecciona una cuenta de servicio para el repositorio.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con el proyecto de Google Cloud al que tengas acceso. Ten en cuenta que las cuentas de servicio no predeterminadas se usan solo para la ejecución del flujo de trabajo. La cuenta de servicio predeterminada de Dataform aún la realiza la cuenta de servicio predeterminada de Dataform.

    1. Opcional: Para seleccionar una cuenta de servicio que no se muestre en el menú desplegable, haz clic en Ingresar manualmente y, luego, ingresa un ID de cuenta de servicio.
  6. Haz clic en Crear y, luego, en Listo.

Edita la cuenta de servicio

Puedes asociar una cuenta de servicio no predeterminada con un repositorio de Dataform para la ejecución del flujo de trabajo. La cuenta de servicio predeterminada de Dataform aún realiza las demás operaciones del repositorio.

Para editar la cuenta de servicio de un repositorio de Dataform, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a Dataform

  2. Selecciona un repositorio y haz clic en Configuración.

  3. En el campo Cuenta de servicio, haz clic en Editar cuenta de servicio.

  4. En el menú desplegable Cuenta de servicio, selecciona una cuenta de servicio para el repositorio.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform o cualquier cuenta de servicio asociada con el proyecto de Google Cloud al que tengas acceso.

    1. Opcional: Para seleccionar una cuenta de servicio que no se muestre en el menú desplegable, haz clic en Ingresar manualmente y, luego, ingresa un ID de cuenta de servicio.
  5. Haz clic en Guardar.

Borra un repositorio de Dataform

Sigue estos pasos para borrar un repositorio y todo su contenido:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a Dataform

  2. Junto al repositorio que deseas borrar, haz clic en el menú Más y, luego, selecciona Borrar.

  3. En la ventana Borrar repositorio, ingresa el nombre del repositorio para confirmar su eliminación.

  4. Haz clic en Borrar.

¿Qué sigue?