Crea un repositorio de Dataform

En este documento, se muestra cómo crear, configurar y editar un repositorio y borrar un repositorio de Dataform.

Cuando creas un repositorio de Dataform, debes configurar lo siguiente configuración del repositorio:

ID del repositorio
Un ID único del repositorio. Los IDs solo pueden incluir números, letras, guiones, y guiones bajos.
Región

Región de Dataform para almacenar el repositorio y su contenido.

Esta región de almacenamiento puede ser diferente de la región de procesamiento en la que Dataform procesa tu código y almacena el resultado de las ejecuciones. De forma predeterminada, la región de procesamiento es tu BigQuery región del conjunto de datos. Puedes editar la región de procesamiento en el archivo de configuración del flujo de trabajo después de crear el repositorio. Para obtener más información, consulta Establece la configuración de Dataform.

Cuenta de servicio

La cuenta de servicio asociada con el repositorio. Puedes seleccionar Cuenta de servicio de Dataform, una cuenta de servicio asociada a tu proyecto de Google Cloud o ingresa de forma manual una cuenta de servicio diferente. De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu número de proyecto en el siguiente formato:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform usa la cuenta de servicio predeterminada para todos los repositorios operations. Puedes usar una cuenta de servicio diferente para ejecutar flujos de trabajo pero la cuenta de servicio predeterminada se sigue usando para todos para otras operaciones del repositorio.

Encriptación

Es el método de encriptación del repositorio. Puedes usar la encriptación predeterminada o aplicar una clave de encriptación de Cloud KMS administrada por el cliente. Para obtener más información sobre el uso de encriptación administradas por el cliente (CMEK) Consulta Usa claves de encriptación administradas por el cliente en Dataform.

Después de crear un repositorio, puedes conéctala a GitHub o GitLab.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita las API de BigQuery and Dataform.

    Habilita las API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita las API de BigQuery and Dataform.

    Habilita las API

  8. Si quieres usar la encriptación CMEK para el repositorio, habilita la encriptación CMEK para los repositorios de Dataform.

Roles obligatorios

A fin de obtener los permisos que necesitas para crear y borrar un repositorio, solicita a tu administrador que te otorgue el Es el rol de IAM de Administrador de Dataform (roles/dataform.admin) en los repositorios. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Para usar una cuenta de servicio que no sea el servicio predeterminado de Dataform otorgue acceso a la cuenta de servicio personalizada.

Crear un repositorio

Para crear un repositorio de Dataform, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a Dataform

  2. Haz clic en Crear repositorio.

  3. En la página Crear repositorio, en el campo ID del repositorio, haz lo siguiente: ingresa un ID único.

    Los IDs solo pueden incluir números, letras, guiones y guiones bajos.

  4. En la lista desplegable Región, selecciona una región de Dataform. para almacenar el repositorio y su contenido. Selecciona el Dataform. región más cercana a tu ubicación.

    Para obtener una lista de las regiones de Dataform disponibles, consulta Ubicaciones. La región del repositorio no tiene para que coincida con la ubicación de tus conjuntos de datos de BigQuery.

    En el archivo workflow_settings.yaml, puedes configurar la región de procesamiento en la que Dataform procesa tu código y almacena el resultado de las ejecuciones. La región de procesamiento debe coincidir con la ubicación de tu conjuntos de datos, pero no es necesario que coincida con la región del repositorio. Para obtener más información, consulta Establece la configuración de Dataform.

  5. En el menú desplegable Cuenta de servicio, selecciona una cuenta de servicio. para el repositorio.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform. o cualquier cuenta de servicio asociada a tu proyecto de Google Cloud que tengas a los que tienes acceso. Ten en cuenta que las cuentas de servicio personalizadas solo se usan para la ejecución del flujo de trabajo. Todas las demás operaciones del repositorio se siguen realizando con la cuenta de servicio predeterminada de Dataform.

    1. Opcional: Para seleccionar una cuenta de servicio que no se muestra en el menú desplegable, Haz clic en Ingresar manualmente y, luego, ingresa un ID de cuenta de servicio.
  6. En la sección Encriptación, selecciona el método de encriptación para el repositorio.

    1. Para usar la encriptación predeterminada, Selecciona la opción Clave de encriptación administrada por Google.
    2. Para usar CMEK, selecciona la opción Claves de encriptación administradas por el cliente (CMEK).

      1. En el menú desplegable Selecciona una clave administrada por el cliente, selecciona una CMEK para el repositorio.

    Para obtener más información, consulta Restricciones de CMEK de Dataform.

  7. Haz clic en Crear y, luego, en Listo.

Edita la cuenta de servicio

Puedes asociar una cuenta de servicio personalizada a un Dataform para ejecutar el flujo de trabajo. Todas las demás operaciones del repositorio que aún realiza la cuenta de servicio predeterminada de Dataform.

Para editar la cuenta de servicio de un repositorio de Dataform, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a Dataform

  2. Selecciona un repositorio y, luego, haz clic en Configuración.

  3. En el campo Cuenta de servicio, haz clic en Editar cuenta de servicio.

  4. En el menú desplegable Cuenta de servicio, selecciona una cuenta de servicio. para el repositorio.

    En el menú desplegable, puedes seleccionar la cuenta de servicio predeterminada de Dataform. o cualquier cuenta de servicio asociada a tu proyecto de Google Cloud que tengas a los que tienes acceso.

    1. Opcional: Para seleccionar una cuenta de servicio que no se muestra en el menú desplegable, Haz clic en Ingresar manualmente y, luego, ingresa un ID de cuenta de servicio.
  5. Haz clic en Guardar.

Borra un repositorio

Para borrar un repositorio y todo su contenido, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a Dataform

  2. Haz clic en el que está junto al repositorio que deseas borrar. el menú Más y, luego, selecciona Borrar.

  3. En la ventana Borrar repositorio, ingresa el nombre del repositorio para confirmar su eliminación.

  4. Haz clic en Borrar.

¿Qué sigue?