Migra desde Dataform heredado

Dataform heredado dejará de estar disponible el 26 de febrero de 2024. Después de esa fecha, ya no podrás acceder a los proyectos heredados. En este documento, se describen las diferencias entre Dataform heredado y Dataform en Google Cloud, y cómo importar un proyecto heredado de Dataform en Dataform en Google Cloud.

Acerca de las diferencias entre Dataform heredado y Dataform en Google Cloud

Dataform es un servicio sin servidores para que los analistas de datos desarrollen y, luego, implementen tablas, tablas incrementales o vistas en BigQuery. Dataform ofrece un entorno web para el desarrollo de flujos de trabajo de SQL; conexión con GitHub, GitLab, Bitbucket y servicios de Azure DevOps, integración continua, implementación continua y ejecución de flujo de trabajo.

Dataform en Google Cloud se diferencia de Dataform heredado de las siguientes maneras:

Para obtener más información sobre las funciones de Dataform en Google Cloud, consulta Descripción general de las funciones de Dataform.

Las funciones heredadas de Dataform no se admiten en Google Cloud en este momento

Por el momento, las siguientes funciones de Dataform heredado no se admiten en Dataform en Google Cloud:

  • Ejecución manual de pruebas de unidades.
  • Buscar contenido de archivos en lugares de trabajo de desarrollo.

Esta lista se actualizará de forma continua a medida que se lancen nuevas funciones de Dataform en Google Cloud.

Limitaciones conocidas

Dataform en Google Cloud tiene las siguientes limitaciones conocidas:

  • Dataform en Google Cloud se ejecuta en un entorno de ejecución V8 simple y no admite funciones ni módulos adicionales que proporciona Node.js. Si tu base de código existente requiere módulos de Node.js, debes quitar esas dependencias.

    Los proyectos sin un campo de nombre en package.json generan diferencias en package-lock.json cada vez que se instalan paquetes. Para evitar esto, debes agregar una propiedad name en package.json.

  • git+https:// URLs para dependencias en package.json no son compatibles.

    Convierte esas URLs en URL de archivo https:// sin formato. Por ejemplo, convierte git+https://github.com/dataform-co/dataform-segment.git#1.5 en https://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita las API de BigQuery and Dataform.

    Habilita las API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita las API de BigQuery and Dataform.

    Habilita las API

Funciones obligatorias

Para obtener los permisos que necesitas para importar un proyecto heredado, pídele a tu administrador que te otorgue el rol de IAM de Administrador de Dataform (roles/dataform.admin) en los repositorios. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios a través de funciones personalizadas o, también, otras funciones predefinidas.

Importa un proyecto heredado

Para importar un proyecto heredado en Dataform en Google Cloud, sigue estos pasos en la consola de Google Cloud:

  1. Asegúrate de que el proyecto de Dataform en app.dataform.co esté conectado a GitHub o GitLab.
  2. En la consola de Google Cloud, ve a la página Dataform.

    Ir a la página de Dataform

  3. Crea un repositorio nuevo.

  4. Conecta el repositorio al repositorio remoto de Git que contiene tu proyecto heredado.

Configura tu proyecto importado de Dataform

Para ajustar tu proyecto heredado a Dataform en Google Cloud, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Dataform.

    Ir a la página de Dataform

  2. Selecciona tu repositorio.

  3. Crea un lugar de trabajo de desarrollo.

  4. Ve al lugar de trabajo de desarrollo.

  5. En el archivo de configuración del flujo de trabajo, especifica una ubicación predeterminada.

workflow_settings.yaml

Agrega el parámetro defaultLocation con el siguiente formato:

defaultLocation: DATASET_LOCATION,

Reemplaza DATASET_LOCATION por la ubicación predeterminada de tu conjunto de datos de BigQuery, por ejemplo, US, EU o us-east1.

app.dataform.co ignora el parámetro defaultLocation.

dataform.json

Agrega el parámetro defaultLocation con el siguiente formato:

"defaultLocation": "DATASET_LOCATION",

Reemplaza DATASET_LOCATION por la ubicación predeterminada de tu conjunto de datos de BigQuery, por ejemplo, US, EU o us-east1.

app.dataform.co ignora el parámetro defaultLocation.

  1. Borrar package-lock.json.
  2. En package.json, haz lo siguiente:

    1. Actualiza @dataform/core a 3.0.0-beta.2 o una versión posterior.
    2. Agrega un nombre de paquete en el siguiente formato:

      {
          "name": "PACKAGE_NAME",
          "dependencies": {
              "@dataform/core": "^3.0.0-beta.2"
          }
      }
      

      Reemplaza PACKAGE_NAME por un nombre para tu paquete de Dataform, por ejemplo, el nombre de tu proyecto.

    3. Convierte las URLs git+https:// de las dependencias package.json en URLs de archivo https:// sin formato.

      Por ejemplo, convierte git+https://github.com/dataform-co/dataform-segment.git#1.5 en https://github.com/dataform-co/dataform-segment/archive/1.5.tar.gz.

      Si usas URLs de git+https:// en paquetes de Dataform compilados previamente, consulta las instrucciones de instalación actualizadas para estos paquetes en sus páginas de versiones, por ejemplo, la página de versiones de Dataform-segment.

  3. Configura los permisos de BigQuery y los permisos del usuario.

  4. Migra entornos de environments.json a parámetros de configuración de lanzamiento.

  5. Migra los programas de environments.json a los parámetros de configuración del flujo de trabajo.

  6. Configura alertas con Cloud Logging.

¿Qué sigue?