Crear y ejecutar un flujo de trabajo en Dataform
En esta guía de inicio rápido se explica el siguiente proceso en Dataform para crear un flujo de trabajo y ejecutarlo en BigQuery:
Antes de empezar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
Crear y gestionar repositorios, espacios de trabajo e invocaciones de flujo de trabajo:
Administrador de Dataform (
roles/dataform.admin
) -
Ejecutar flujos de trabajo en BigQuery:
-
Editor de datos de BigQuery (
roles/bigquery.dataEditor
) -
Usuario de tareas de BigQuery (
roles/bigquery.jobUser
)
-
Editor de datos de BigQuery (
En la Google Cloud consola, ve a la página Dataform.
Haz clic en
Crear repositorio.En la página Crear repositorio, haz lo siguiente:
En el campo Repository ID (ID de repositorio), introduce
quickstart-repository
.En la lista Región, selecciona
europe-west4
.Haz clic en Crear.
En la Google Cloud consola, ve a la página Dataform.
Haz clic en
quickstart-repository
.Haz clic en
Crear espacio de trabajo de desarrollo.En la ventana Crear espacio de trabajo de desarrollo, haga lo siguiente:
En el campo ID de espacio de trabajo, introduce
quickstart-workspace
.Haz clic en Crear.
Aparecerá la página del espacio de trabajo de desarrollo.
Haz clic en Inicializar espacio de trabajo.
En el panel Archivos, junto a
definitions/
, haz clic en el menú Más.Haz clic en Crear archivo.
En el panel Crear archivo, haz lo siguiente:
En el campo Añadir una ruta de archivo, introduce
definitions/quickstart-source.sqlx
.Haz clic en Crear archivo.
En el panel Archivos, despliega la carpeta de definiciones.
Haz clic en
definitions/quickstart-source.sqlx
.En el archivo, introduce el siguiente fragmento de código:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Haz clic en Formato.
En el panel Archivos, junto a
definitions/
, haz clic en el menú Más y, a continuación, selecciona Crear archivo.En el campo Añadir una ruta de archivo, introduce
definitions/quickstart-table.sqlx
.Haz clic en Crear archivo.
En el panel Archivos, despliega el directorio
definitions/
.Selecciona
quickstart-table.sqlx
y, a continuación, introduce el siguiente tipo de tabla y la siguienteSELECT
instrucción:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Haz clic en Formato.
.En la Google Cloud consola, ve a la página Dataform.
En la página
quickstart-workspace
, haz clic en Iniciar ejecución.Haz clic en Todas las acciones.
Haz clic en Iniciar ejecución.
En el cuadro de diálogo que se abre, haz clic en Permitir para dar permiso a BigQuery Pipelines para acceder a tu cuenta de Google.
Dataform usa la configuración predeterminada del repositorio para crear el contenido de tu flujo de trabajo en un conjunto de datos de BigQuery llamado
dataform
.En la página
quickstart-repository
, haz clic en Registros de ejecución del flujo de trabajo.Para ver los detalles de la ejecución, haz clic en la última.
En la Google Cloud consola, ve a la página BigQuery.
En el panel Explorador, expande tu proyecto y selecciona
dataform
.Haz clic en el menú
Acciones y, a continuación, selecciona Eliminar.En el cuadro de diálogo Eliminar conjunto de datos, introduce
delete
en el campo y, a continuación, haz clic en Eliminar.En la Google Cloud consola, ve a la página Dataform.
Haz clic en
quickstart-repository
.En la pestaña Espacios de trabajo de desarrollo, haz clic en el menú Más
quickstart-workspace
y, a continuación, selecciona Eliminar.Para confirmar la acción, haz clic en Eliminar.
En la Google Cloud consola, ve a la página Dataform.
En
quickstart-repository
, haz clic en el menú Más y, a continuación, selecciona Eliminar.En la ventana Eliminar repositorio, introduce el nombre del repositorio para confirmar la eliminación.
Para confirmar la acción, haz clic en Eliminar.
Para obtener más información sobre Dataform, consulta la descripción general de Dataform.
Para obtener más información sobre las funciones de Dataform, consulta el artículo Funciones de Dataform.
Para obtener más información sobre Dataform Core, consulta el artículo de introducción a Dataform Core.
Para saber cómo anular la configuración predeterminada de Dataform de tu repositorio, consulta Configurar los ajustes del flujo de trabajo de Dataform.
Para obtener más información sobre cómo gestionar conjuntos de datos en BigQuery, consulta el artículo sobre gestión de conjuntos de datos.
Para obtener más información sobre cómo gestionar tablas en BigQuery, consulta Gestionar tablas.
Roles obligatorios
Para obtener los permisos que necesitas para crear y ejecutar un flujo de trabajo en Dataform, pide a tu administrador que te conceda los siguientes roles de IAM en el proyecto que alojará tu repositorio de Dataform:
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.
Crear un repositorio de Dataform
Crear e inicializar un espacio de trabajo de desarrollo de Dataform
Crear una vista
En las siguientes secciones, definirá una vista que usará más adelante como fuente de datos de una tabla.
Crear un archivo SQLX para definir una vista
Definir una vista
Crear una tabla
En las siguientes secciones, definirá el tipo de tabla en un archivo SQLX y, a continuación, escribirá una instrucción SELECT
para definir la estructura de la tabla en el mismo archivo.
Crear un archivo SQLX para la definición de la tabla
Definir el tipo, la estructura y las dependencias de la tabla
Después de definir el tipo de tabla, Dataform genera un error de validación de la consulta porque quickstart-source
aún no existe en BigQuery. Este error se resolverá cuando ejecutes el flujo de trabajo más adelante en este tutorial.
Ejecutar el flujo de trabajo en BigQuery
Ver registros de ejecución en Dataform
Limpieza
Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.
Eliminar el conjunto de datos creado en BigQuery
Para evitar que se te cobren los recursos de BigQuery, elimina el conjunto de datos llamado dataform
.
Eliminar el espacio de trabajo de desarrollo de Dataform
Crear un espacio de trabajo de desarrollo de Dataform no tiene ningún coste, pero para eliminarlo, puedes seguir estos pasos:
Eliminar el repositorio de Dataform
Crear un repositorio de Dataform no tiene ningún coste, pero para eliminarlo, puedes seguir estos pasos: