Crea y ejecuta un flujo de trabajo en SQL en Dataform
En esta guía de inicio rápido, se explica el proceso siguiente en Dataform para crear un flujo de trabajo de SQL y ejecutarlo en BigQuery:
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de BigQuery and Dataform.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de BigQuery and Dataform.
Funciones obligatorias
A fin de obtener los permisos que necesitas para realizar todas las tareas de este instructivo, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto:
-
Administrador de Dataform (
roles/dataform.admin
): Repositorios -
Editor de Dataform (
roles/dataform.editor
): invocaciones del flujo de trabajo y lugares de trabajo
Si quieres obtener más información para otorgar roles, consulta Administra el acceso.
Es posible que también puedas obtener los permisos necesarios a través de funciones personalizadas o, también, otras funciones predefinidas.
Crea un repositorio de Dataform
En la consola de Google Cloud, ve a la página Dataform.
Haz clic en
Crear repositorio.En la página Crear repositorio, haz lo siguiente:
En el campo ID del repositorio, ingresa
quickstart-repository
.En la lista Región, selecciona
europe-west4
.Haz clic en Crear.
Crea e inicializar un lugar de trabajo de desarrollo de Dataform
En la consola de Google Cloud, ve a la página Dataform.
Haz clic en
quickstart-repository
.Haz clic en
Crear lugar de trabajo de desarrollo.En la ventana Crear lugar de trabajo de desarrollo, haz lo siguiente:
En el campo ID del lugar de trabajo, ingresa
quickstart-workspace
.Haz clic en Crear.
Aparecerá la página del lugar de trabajo de desarrollo.
Haga clic en Inicializar espacio de trabajo.
Crea una vista
En las siguientes secciones, definirás una vista que luego usarás como fuente de datos para una tabla.
Crea un archivo SQLX para definir una vista
En el panel Files, junto a
definitions/
, haz clic en el menú More.Haz clic en Crear archivo.
En el panel Crear archivo nuevo, haz lo siguiente:
En el campo Agregar una ruta de archivo, ingresa
definitions/quickstart-source.sqlx
.Haz clic en Crear archivo.
Cómo definir una vista
En el panel Files, expande la carpeta de definiciones.
Haz clic en
definitions/quickstart-source.sqlx
.En el archivo, ingresa el siguiente fragmento de código:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Haz clic en Formato.
Crea una tabla
En las siguientes secciones, definirás el tipo de tabla en un archivo SQLX y, luego, escribirás una declaración SELECT
para definir la estructura de la tabla dentro del mismo archivo.
Crea un archivo SQLX para la definición de tablas
En el panel Files, junto a
definitions/
, haz clic en el menú More y, luego, selecciona Create file.En el campo Add a file path, ingresa
definitions/quickstart-table.sqlx
.Haz clic en Crear archivo.
Cómo definir el tipo, la estructura y las dependencias de la tabla
En el panel Files, expande el directorio
definitions/
.Selecciona
quickstart-table.sqlx
y, luego, ingresa el siguiente tipo de tabla y la declaraciónSELECT
:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Haz clic en Formato.
Después de definir el tipo de tabla, Dataform muestra un error de validación de consulta porque quickstart-source
aún no existe en BigQuery. Este error se resuelve cuando ejecutas el flujo de trabajo de SQL más adelante en este instructivo.
Otorga acceso de Dataform a BigQuery
Para ejecutar flujos de trabajo en BigQuery, la cuenta de servicio de Dataform debe tener los siguientes roles obligatorios:
- Editor de datos de BigQuery en proyectos para los que Dataform necesita acceso de lectura y escritura. Por lo general, incluyen el proyecto que aloja tu repositorio de Dataform.
- Visualizador de datos de BigQuery en proyectos para los que Dataform necesita acceso de solo lectura.
- Usuario de trabajo de BigQuery en el proyecto que aloja tu repositorio de Dataform.
Para otorgar estos roles, sigue estos pasos:
En la consola de Google Cloud, ve a la página IAM.
Haz clic en Agregar.
En el campo Principales nuevas, ingresa el ID de tu cuenta de servicio de Dataform.
En la lista desplegable Seleccionar una función, selecciona la función Usuario de trabajo de BigQuery.
Haz clic en Agregar otra función y, luego, en la lista desplegable Seleccionar una función, selecciona la función Editor de datos de BigQuery.
Haz clic en Agregar otra función y, luego, en la lista desplegable Seleccionar una función, selecciona la función Visualizador de datos de BigQuery.
Haz clic en Guardar.
Ejecuta el flujo de trabajo
En la consola de Google Cloud, ve a la página Dataform.
En la página de
quickstart-workspace
, haz clic en Iniciar ejecución.Haz clic en Todas las acciones.
En el panel Ejecutar, haz clic en Iniciar ejecución.
Dataform usa la configuración predeterminada del repositorio para crear el contenido de tu flujo de trabajo en un conjunto de datos de BigQuery llamado
dataform
.
Ver registros de ejecución en Dataform
En la página
quickstart-repository
, haz clic en Registros de ejecución del flujo de trabajo.Para ver los detalles de tu ejecución, haz clic en la última ejecución.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página.
Borra el conjunto de datos creado en BigQuery
Para evitar que se apliquen cargos por los recursos de BigQuery, borra el conjunto de datos llamado dataform
.
En la consola de Google Cloud, ve a la página de BigQuery.
En el panel Explorador, expande tu proyecto y selecciona
dataform
.Haz clic en el menú
Acciones y, luego, selecciona Borrar.En el cuadro de diálogo Borrar conjunto de datos, ingresa
delete
en el campo y, luego, haz clic en Borrar.
Borra el lugar de trabajo de desarrollo de Dataform
La creación del lugar de trabajo de desarrollo de Dataform no genera costos, pero puedes seguir estos pasos para borrarlo:
En la consola de Google Cloud, ve a la página Dataform.
Haz clic en
quickstart-repository
.En la pestaña Development workspaces, haz clic en el menú
More dequickstart-workspace
y, luego, selecciona Delete.Para confirmar la acción, haz clic en Borrar.
Borra el repositorio de Dataform
La creación del repositorio de Dataform no genera costos, pero puedes seguir estos pasos para borrar el repositorio:
En la consola de Google Cloud, ve a la página Dataform.
Junto a
quickstart-repository
, haz clic en el menú Más y, luego, selecciona Borrar.En la ventana Borrar repositorio, ingresa el nombre del repositorio para confirmar su eliminación.
Para confirmar la acción, haz clic en Borrar.
¿Qué sigue?
Para obtener más información sobre Dataform, consulta Descripción general de Dataform.
Para obtener más información sobre las funciones de Dataform, consulta la Descripción general de las funciones de Dataform.
Para obtener más información sobre Dataform Core, consulta Descripción general de Dataform Core.
Si quieres aprender a anular la configuración predeterminada de Dataform de tu repositorio, consulta Establece la configuración de Dataform.
Para obtener más información sobre la administración de conjuntos de datos en BigQuery, consulta Cómo administrar conjuntos de datos.
Para obtener más información sobre cómo administrar tablas en BigQuery, consulta Administra tablas en BigQuery.