Introducción a la transformación de datos

En este documento se describen las diferentes formas de transformar los datos de las tablas de BigQuery.

Para obtener más información sobre las integraciones de datos, consulta el artículo Introducción a la carga, transformación y exportación de datos.

Métodos para transformar datos

Puedes transformar datos en BigQuery de las siguientes formas:

  • Usa el lenguaje de manipulación de datos (DML) para transformar los datos de tus tablas de BigQuery.
  • Usa vistas materializadas para almacenar en caché automáticamente los resultados de una consulta y, de este modo, aumentar el rendimiento y la eficiencia.
  • Usa consultas continuas para analizar los datos entrantes en tiempo real e insertar continuamente las filas de salida en una tabla de BigQuery o exportarlas a Pub/Sub o Bigtable.
  • Usa flujos de procesamiento de BigQuery o Dataform para desarrollar, probar, controlar versiones y programar flujos de procesamiento en BigQuery.
  • Usa preparaciones de datos con recomendaciones de transformación generadas por IA y adaptadas al contexto para limpiar los datos y analizarlos. Las preparaciones de datos se basan en la API Dataform.

En la siguiente tabla se muestran las diferentes características de cada método de transformación.

Método de transformación Transformación de destino Método de definición Frecuencia de transformación
Lenguaje de manipulación de datos (DML) Tabla (in situ) DML de SQL Iniciadas por el usuario o programadas
Vistas materializadas Vista materializada Consulta SQL Actualización automática o manual
Consultas continuas Tabla, tema de Pub/Sub y tabla de Bigtable Consulta SQL con EXPORT DATA Continua
Dataform Tabla Núcleo de Dataform (SQLX) Programado (flujos de procesamiento)
Pipelines de BigQuery Tabla Pipelines de BigQuery Programado (flujos de procesamiento)
Preparación de datos Tabla Editor visual Programado

También puedes consultar el historial de cambios de una tabla de BigQuery para examinar las transformaciones que se han hecho en una tabla en un periodo concreto.

Transformar datos con DML

Puedes usar el lenguaje de manipulación de datos (DML) para transformar los datos de tus tablas de BigQuery. Las instrucciones DML son consultas de GoogleSQL que manipulan los datos de una tabla para añadir o eliminar filas, modificar los datos de las filas o combinar datos con valores de otra tabla. Las transformaciones de DML también se admiten en las tablas con particiones.

Puedes ejecutar varias instrucciones DML simultáneamente, donde BigQuery pone en cola varias instrucciones DML que transforman tus datos una tras otra. BigQuery gestiona cómo se ejecutan las instrucciones de DML simultáneas en función del tipo de transformación.

Transformar datos con vistas materializadas

Las vistas materializadas son vistas precalculadas que almacenan en caché periódicamente los resultados de una consulta de SQL para mejorar el rendimiento y la eficiencia. BigQuery aprovecha los resultados precalculados de las vistas materializadas y, siempre que sea posible, solo lee los cambios de las tablas base para calcular resultados actualizados.

Las vistas materializadas se precalculan en segundo plano cuando cambian las tablas base. Los cambios incrementales de datos de las tablas base se añaden automáticamente a las vistas materializadas, sin que el usuario tenga que hacer nada.

Transformar datos con consultas continuas

Las consultas continuas son instrucciones SQL que se ejecutan continuamente. Las consultas continuas te permiten analizar los datos entrantes en BigQuery en tiempo real. Puedes insertar las filas de salida que genera una consulta continua en una tabla de BigQuery o exportarlas a Pub/Sub o Bigtable.

Transformar datos con Dataform

Dataform te permite gestionar la transformación de datos en el proceso de extracción, carga y transformación (ELT) para la integración de datos. Después de extraer datos sin procesar de los sistemas de origen y cargarlos en BigQuery, puedes usar Dataform para transformarlos en un conjunto de tablas organizado, probado y documentado. Mientras que en DML adoptas un enfoque imperativo indicando a BigQuery cómo transformar exactamente tus datos, en Dataform escribes instrucciones declarativas y Dataform determina la transformación necesaria para conseguir ese estado.

En Dataform, puedes desarrollar, probar y controlar las versiones de flujos de trabajo de SQL para la transformación de datos, desde las declaraciones de fuentes de datos hasta las tablas, vistas o vistas materializadas de salida. Puedes desarrollar flujos de trabajo de SQL con el núcleo de Dataform o con JavaScript puro. Dataform Core es un metalenguaje de código abierto que amplía SQL con SQLX y JavaScript. Puedes usar el núcleo de Dataform para gestionar dependencias, configurar pruebas de calidad de datos automatizadas y documentar descripciones de tablas o columnas en el código.

Dataform almacena el código de tu flujo de trabajo de SQL en repositorios y usa Git para monitorizar los cambios en los archivos. Los espacios de trabajo de desarrollo de Dataform te permiten trabajar en el contenido del repositorio sin afectar al trabajo de otros usuarios que estén trabajando en el mismo repositorio. Puedes conectar repositorios de Dataform a proveedores de Git de terceros, como Azure DevOps Services, Bitbucket, GitHub y GitLab.

Puedes ejecutar o programar flujos de trabajo de SQL con configuraciones de lanzamiento y de flujo de trabajo de Dataform. También puedes programar ejecuciones con Cloud Composer o con Workflows y Cloud Scheduler. Durante la ejecución, Dataform ejecuta consultas de SQL en BigQuery en orden de las dependencias de los objetos de tu flujo de trabajo de SQL. Una vez ejecutado, puedes usar las tablas y vistas que hayas definido para hacer análisis en BigQuery.

Para obtener más información sobre cómo crear flujos de trabajo de SQL de transformación de datos en Dataform, consulta la descripción general de Dataform y las funciones de Dataform.

Transformar datos con las canalizaciones de BigQuery

Los flujos de procesamiento de BigQuery se basan en Dataform y te permiten crear y gestionar transformaciones de datos en procesos de extracción, carga y transformación (ELT) o de extracción, transformación y carga (ETL).

Puedes crear y gestionar las canalizaciones de BigQuery de forma visual en BigQuery Studio.

Para obtener más información sobre cómo crear canalizaciones de BigQuery, consulta Crear canalizaciones.

Preparar datos en BigQuery

Para reducir el esfuerzo de la preparación de datos, BigQuery te permite limpiar datos con sugerencias de transformación generadas por Gemini. La preparación de datos en BigQuery ofrece la siguiente asistencia:

  • Aplicar transformaciones y reglas de calidad de los datos
  • Estandarizar y enriquecer datos
  • Automatizar la asignación de esquemas

Puedes validar los resultados en una vista previa de tus datos antes de ejecutar los cambios en todos tus datos.

Para obtener más información, consulta la introducción a la preparación de datos de BigQuery.

Siguientes pasos