Introducción a la preparación de datos de BigQuery

En este documento se describe la preparación de datos mejorada con IA en BigQuery. Las preparaciones de datos son recursos de BigQuery que usan Gemini en BigQuery para analizar tus datos y ofrecer sugerencias inteligentes para limpiarlos, transformarlos y enriquecerlos. Puedes reducir considerablemente el tiempo y el esfuerzo necesarios para realizar tareas de preparación de datos manuales. La programación de las preparaciones de datos se basa en Dataform.

Ventajas

  • Puedes reducir el tiempo dedicado al desarrollo de la canalización de datos con sugerencias de transformación generadas por Gemini y adaptadas al contexto.
  • Puedes validar los resultados generados en una vista previa y recibir sugerencias para limpiar y enriquecer los datos con la asignación de esquemas automatizada.
  • Dataform te permite usar un proceso de integración continua y desarrollo continuo (CI/CD), que admite la colaboración entre equipos para las revisiones de código y el control de código fuente.

Puntos de entrada de preparación de datos

Puedes crear y gestionar preparaciones de datos en la página BigQuery Studio (consulta Abrir el editor de preparación de datos en BigQuery).

Cuando abres una tabla en la preparación de datos de BigQuery, se ejecuta un trabajo de BigQuery con tus credenciales. La ejecución crea filas de ejemplo de la tabla elegida y escribe los resultados en una tabla temporal del mismo proyecto. Gemini usa los datos y el esquema de muestra para generar sugerencias de preparación de datos que se muestran en el editor de preparación de datos.

Vistas en el editor de preparación de datos

Las preparaciones de datos aparecen como pestañas en la página BigQuery. Cada pestaña tiene una serie de subpestañas o vistas de preparación de datos, donde puedes diseñar y gestionar tus preparaciones de datos.

Vista de datos

Cuando creas una preparación de datos, se abre una pestaña del editor de preparación de datos que muestra la vista de datos, que contiene una muestra representativa de la tabla. En el caso de las preparaciones de datos que ya tengas, puedes ir a la vista de datos haciendo clic en un nodo de la vista de gráfico de tu flujo de procesamiento de preparación de datos.

La vista de datos te permite hacer lo siguiente:

  • Interactúa con tus datos para definir los pasos de preparación de datos.
  • Aplica las sugerencias de Gemini.
  • Mejora la calidad de las sugerencias de Gemini introduciendo valores de ejemplo en las celdas.

Sobre cada columna de la tabla, se muestra un perfil estadístico (un histograma) que indica el recuento de los valores principales de cada columna en las filas de vista previa.

Vista de datos en el editor de preparación de datos

Vista de gráfico

La vista de gráfico es un resumen visual de la preparación de los datos. Aparece como una pestaña en la página BigQuery de la consola cuando abres una preparación de datos. En el gráfico se muestran los nodos de todos los pasos de la canalización de preparación de datos. Puedes seleccionar un nodo del gráfico para configurar los pasos de preparación de datos que representa.

Vista de gráfico en el editor de preparación de datos

Vista de esquema

La vista de esquema de preparación de datos muestra el esquema actual del paso de preparación de datos activo. El esquema que se muestra coincide con las columnas de la vista de datos.

En la vista de esquema, puede realizar operaciones específicas del esquema, como quitar columnas, lo que también crea pasos en la lista Pasos aplicados.

Vista de esquema en el editor de preparación de datos

Sugerencias de Gemini

Gemini proporciona sugerencias adaptadas al contexto para ayudarte con las siguientes tareas de preparación de datos:

  • Aplicar transformaciones y reglas de calidad de los datos
  • Estandarizar y enriquecer datos
  • Automatizar la asignación de esquemas

Cada sugerencia aparece en una tarjeta de la lista de sugerencias del editor de preparación de datos. La tarjeta contiene la siguiente información:

  • La categoría de nivel superior del paso, como Conservar filas o Transformación
  • Una descripción del paso, como Conservar filas si COLUMN_NAME no es NULL
  • La expresión SQL correspondiente que se usa para ejecutar el paso.

Puedes previsualizar, editar o aplicar la tarjeta de sugerencia, o bien ajustar la sugerencia. También puedes añadir pasos manualmente. Para obtener más información, consulta Preparar datos con Gemini.

Para ajustar las sugerencias de Gemini, dale un ejemplo de lo que quieres cambiar en una columna.

Muestreo de datos

BigQuery usa el muestreo de datos para ofrecer una vista previa de la preparación de los datos. Puede ver la muestra en la vista de datos de cada nodo.

Cuando añades tablas estándar de BigQuery como fuente, los datos se preparan mediante una función TABLESAMPLE de BigQuery. Esta función crea una muestra de 10.000 registros.

Cuando añades una vista o una tabla externa como fuente, el sistema lee los primeros 1.000.000 registros. A partir de estos registros, el sistema selecciona una muestra representativa de 10.000 registros.

Los datos de la muestra no se actualizan automáticamente. Las tablas de muestra se almacenan como resultados de consulta almacenados en caché y caducan en aproximadamente 24 horas. Para actualizar manualmente la tabla de ejemplo, consulta Actualizar ejemplos de preparación de datos.

Modo de escritura

Para optimizar los costes y el tiempo de procesamiento, puede cambiar la configuración del modo de escritura para procesar de forma incremental los datos nuevos de la fuente. Por ejemplo, si tienes una tabla en BigQuery en la que se insertan registros a diario y un panel de Looker que debe reflejar los datos modificados, puedes programar la preparación de datos de BigQuery para que lea de forma incremental los nuevos registros de la tabla de origen y los propague a la tabla de destino.

Para configurar la forma en que se escriben los datos preparados en una tabla de destino, consulte Optimizar la preparación de datos procesándolos de forma incremental.

Se admiten los siguientes modos de escritura:

Opción de modo de escritura Descripción
Actualización completa Realiza los pasos de preparación de los datos en todos los datos de origen y, a continuación, vuelve a crear la tabla de destino por completo. La tabla se vuelve a crear, no se trunca. La actualización completa es el modo predeterminado al escribir en una tabla de destino.
Añadir Inserta todos los datos de la preparación de datos como filas adicionales en la tabla de destino.
Incremental Inserta solo los datos nuevos o, en función de la columna incremental que elijas, los datos modificados en la tabla de destino. En función de la columna incremental que elijas, la preparación de los datos seleccionará el mecanismo de detección de registros de cambios óptimo. Selecciona los valores máximos de los tipos de datos numéricos y de fecha y hora, y los valores únicos de los datos categóricos. Maximum inserts solo registra los valores de la columna especificada que sean mayores que el valor máximo de esa misma columna en la tabla de destino. Las inserciones únicas solo registran los casos en los que los valores de la columna especificada no están presentes en los valores de la misma columna de la tabla de destino.

Pasos de preparación de datos admitidos

BigQuery admite los siguientes tipos de pasos de preparación de datos:

Tipo de paso Descripción
Fuente Añade una fuente cuando selecciona una tabla de BigQuery para leerla o cuando añade un paso de combinación.
Transformación Limpia y transforma datos mediante una expresión SQL. Recibirás tarjetas de sugerencias para las siguientes expresiones:
  • Funciones de conversión de tipos, como CAST
  • Funciones de cadena, como SUBSTR, CONCAT, REPLACE, UPPER, LOWER y TRIM
  • Funciones de fecha y hora, como PARSE_DATE, TIMESTAMP, EXTRACT y DATE_ADD
  • Funciones JSON, como JSON_VALUE o JSON_QUERY

También puede usar cualquier expresión SQL de BigQuery válida en los pasos de transformación manual. Por ejemplo:
  • Operaciones matemáticas con números, como convertir vatios-hora en kilovatios-hora
  • Funciones de matriz, como ARRAY_AGG, ARRAY_CONCAT y UNNEST
  • Funciones de ventana, como ROW_NUMBER, LAG, LEAD, RANK y NTILE


Para obtener más información, consulta Añadir una transformación.
Filtro Elimina filas mediante la sintaxis de la cláusula WHERE. Cuando añades un paso de filtro, puedes convertirlo en un paso de validación.

Para obtener más información, consulta Filtrar filas.
Anular duplicados (vista previa) Elimina las filas duplicadas de los datos en función de las claves y el orden seleccionados.

Para obtener más información, consulta Eliminar datos duplicados.
Validación Envía a una tabla de errores las filas que no cumplen los criterios de la regla de validación. Si los datos no cumplen la regla de validación y no se ha configurado ninguna tabla de errores, la preparación de los datos falla durante la ejecución.

Para obtener más información, consulta Configurar la tabla de errores y añadir una regla de validación.
Unirme Combina valores de dos fuentes. Las tablas deben estar en la misma ubicación. Las columnas de clave de unión deben ser del mismo tipo de datos. Las preparaciones de datos admiten las siguientes operaciones de unión:
  • Uniones internas
  • Combinaciones externas izquierdas
  • Uniones externas derechas
  • Combinaciones externas completas
  • Uniones cruzadas (si no se selecciona ninguna columna de clave de unión, se usa una unión cruzada)


Para obtener más información, consulta Añadir una operación de unión.
Destino Define un destino para generar los pasos de preparación de datos. Si introduces una tabla de destino que no existe, la preparación de los datos crea una tabla con la información del esquema actual.

Para obtener más información, consulta Añadir o cambiar una tabla de destino.
Eliminar columnas Elimina columnas del esquema. Para llevar a cabo este paso, debes usar la vista de esquema.

Para obtener más información, consulta Eliminar una columna.

Programar ejecuciones de preparación de datos

Para ejecutar los pasos de preparación de los datos y cargar los datos preparados en la tabla de destino, crea una programación. Puede programar preparaciones de datos desde el editor de preparación de datos y gestionarlas desde la página Programación de BigQuery. Para obtener más información, consulta Programar preparaciones de datos.

Crear flujos de procesamiento con tareas de preparación de datos

Puedes crear flujos de procesamiento de BigQuery compuestos por tareas de preparación de datos, consultas de SQL y cuadernos. Después, puede ejecutar estas canalizaciones según una programación. Para obtener más información, consulta la introducción a las canalizaciones de BigQuery.

Controlar el acceso

Controla el acceso a las preparaciones de datos mediante roles de gestión de identidades y accesos (IAM), cifrado con claves de Cloud KMS de BigQuery y Dataform, y Controles de Servicio de VPC.

Funciones y permisos de IAM

Los usuarios que preparan los datos y las cuentas de servicio de Dataform que ejecutan los trabajos requieren permisos de gestión de identidades y accesos. Para obtener más información, consulta los roles obligatorios y el artículo sobre cómo configurar Gemini para BigQuery.

Encriptado con claves de Cloud KMS

Cifra los datos a nivel de conjunto de datos o de proyecto mediante las claves de Cloud KMS gestionadas por el cliente predeterminadas en BigQuery. Para obtener más información, consulta Definir una clave predeterminada para un conjunto de datos y Definir una clave predeterminada para un proyecto.

Puedes encriptar el código de la canalización a nivel de proyecto de forma predeterminada con una clave de Cloud KMS de Dataform.

Perímetros de los Controles de Servicio de VPC

Si usas Controles de Servicio de VPC, debes configurar el perímetro para proteger Dataform y BigQuery. Para obtener más información, consulta las limitaciones de los Controles de Servicio de VPC en BigQuery y Dataform.

Limitaciones

La preparación de datos está disponible con las siguientes limitaciones:

  • Todos los conjuntos de datos de origen y de destino de preparación de datos de BigQuery de una preparación de datos determinada deben estar en la misma ubicación. Para obtener más información, consulta Ubicaciones.
  • Durante la edición de la canalización, los datos y las interacciones se envían a un centro de datos de Gemini para que se procesen. Para obtener más información, consulta Ubicaciones.
  • Gemini en BigQuery no es compatible con Assured Workloads.
  • Las preparaciones de datos de BigQuery no admiten la visualización, la comparación ni la restauración de versiones de preparación de datos.
  • Las respuestas de Gemini se basan en una muestra del conjunto de datos que proporcionas al diseñar tu flujo de preparación de datos. Para obtener más información, consulta cómo usa Gemini para Google Cloud tus datos y los términos del Programa de Testers de Confianza de Gemini para Google Cloud .
  • La preparación de datos de BigQuery no tiene su propia API. Para ver las APIs necesarias, consulta Configurar Gemini en BigQuery.

Ubicaciones

Puedes usar la preparación de datos en cualquier ubicación de BigQuery admitida. Tus tareas de tratamiento de datos se ejecutan y se almacenan en la ubicación de tus conjuntos de datos de origen. Si se especifica una ubicación del repositorio, debe ser la misma que la ubicación de los conjuntos de datos de origen. La región de almacenamiento del código de preparación de datos puede ser diferente de la región de ejecución de la tarea.

Todos los recursos de código de BigQuery Studio usan la misma región predeterminada. Para definir la región predeterminada de los recursos de código, sigue estos pasos:

  1. Ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, busca el proyecto en el que hayas habilitado los recursos de código.

  3. Haz clic en Ver acciones junto al proyecto y, a continuación, en Cambiar mi región de código predeterminada.

  4. En Región, seleccione la región que quiera usar para los recursos de código.

  5. Haz clic en Seleccionar.

Para ver una lista de las regiones admitidas, consulta Ubicaciones de BigQuery Studio.

Gemini en BigQuery opera a nivel mundial, por lo que no puedes restringir el procesamiento de datos de Gemini a una región específica al diseñar tus preparaciones de datos, aunque el procesamiento de datos de BigQuery en tiempo de diseño y de ejecución siempre se realiza en la ubicación de tus conjuntos de datos de origen. Para obtener más información sobre las ubicaciones en las que Gemini en BigQuery procesa datos, consulta Ubicaciones de servicio de Gemini.

Precios

Para preparar los datos y crear muestras de vista previa de datos, se usan recursos de BigQuery, que se cobran según las tarifas que se indican en la página de precios de BigQuery.

La preparación de datos se incluye en los precios de Gemini en BigQuery. Puedes usar la preparación de datos de BigQuery durante la vista previa sin coste adicional. Para obtener más información, consulta el artículo sobre cómo configurar Gemini en BigQuery.

Cuotas

Para obtener más información, consulta las cuotas de Gemini en BigQuery.

Siguientes pasos