Introducción a la preparación de datos de BigQuery

En este documento, se describe la preparación de datos potenciada por IA en BigQuery. Las preparaciones de datos son recursos de BigQuery Studio que usan Gemini en BigQuery para analizar tus datos y proporcionar sugerencias inteligentes para limpiarlos, transformarlos y enriquecerlos. Puedes reducir significativamente el tiempo y el esfuerzo necesarios para las tareas de preparación de datos manuales. La orquestación de las preparaciones de datos se realiza con Dataform.

Beneficios

  • Puedes reducir el tiempo dedicado al desarrollo de canalizaciones de datos con sugerencias de transformación generadas por Gemini que tienen en cuenta el contexto.
  • Puedes validar los resultados generados en una vista previa y recibir sugerencias de limpieza y enriquecimiento de la calidad de los datos con la asignación de esquemas automatizada.
  • Dataform te permite usar un proceso de integración y desarrollo continuos (CI/CD) que admite la colaboración entre equipos para las revisiones de código y el control de código fuente.

Roles obligatorios

Los usuarios que preparan los datos y las cuentas de servicio de Dataform que ejecutan los trabajos requieren roles de Identity and Access Management (IAM). Para obtener más información, consulta Roles obligatorios y Configura Gemini para BigQuery.

Puntos de entrada de preparación de datos

Puedes crear y administrar preparaciones de datos en la página BigQuery Studio (consulta Cómo abrir el editor de preparación de datos en BigQuery).

Cuando abres una tabla en la preparación de datos de BigQuery, se ejecuta un trabajo de BigQuery con tus credenciales. La ejecución crea filas de muestra de la tabla elegida y escribe los resultados en una tabla temporal del mismo proyecto. Gemini usa los datos y el esquema de muestra para generar sugerencias de preparación de datos que se muestran en el editor de preparación de datos.

Vistas en el editor de preparación de datos

Las preparaciones de datos aparecen como pestañas en la página BigQuery Studio. Cada pestaña tiene una serie de subpestañas, o vistas de preparación de datos, en las que diseñas y administras tus preparaciones de datos.

Vista de datos

Cuando creas una nueva preparación de datos, se abre una pestaña del editor de preparación de datos que muestra la vista de datos, que contiene una muestra representativa de la tabla. En el caso de las preparaciones de datos existentes, puedes hacer clic en un nodo de la vista de gráfico de tu canalización de preparación de datos para navegar a la vista de datos.

La vista de datos te permite hacer lo siguiente:

  • Interactúa con tus datos para formar los pasos de preparación de datos.
  • Aplica las sugerencias de Gemini.
  • Para mejorar la calidad de las sugerencias de Gemini, ingresa valores de ejemplo en las celdas.

Sobre cada columna de la tabla, un perfil estadístico (un histograma) muestra el recuento de los valores principales de cada columna en las filas de vista previa.

Vista de gráfico

La vista de gráfico es una descripción general visual de la preparación de tus datos. Aparece como una pestaña en la página BigQuery Studio de la consola cuando abres una preparación de datos. El gráfico muestra los nodos de todos los pasos de tu canalización de preparación de datos. Puedes seleccionar un nodo en el gráfico para configurar los pasos de preparación de datos que representa.

Vista de esquema

La vista de esquema de preparación de datos muestra el esquema actual del paso activo de preparación de datos. El esquema que se muestra coincide con las columnas de la vista de datos.

En la vista de esquema, puedes realizar operaciones de esquema específicas, como quitar columnas, lo que también crea pasos en la lista Pasos aplicados.

Sugerencias de Gemini

Gemini proporciona sugerencias contextuales para ayudarte con las siguientes tareas de preparación de datos:

  • Aplicar transformaciones y reglas de calidad de los datos
  • Estandarización y enriquecimiento de datos
  • Automatiza la asignación de esquemas

Cada sugerencia aparece en una tarjeta de la lista de sugerencias del editor de preparación de datos. La tarjeta contiene la siguiente información:

  • La categoría de alto nivel del paso, como Keep rows o Transformation
  • Es una descripción del paso, como Keep rows if COLUMN_NAME is not NULL.
  • Es la expresión SQL correspondiente que se usa para ejecutar el paso.

Puedes obtener una vista previa de la tarjeta de sugerencia, aplicarla o ajustarla. También puedes agregar pasos de forma manual. Para obtener más información, consulta Prepara los datos con Gemini.

Para ajustar las sugerencias de Gemini, proporciónale un ejemplo de lo que debes cambiar en una columna.

Muestreo de datos

BigQuery usa el muestreo de datos para brindarte una vista previa de la preparación de los datos. Puedes ver la muestra en la vista de datos de cada nodo. Los datos del ejemplo no se actualizan automáticamente. Para obtener más información, consulta Actualiza los ejemplos de preparación de datos.

Modo de escritura

Para optimizar los costos y el tiempo de procesamiento, puedes cambiar la configuración del modo de escritura para procesar de forma incremental los datos nuevos de la fuente. Por ejemplo, si tienes una tabla en BigQuery en la que se insertan registros a diario y un panel de Looker que debe reflejar los datos modificados, puedes programar la preparación de datos de BigQuery para leer de forma incremental los registros nuevos de la tabla de origen y propagarlos a la tabla de destino.

Para configurar la forma en que tus datos preparados se escriben en una tabla de destino, consulta Cómo optimizar la preparación de datos mediante el procesamiento incremental de datos.

Se admiten los siguientes modos de escritura:

Opción de modo de escritura Descripción
Actualización completa Inserta los datos preparados para reemplazar todos los datos de la tabla de destino. La tabla se vuelve a crear, no se trunca. La actualización completa es el modo predeterminado cuando se escribe en una tabla de destino.
Adjunto Inserta los datos preparados en filas nuevas en la tabla de destino.
Incremental Inserta solo los datos nuevos o, según la columna incremental que elijas, los datos modificados en la tabla de destino.

Pasos admitidos para la preparación de datos

BigQuery admite los siguientes tipos de pasos de preparación de datos:

Tipo de paso Descripción
Fuente Agrega una fuente cuando seleccionas una tabla de BigQuery para leer desde ella o cuando agregas un paso de unión.
Transformación Limpia y transforma datos con una expresión SQL. Recibirás tarjetas de sugerencia para las siguientes expresiones:
  • Funciones de conversión de tipo, como CAST
  • Funciones de cadena, como SUBSTR, CONCAT, REPLACE, UPPER, LOWER y TRIM
  • Funciones de fecha y hora, como PARSE_DATE, TIMESTAMP, EXTRACT y DATE_ADD
  • Funciones JSON, como JSON_EXTRACT

También puedes usar cualquier expresión SQL de BigQuery válida en los pasos de transformación manual. Por ejemplo:
  • Operaciones matemáticas con números, como convertir vatios-hora en kilovatios-hora
  • Funciones de array, como ARRAY_AGG, ARRAY_CONCAT y UNNEST
  • Funciones analíticas, como ROW_NUMBER, LAG, LEAD, RANK y NTILE


Para obtener más información, consulta Cómo agregar una transformación.
Filtro Quita filas a través de la sintaxis de la cláusula WHERE. Cuando agregues un paso de filtro, puedes convertirlo en un paso de validación.

Para obtener más información, consulta Cómo filtrar filas.
Validación Envía las filas que cumplen con los criterios de la regla de validación a una tabla de errores. Si los datos no cumplen con la regla de validación y no se configura ninguna tabla de errores, la preparación de datos falla durante la ejecución.

Para obtener más información, consulta Configura la tabla de errores y agrega una regla de validación.
Unirse Une valores de dos fuentes. Las tablas deben estar en la misma ubicación. Las columnas de clave de unión deben tener el mismo tipo de datos. Las preparaciones de datos admiten las siguientes operaciones de unión:
  • Combinaciones internas
  • Combinaciones izquierdas
  • Uniones a la derecha
  • Combinaciones externas completas
  • Uniones cruzadas (si no se seleccionan columnas de claves de unión, se usa una unión cruzada)


Para obtener más información, consulta Cómo agregar una operación de unión.
Destino Define un destino para generar los pasos de preparación de datos. Si ingresas una tabla de destino que no existe, la preparación de datos creará una tabla nueva con la información del esquema actual.

Para obtener más información, consulta Cómo agregar o cambiar una tabla de destino.
Borrar columnas Borra columnas del esquema. Realiza este paso desde la vista del esquema.

Para obtener más información, consulta Cómo borrar una columna.

Programa ejecuciones de preparación de datos

Para ejecutar los pasos de preparación de datos y cargar los datos preparados en la tabla de destino, programa una ejecución de preparación de datos única o recurrente. Puedes programar preparaciones de datos desde el editor de preparación de datos y administrarlas desde la página Orchestration de BigQuery. Para obtener más información, consulta Programa preparaciones de datos.

API

La preparación de datos de BigQuery no tiene su propia API. Para obtener más información sobre el uso de la preparación de datos de BigQuery con Dataform, comunícate con bq-datapreparation-feedback@google.com.

Limitaciones

La preparación de datos está disponible con las siguientes limitaciones:

  • Todos los conjuntos de datos de origen y destino de la preparación de datos de BigQuery de una preparación de datos determinada deben estar en la misma ubicación. Para obtener más información, consulta Ubicaciones admitidas.
  • Durante la edición de la canalización, los datos y las interacciones se envían a un centro de datos de EE.UU. para su procesamiento. Para obtener más información, consulta Ubicaciones compatibles.
  • La preparación de datos no admite la generación de consulta en SQL de lenguaje natural.
  • Las preparaciones de datos de BigQuery no admiten ver, comparar ni restablecer versiones de preparación de datos.
  • Las respuestas de Gemini se basan en una muestra del conjunto de datos que proporcionas cuando diseñas tu canalización de preparación de datos. Para obtener más información, consulta cómo Gemini para Google Cloud usa tus datos y las condiciones del Programa de Verificador de confianza de Gemini para Google Cloud.

Ubicaciones

Las preparaciones de datos admiten el procesamiento de datos en todas las ubicaciones de BigQuery. Los conjuntos de datos de origen y de destino de una preparación de datos determinada deben estar en la misma ubicación.

Precios

Ejecutar preparaciones de datos y crear muestras de vista previa de datos usa recursos de BigQuery, que se cobran según las tarifas que se muestran en los precios de BigQuery.

La preparación de datos se incluye en los precios de Gemini en BigQuery. Puedes usar la preparación de datos de BigQuery durante la versión preliminar sin costo adicional. Para obtener más información, consulta Cómo configurar Gemini en BigQuery.

Cuotas

Para obtener más información, consulta las cuotas de Gemini en Google Cloud.

¿Qué sigue?