Introducción a la preparación de datos de BigQuery
En este documento, se describe la preparación de datos potenciada por IA en BigQuery. Las preparaciones de datos son recursos de BigQuery Studio que usan Gemini en BigQuery para analizar tus datos y proporcionar sugerencias inteligentes para limpiarlos, transformarlos y enriquecerlos. Puedes reducir significativamente el tiempo y el esfuerzo necesarios para las tareas de preparación de datos manuales. La orquestación de las preparaciones de datos se realiza con Dataform.
Beneficios
- Puedes reducir el tiempo dedicado al desarrollo de canalizaciones de datos con sugerencias de transformación generadas por Gemini que tienen en cuenta el contexto.
- Puedes validar los resultados generados en una vista previa y recibir sugerencias de limpieza y enriquecimiento de la calidad de los datos con la asignación de esquemas automatizada.
- Dataform te permite usar un proceso de integración y desarrollo continuos (CI/CD) que admite la colaboración entre equipos para las revisiones de código y el control de código fuente.
Roles obligatorios
Los usuarios que preparan los datos y las cuentas de servicio de Dataform que ejecutan los trabajos requieren roles de Identity and Access Management (IAM). Para obtener más información, consulta Roles obligatorios y Configura Gemini para BigQuery.
Puntos de entrada de preparación de datos
Puedes crear y administrar preparaciones de datos en la página BigQuery Studio (consulta Cómo abrir el editor de preparación de datos en BigQuery).
Cuando abres una tabla en la preparación de datos de BigQuery, se ejecuta un trabajo de BigQuery con tus credenciales. La ejecución crea filas de muestra de la tabla elegida y escribe los resultados en una tabla temporal del mismo proyecto. Gemini usa los datos y el esquema de muestra para generar sugerencias de preparación de datos que se muestran en el editor de preparación de datos.
Vistas en el editor de preparación de datos
Las preparaciones de datos aparecen como pestañas en la página BigQuery Studio. Cada pestaña tiene una serie de subpestañas, o vistas de preparación de datos, en las que diseñas y administras tus preparaciones de datos.
Vista de datos
Cuando creas una nueva preparación de datos, se abre una pestaña del editor de preparación de datos que muestra la vista de datos, que contiene una muestra representativa de la tabla. En el caso de las preparaciones de datos existentes, puedes hacer clic en un nodo de la vista de gráfico de tu canalización de preparación de datos para navegar a la vista de datos.
La vista de datos te permite hacer lo siguiente:
- Interactúa con tus datos para formar los pasos de preparación de datos.
- Aplica las sugerencias de Gemini.
- Para mejorar la calidad de las sugerencias de Gemini, ingresa valores de ejemplo en las celdas.
Sobre cada columna de la tabla, un perfil estadístico (un histograma) muestra el recuento de los valores principales de cada columna en las filas de vista previa.
Vista de gráfico
La vista de gráfico es una descripción general visual de la preparación de tus datos. Aparece como una pestaña en la página BigQuery Studio de la consola cuando abres una preparación de datos. El gráfico muestra los nodos de todos los pasos de tu canalización de preparación de datos. Puedes seleccionar un nodo en el gráfico para configurar los pasos de preparación de datos que representa.
Vista de esquema
La vista de esquema de preparación de datos muestra el esquema actual del paso activo de preparación de datos. El esquema que se muestra coincide con las columnas de la vista de datos.
En la vista de esquema, puedes realizar operaciones de esquema específicas, como quitar columnas, lo que también crea pasos en la lista Pasos aplicados.
Sugerencias de Gemini
Gemini proporciona sugerencias contextuales para ayudarte con las siguientes tareas de preparación de datos:
- Aplicar transformaciones y reglas de calidad de los datos
- Estandarización y enriquecimiento de datos
- Automatiza la asignación de esquemas
Cada sugerencia aparece en una tarjeta de la lista de sugerencias del editor de preparación de datos. La tarjeta contiene la siguiente información:
- La categoría de alto nivel del paso, como Keep rows o Transformation
- Es una descripción del paso, como Keep rows if
COLUMN_NAME
is notNULL
. - Es la expresión SQL correspondiente que se usa para ejecutar el paso.
Puedes obtener una vista previa de la tarjeta de sugerencia, aplicarla o ajustarla. También puedes agregar pasos de forma manual. Para obtener más información, consulta Prepara los datos con Gemini.
Para ajustar las sugerencias de Gemini, proporciónale un ejemplo de lo que debes cambiar en una columna.
Muestreo de datos
BigQuery usa el muestreo de datos para brindarte una vista previa de la preparación de los datos. Puedes ver la muestra en la vista de datos de cada nodo. Los datos del ejemplo no se actualizan automáticamente. Para obtener más información, consulta Actualiza los ejemplos de preparación de datos.
Modo de escritura
Para optimizar los costos y el tiempo de procesamiento, puedes cambiar la configuración del modo de escritura para procesar de forma incremental los datos nuevos de la fuente. Por ejemplo, si tienes una tabla en BigQuery en la que se insertan registros a diario y un panel de Looker que debe reflejar los datos modificados, puedes programar la preparación de datos de BigQuery para leer de forma incremental los registros nuevos de la tabla de origen y propagarlos a la tabla de destino.
Para configurar la forma en que tus datos preparados se escriben en una tabla de destino, consulta Cómo optimizar la preparación de datos mediante el procesamiento incremental de datos.
Se admiten los siguientes modos de escritura:
Opción de modo de escritura | Descripción |
---|---|
Actualización completa | Inserta los datos preparados para reemplazar todos los datos de la tabla de destino. La tabla se vuelve a crear, no se trunca. La actualización completa es el modo predeterminado cuando se escribe en una tabla de destino. |
Adjunto | Inserta los datos preparados en filas nuevas en la tabla de destino. |
Incremental | Inserta solo los datos nuevos o, según la columna incremental que elijas, los datos modificados en la tabla de destino. |
Pasos admitidos para la preparación de datos
BigQuery admite los siguientes tipos de pasos de preparación de datos:
Tipo de paso | Descripción |
---|---|
Fuente | Agrega una fuente cuando seleccionas una tabla de BigQuery para leer desde ella o cuando agregas un paso de unión. |
Transformación | Limpia y transforma datos con una expresión SQL. Recibirás
tarjetas de sugerencia para las siguientes expresiones:
También puedes usar cualquier expresión SQL de BigQuery válida en los pasos de transformación manual. Por ejemplo:
Para obtener más información, consulta Cómo agregar una transformación. |
Filtro | Quita filas a través de la sintaxis de la cláusula WHERE . Cuando agregues un paso de filtro, puedes convertirlo en un paso de validación.
Para obtener más información, consulta Cómo filtrar filas. |
Validación | Envía las filas que cumplen con los criterios de la regla de validación a una tabla de errores.
Si los datos no cumplen con la regla de validación y no se configura ninguna tabla de errores, la preparación de datos falla durante la ejecución.
Para obtener más información, consulta Configura la tabla de errores y agrega una regla de validación. |
Unirse | Une valores de dos fuentes. Las tablas deben estar en la misma ubicación.
Las columnas de clave de unión deben tener el mismo tipo de datos. Las preparaciones de datos
admiten las siguientes operaciones de unión:
Para obtener más información, consulta Cómo agregar una operación de unión. |
Destino | Define un destino para generar los pasos de preparación de datos. Si ingresas una tabla de destino que no existe, la preparación de datos creará una tabla nueva con la información del esquema actual. Para obtener más información, consulta Cómo agregar o cambiar una tabla de destino. |
Borrar columnas | Borra columnas del esquema. Realiza este paso desde la vista del esquema.
Para obtener más información, consulta Cómo borrar una columna. |
Programa ejecuciones de preparación de datos
Para ejecutar los pasos de preparación de datos y cargar los datos preparados en la tabla de destino, programa una ejecución de preparación de datos única o recurrente. Puedes programar preparaciones de datos desde el editor de preparación de datos y administrarlas desde la página Orchestration de BigQuery. Para obtener más información, consulta Programa preparaciones de datos.
API
La preparación de datos de BigQuery no tiene su propia API. Para obtener más información sobre el uso de la preparación de datos de BigQuery con Dataform, comunícate con bq-datapreparation-feedback@google.com.
Limitaciones
La preparación de datos está disponible con las siguientes limitaciones:
- Todos los conjuntos de datos de origen y destino de la preparación de datos de BigQuery de una preparación de datos determinada deben estar en la misma ubicación. Para obtener más información, consulta Ubicaciones admitidas.
- Durante la edición de la canalización, los datos y las interacciones se envían a un centro de datos de EE.UU. para su procesamiento. Para obtener más información, consulta Ubicaciones compatibles.
- La preparación de datos no admite la generación de consulta en SQL de lenguaje natural.
- Las preparaciones de datos de BigQuery no admiten ver, comparar ni restablecer versiones de preparación de datos.
- Las respuestas de Gemini se basan en una muestra del conjunto de datos que proporcionas cuando diseñas tu canalización de preparación de datos. Para obtener más información, consulta cómo Gemini para Google Cloud usa tus datos y las condiciones del Programa de Verificador de confianza de Gemini para Google Cloud.
Ubicaciones
Las preparaciones de datos admiten el procesamiento de datos en todas las ubicaciones de BigQuery. Los conjuntos de datos de origen y de destino de una preparación de datos determinada deben estar en la misma ubicación.
Precios
Ejecutar preparaciones de datos y crear muestras de vista previa de datos usa recursos de BigQuery, que se cobran según las tarifas que se muestran en los precios de BigQuery.
La preparación de datos se incluye en los precios de Gemini en BigQuery. Puedes usar la preparación de datos de BigQuery durante la versión preliminar sin costo adicional. Para obtener más información, consulta Cómo configurar Gemini en BigQuery.
Cuotas
Para obtener más información, consulta las cuotas de Gemini en Google Cloud.
¿Qué sigue?
- Obtén información para preparar datos con Gemini en BigQuery.
- Obtén información para administrar la implementación y ejecución de las preparaciones de datos.