Gestionar preparaciones de datos
En este documento se describe cómo gestionar la preparación de datos en BigQuery, lo que incluye asignar los roles de gestión de identidades y accesos (IAM) necesarios y gestionar los metadatos en Dataplex Universal Catalog.
Las preparaciones de datos son recursos de BigQuery basados en Dataform.
Antes de empezar
- Asegúrate de que has habilitado la API Gemini para Google Cloud.
- Para gestionar los metadatos de preparación de datos en Dataplex Universal Catalog, asegúrate de que la API Dataplex esté habilitada en tu proyecto Google Cloud .
Roles obligatorios
Los usuarios que preparan los datos y las cuentas de servicio de Dataform que ejecutan los trabajos requieren los permisos concedidos por los siguientes roles de gestión de identidades y accesos (IAM).
Obtener acceso de usuario para la preparación de datos
Para obtener los permisos que necesitas para preparar los datos en BigQuery, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:
-
Usuario de BigQuery Studio (
roles/bigquery.studioUser
) en el proyecto -
Usuario de Gemini para Google Cloud (
roles/cloudaicompanion.user
) en el proyecto -
Acceda a las tablas de origen:
Lector de datos de BigQuery (
roles/bigquery.dataViewer
) en la tabla, el conjunto de datos o el proyecto
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Para obtener más información sobre la gestión de identidades y accesos de los conjuntos de datos en BigQuery, consulta Conceder acceso a un conjunto de datos.También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.
Obtener acceso para gestionar metadatos
Para obtener los permisos que necesitas para gestionar los metadatos de preparación de datos en Dataplex Universal Catalog, asegúrate de tener los roles de Dataplex Universal Catalog necesarios y el permiso dataform.repositories.get
.
Dar acceso a la cuenta de servicio de Dataform
Para asegurarte de que la cuenta de servicio de Dataform tiene los permisos necesarios para ejecutar preparaciones de datos en BigQuery, pide a tu administrador que le asigne los siguientes roles de gestión de identidades y accesos:
-
Acceda a las tablas de origen:
Lector de datos de BigQuery (
roles/bigquery.dataViewer
) en la tabla, el conjunto de datos o el proyecto -
Acceda a las tablas de destino:
Editor de datos de BigQuery (
roles/bigquery.dataEditor
) en la tabla, el conjunto de datos o el proyecto
Es posible que la cuenta de servicio de Dataform requiera permisos adicionales en función de tu flujo de procesamiento de preparación de datos. Para obtener más información, consulta Conceder el acceso necesario a Dataform.
Ver las preparaciones de datos
Para ver una lista de las preparaciones de datos que ya tienes, sigue estos pasos:
- En la página BigQuery, ve al panel Explorador.
- Amplía tu proyecto.
- Despliega la lista Preparaciones de datos.
Optimizar la preparación de datos procesándolos de forma incremental
Para configurar la forma en que se escriben los datos preparados en una tabla de destino, sigue estos pasos.
En la Google Cloud consola, ve a la página BigQuery.
En el panel Explorador, selecciona la preparación de datos.
En la barra de herramientas de la preparación de datos, selecciona Más > Modo de escritura.
Selecciona una de las opciones. Para obtener más información, consulta Modo de escritura.
Haz clic en Guardar.
Ayúdanos a mejorar las sugerencias
Puedes ayudar a mejorar las sugerencias de Gemini compartiendo con Google los datos de las peticiones que envías a las funciones de Vista Previa. Para compartir los datos de tus peticiones, sigue estos pasos:
- Abre el editor de preparación de datos en BigQuery.
- En la barra de herramientas de preparación de datos, haga clic en Configuración Más.
- Selecciona Compartir datos para mejorar Gemini en BigQuery.
Los ajustes para compartir datos se aplican a todo el proyecto y solo los puede configurar un administrador del proyecto con los permisos de gestión de identidades y accesos serviceusage.services.enable
y serviceusage.services.list
. Para obtener más información sobre el uso de datos en el Programa de Testers de Confianza, consulta Programa de Testers de Confianza de Gemini para Google Cloud .
Versiones de preparación de datos
Puedes crear una preparación de datos dentro o fuera de un repositorio. El control de versiones de la preparación de datos se gestiona de forma diferente en función de dónde se encuentre.
Control de versiones de la preparación de datos en repositorios
Los repositorios son repositorios de Git que se encuentran en BigQuery o en un proveedor externo. Puedes usar espacios de trabajo en repositorios para llevar a cabo el control de versiones en las preparaciones de datos. Para obtener más información, consulta Usar el control de versiones con un archivo.
Control de versiones de la preparación de datos fuera de los repositorios
Las preparaciones de datos de BigQuery que no están en repositorios no admiten la visualización, la comparación ni la restauración de versiones de preparación de datos.
Para ver una lista de las versiones de preparación de datos en orden cronológico, sigue estos pasos:
- En la página BigQuery, ve al panel Explorador.
- Selecciona la preparación de los datos.
- Haz clic en Historial de versiones.
Descargar una preparación de datos
Para descargar una preparación de datos en un archivo SQLX, sigue estos pasos:
En la Google Cloud consola, ve a la página BigQuery.
En el panel Explorador, despliega tu proyecto y la carpeta Preparaciones de datos. Haga clic en el nombre de la preparación de datos que quiera descargar.
Haz clic en Descargar. La preparación de los datos se guarda en el formato de archivo SQLX. Por ejemplo,
NAME data preparation.dp.sqlx
.
Subir una preparación de datos
Para subir una preparación de datos desde un archivo SQLX, sigue estos pasos:
En la Google Cloud consola, ve a la página BigQuery.
En el panel Explorador, expande tu proyecto.
Ve a la carpeta Preparaciones de datos y haz clic en more_vert Menú > Subir a Preparación de datos.
En el cuadro de diálogo Subir preparación de datos, seleccione un archivo para subir o introduzca la URL de la preparación de datos.
Escriba el nombre de la preparación de datos.
Selecciona una ubicación de preparación de datos donde se gestionen y almacenen los recursos.
Haz clic en Subir.
Gestionar metadatos en Dataplex Universal Catalog
Dataplex Universal Catalog te permite almacenar y gestionar metadatos para las preparaciones de datos. Las preparaciones de datos están disponibles en Dataplex Universal Catalog de forma predeterminada, sin necesidad de configuración adicional.
Puedes usar Dataplex Universal Catalog para gestionar las preparaciones de datos en todas las ubicaciones de BigQuery. La gestión de las preparaciones de datos en Dataplex Universal Catalog está sujeta a las cuotas y los límites de Dataplex Universal Catalog y a los precios de Dataplex Universal Catalog.
Dataplex Universal Catalog recupera automáticamente los siguientes metadatos de las preparaciones de datos:
- Nombre del recurso de datos
- Recurso de datos superior
- Ubicación del recurso de datos
- Tipo de recurso de datos
- Proyecto Google Cloud correspondiente
Dataplex Universal Catalog registra las preparaciones de datos como entradas con los siguientes valores de entrada:
- Grupo de entradas del sistema
- El grupo de entradas del sistema
para las preparaciones de datos es
@dataform
. Para ver los detalles de las entradas de preparación de datos en Dataplex Universal Catalog, debes ver eldataform
grupo de entradas del sistema. Para obtener instrucciones sobre cómo ver una lista de todas las entradas de un grupo de entradas, consulta Ver los detalles de un grupo de entradas en la documentación de Dataplex Universal Catalog. - Tipo de entrada del sistema
- El tipo de entrada del sistema
de las preparaciones de datos es
dataform-code-asset
. Para ver los detalles de las preparaciones de datos, debe consultar el tipo de entrada del sistemadataform-code-asset
, filtrar los resultados con un filtro basado en aspectos y definir el campotype
dentro del aspectodataform-code-asset
comoDATA_PREPARATION
. A continuación, selecciona una entrada de la preparación de datos seleccionada. Para obtener instrucciones sobre cómo ver los detalles de un tipo de entrada seleccionado, consulta el artículo Ver los detalles de un tipo de entrada de la documentación de Universal Catalog de Dataplex. Para obtener instrucciones sobre cómo ver los detalles de una entrada seleccionada, consulta la sección Ver los detalles de una entrada de la documentación de Dataplex Universal Catalog. - Tipo de aspecto del sistema
- El tipo de aspecto del sistema
de las preparaciones de datos es
dataform-code-asset
. Para proporcionar más contexto a las preparaciones de datos en Dataplex Universal Catalog añadiendo aspectos a las entradas de preparación de datos, consulta el tipo de aspectodataform-code-asset
, filtra los resultados con un filtro basado en aspectos y define el campotype
del aspectodataform-code-asset
comoDATA_PREPARATION
. Para obtener instrucciones sobre cómo anotar entradas con aspectos, consulta Gestionar aspectos y enriquecer metadatos en la documentación de Dataplex Universal Catalog. - Tipo
- El tipo de los lienzos de datos es
DATA_PREPARATION
. Este tipo le permite filtrar preparaciones de datos en eldataform-code-asset
tipo de entrada del sistema y el tipo de aspectodataform-code-asset
mediante la consultaaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
en un filtro basado en aspectos.
Para obtener instrucciones sobre cómo buscar recursos, consulta el artículo Buscar recursos de datos en Dataplex Universal Catalog de la documentación de Dataplex Universal Catalog.
Siguientes pasos
- Consulta más información sobre cómo preparar datos en BigQuery.
- Consulta cómo ejecutar preparaciones de datos manualmente o con una programación.
- Consulte cómo crear preparaciones de datos.