En esta página, se describe cómo ver el linaje de datos que generan tus canalizaciones de Cloud Data Fusion con otros movimientos de datos en Google Cloud para fines de descubrimiento y administración. Puedes ver los gráficos de linaje para las fuentes de datos compatibles en la página de Dataplex en la consola o usar la API de Data Lineage para recuperar los registros de linaje de datos completos.
Complementos que admiten el linaje de datos en Dataplex
Cloud Data Fusion y Dataplex admiten el linaje a nivel de los recursos para los siguientes complementos:
- Amazon S3
- BigQuery
- Receptor de varias tablas de BigQuery (versión 6.9.1 y posterior)
- Cloud Spanner
- Cloud Storage
- Cloud SQL para MySQL
- Cloud SQL para PostgreSQL
- Dataplex
- FTP
- Base de datos genérica
- HTTP
- Servidor SQL/MSSQL
- Fuente de varias tablas de bases de datos (versión 6.9.1 y posteriores)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Tabla de SAP
Para obtener más información, consulta Complementos de Cloud Data Fusion.
Antes de comenzar
Para habilitar la visualización de los gráficos de linaje de Cloud Data Fusion en la página de Dataplex en la consola, haz lo siguiente:
Crea una canalización de datos que use solo los complementos compatibles.
Habilita la API de Data Lineage en el proyecto que contiene tu instancia de Cloud Data Fusion.
Otorga la función de productor de eventos de linaje de datos (
roles/datalineage.producer
) a la cuenta de servicio administrada por Cloud Data Fusion. Para obtener más información, consulta las funciones de linaje predefinidas de Data Catalog.Instancias sin RBAC
Si el control de acceso basado en funciones (RBAC) no está habilitado en la instancia, otorga la función de productor de eventos de linaje de datos (
roles/datalineage.producer
) al agente de servicio de la API de Cloud Data Fusion.Para otorgar el rol requerido, sigue estos pasos:
En la consola de Google Cloud, ve a la página IAM.
Selecciona la casilla de verificación Incluir asignaciones de roles proporcionadas por Google.
Selecciona la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion como principal y haz clic en Editar.
Haz clic en Agregar otra función y selecciona la función Producer de linaje de datos.
Haz clic en Guardar.
Instancias con RBAC
Para las instancias que tienen habilitado el control de acceso basado en funciones (RBAC), la cuenta de servicio a la que le otorgas la función tiene el siguiente formato:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
. No aparece en la lista de principales de la página IAM.Para otorgar el rol requerido, sigue estos pasos:
En la consola de Google Cloud, ve a la página IAM.
Haz clic en Grant access.
En el campo Principales nuevas, ingresa la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
.Selecciona el rol Producer de linaje de datos.
Haz clic en Guardar.
Cuándo está disponible el linaje
La visualización del linaje en Dataplex tiene las siguientes limitaciones:
El linaje en Dataplex solo es detectable si hay una entidad de BigQuery conectada a los complementos compatibles. Para obtener más información sobre cuándo están disponibles los gráficos de linaje de datos, consulta Acerca del linaje de datos.
La API de Data Lineage no admite claves de encriptación administradas por el cliente (CMEK).
Revisa las consideraciones de linaje de datos.
Ver gráficos de linaje de datos
Para ver los gráficos de linaje de las entidades en todos los servicios de Google Cloud, haz lo siguiente:
Ve a tu instancia en Cloud Data Fusion y ejecuta una canalización de datos que use complementos compatibles.
Consulta los gráficos de linaje en la página de Dataplex en la consola y busca el recurso del que deseas ver la información.
¿Qué sigue?
- Obtenga más información sobre el linaje de datos.