En esta página, se describe cómo ver el linaje de datos que genera tu Canalizaciones de Cloud Data Fusion con otros movimientos de datos en Google Cloud, con fines de descubrimiento y administración. Puedes ver los gráficos de linaje para las fuentes de datos admitidas en la Página de Dataplex en la consola o usar la API de Data Lineage para recuperar registros completos de linaje de datos.
Complementos que admiten el linaje de datos de Dataplex
Cloud Data Fusion y Dataplex admiten a nivel de los recursos y linaje para los siguientes complementos:
- Amazon S3
- BigQuery
- Receptor de varias tablas de BigQuery (versión 6.9.1 y posteriores)
- Spanner
- Cloud Storage
- Cloud SQL para MySQL
- Cloud SQL para PostgreSQL
- Dataplex
- FTP
- Base de datos genérica
- HTTP
- MSSQL/SQL Server
- Fuente de varias tablas de bases de datos (versión 6.9.1 y posteriores)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Tabla de SAP
Para obtener más información, consulta Complementos de Cloud Data Fusion.
Antes de comenzar
Para habilitar la visualización de los gráficos de linaje de Cloud Data Fusion en la Página de Dataplex en la consola, haz lo siguiente:
Crea una canalización de datos que usa solo los complementos compatibles.
Habilita la API de Data Lineage en el proyecto que contenga tu instancia de Cloud Data Fusion.
Otorga el rol de Productor de eventos de linaje de datos (
roles/datalineage.producer
) a la cuenta de servicio administrada por Cloud Data Fusion, la cuenta de Cloud Servicio de la API de Fusion de operaciones. El proceso varía si la instancia se ejecuta en una versión anterior de Cloud Data Fusion y RBAC están habilitados.RBAC 6.10 o superior, o sin RBAC
Si tu instancia de Cloud Data Fusion usa la versión 6.10.0 o posterior, o si tu instancia usa una versión anterior y el RBAC no está habilitado, sigue estas pasos:
En la consola de Google Cloud, ve a la página IAM.
Selecciona la casilla de verificación Incluir asignaciones de funciones proporcionadas por Google.
Selecciona la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion y haz clic en
Editar.Haz clic en Agregar otro rol y selecciona los Eventos de linaje de datos. productor.
Haz clic en Guardar.
< 6.10 con RBAC
Si tu instancia de Cloud Data Fusion usa una versión anterior a 6.10.0 y RBAC está habilitado, la cuenta de servicio no aparece en el una lista de principales en la página de IAM. Debes ingresar el el nombre de la cuenta de servicio manualmente.
Para otorgar el rol necesario, sigue estos pasos:
En la consola de Google Cloud, ve a la página IAM.
Haz clic en Otorgar acceso.
En el campo Principales nuevas, ingresa la API de Cloud Data Fusion. Cuenta de servicio del agente de servicio. Usa el siguiente formato:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
Reemplaza
TENANT_PROJECT_ID
por el el ID de usuario de tu instancia. Para ver el ID del proyecto de usuario, ve a la página Instancias y haz clic en su nombre. más detalles.Selecciona el rol Productor de eventos de linaje de datos.
Haz clic en Guardar.
Habilita el linaje de datos de Dataplex en Cloud Data Fusion
Para instancias nuevas en Cloud Data Fusion, datos de Dataplex el linaje está desactivado de forma predeterminada. Si creaste la instancia antes del 27 de enero, 2024 con la versión 6.8.0 o posterior, se activa de forma predeterminada después de completar los pasos que se indican en Antes de comenzar.
Habilita el linaje de datos de Dataplex cuando crees una instancia
Console
Para habilitar el linaje de datos de Dataplex cuando creas una instancia, sigue estos pasos:
Ve a la página Instancias de Cloud Data Fusion y haz clic en Crear una .
Cuando configures la instancia, expande la sección Opciones avanzadas y haz clic en Habilitar la integración en el linaje de datos de Dataplex. Para ver más información sobre la creación de instancias, consulta Crea un bucket .
API de REST
Para habilitar el linaje de datos de Dataplex cuando creas una instancia,
establece la propiedad dataplex_data_lineage_integration_enabled
opcional como
true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Para desactivarla, establece la propiedad en falso, o bien omítela, como el linaje está desactivado de forma predeterminada cuando creas una nueva instancia.
Habilita o inhabilita el linaje de datos de Dataplex en una instancia existente
Console
Para habilitar o inhabilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, sigue estos pasos:
- Visualiza los detalles de la instancia:
En Google Cloud Console, ve a la página de Cloud Data Fusion.
Haz clic en Instancias y, luego, en el nombre de la instancia para ir a la página Detalles de la instancia.
- En el campo Integración del linaje de datos de Dataplex, haz clic en Editar.
- Habilita o inhabilita el linaje de datos de Dataplex y, luego, haz clic en Guardar.
API de REST
Para habilitar el linaje de datos de Dataplex en una instancia existente en
Cloud Data Fusion, establece el dataplex_data_lineage_integration_enabled
propiedad a true
y, además, incluye el valor del parámetro updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Para inhabilitar el linaje de datos de Dataplex en una instancia existente en
Cloud Data Fusion, establece el dataplex_data_lineage_integration_enabled
propiedad a false
y, además, incluye el valor del parámetro updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Ver gráficos de linaje de datos
Para ver gráficos de linaje de entidades en todos los servicios de Google Cloud, haz lo siguiente:
Dirígete a tu instancia en Cloud Data Fusion y ejecuta una canalización de datos que usa complementos compatibles.
Visualiza los gráficos de linaje en la página de Dataplex en la consola y busque el recurso cuya información de linaje quiere ver.
Limitaciones
La visualización del linaje en Dataplex tiene las siguientes limitaciones:
El linaje en Dataplex solo es detectable si hay Entidad de BigQuery conectada a los complementos compatibles. Para ver más información sobre cuándo estarán disponibles los gráficos de linaje de datos, consulta Acerca del linaje de datos.
La API de Data Lineage no admite claves de encriptación administradas por el cliente (CMEK).
Cloud Data Fusion no admite esta función en
me-central1
oeurope-west12
ubicaciones.Revisa el consideraciones del linaje de datos.
¿Qué sigue?
- Obtén más información sobre el linaje de datos.