Consultar el linaje en Dataplex

En esta página, se describe cómo ver el linaje de datos que genera tu Canalizaciones de Cloud Data Fusion con otros movimientos de datos en Google Cloud, con fines de descubrimiento y administración. Puedes ver los gráficos de linaje de las fuentes de datos compatibles en la página Dataplex de la consola o usar la API de Data Lineage para recuperar registros de linaje de datos completos.

Complementos que admiten el linaje de datos de Dataplex

Cloud Data Fusion y Dataplex admiten a nivel de los recursos y linaje para los siguientes complementos:

  • Amazon S3
  • BigQuery
  • Receptor de varias tablas de BigQuery (versión 6.9.1 y posteriores)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Dataplex
  • FTP
  • Base de datos genérica
  • HTTP
  • MSSQL/SQL Server
  • Fuente de varias tablas de bases de datos (versión 6.9.1 y posteriores)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • Tabla de SAP

Para obtener más información, consulta Complementos de Cloud Data Fusion.

Antes de comenzar

Para habilitar la visualización de los gráficos de linaje de Cloud Data Fusion en la página Dataplex de la consola, haz lo siguiente:

  1. Crea una canalización de datos que usa solo los complementos compatibles.

  2. Habilita la API de Data Lineage en el proyecto que contenga tu instancia de Cloud Data Fusion.

  3. Otorga el rol de Productor de eventos de linaje de datos (roles/datalineage.producer) a la cuenta de servicio administrada por Cloud Data Fusion, la cuenta de Cloud Servicio de la API de Fusion de operaciones. El proceso varía si tu instancia se ejecuta en una versión anterior de Cloud Data Fusion y el RBAC está habilitado.

    6.10 o versiones posteriores, o sin RBAC

    Si tu instancia de Cloud Data Fusion usa la versión 6.10.0 o una posterior, o bien usa una versión anterior y no está habilitada la RBAC, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Selecciona la casilla de verificación Incluir asignaciones de funciones proporcionadas por Google.

    3. Selecciona la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion y haz clic en Editar.

    4. Haz clic en Agregar otro rol y selecciona los Eventos de linaje de datos. productor.

    5. Haz clic en Guardar.

    <6.10 con RBAC

    Si tu instancia de Cloud Data Fusion usa una versión anterior a la 6.10.0 y está habilitada la RBAC, la cuenta de servicio no aparecerá en la lista de principales de la página de IAM. Debes ingresar el nombre de la cuenta de servicio de forma manual.

    Para otorgar el rol necesario, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Haz clic en Otorgar acceso.

    3. En el campo Principales nuevas, ingresa la API de Cloud Data Fusion. Cuenta de servicio del agente de servicio. Usa el siguiente formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Reemplaza TENANT_PROJECT_ID por el ID del inquilino de tu instancia. Para ver el ID del proyecto del inquilino, ve a la página Instancias y haz clic en el nombre de la instancia para ver sus detalles.

      Ir a Instancias

    4. Selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

Habilita el linaje de datos de Dataplex en Cloud Data Fusion

Para instancias nuevas en Cloud Data Fusion, datos de Dataplex el linaje está desactivado de forma predeterminada. Si creaste la instancia antes del 27 de enero, 2024 con la versión 6.8.0 o posterior, se activa de forma predeterminada después de completar los pasos que se indican en Antes de comenzar.

Habilita el linaje de datos de Dataplex cuando crees una instancia

Console

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, sigue estos pasos:

  1. Ve a la página Instancias de Cloud Data Fusion y haz clic en Crear una instancia.

    Crea una instancia

  2. Cuando configures la instancia, expande la sección Opciones avanzadas y haz clic en Habilitar la integración del linaje de datos de Dataplex. Para ver más información sobre la creación de instancias, consulta Crea un bucket .

API de REST

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, configura la propiedad opcional dataplex_data_lineage_integration_enabled en true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desactivarlo, establece la propiedad como falsa o omítela, ya que el linaje se desactiva de forma predeterminada cuando creas una instancia nueva.

Habilita o inhabilita el linaje de datos de Dataplex en una instancia existente

Console

Para habilitar o inhabilitar el linaje de datos de Dataplex en una instancia existente de Cloud Data Fusion, sigue estos pasos:

  1. Consulta los detalles de la instancia:
    1. In the Google Cloud console, go to the Cloud Data Fusion page.

    2. Click Instances, and then click the instance's name to go to the Instance details page.

      Go to Instances

  2. En el campo Integración del linaje de datos de Dataplex, haz clic en Editar.
  3. Habilita o inhabilita el linaje de datos de Dataplex y, luego, haz clic en Guardar.

API de REST

Para habilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, establece el dataplex_data_lineage_integration_enabled propiedad a true y, además, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para inhabilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, establece la propiedad dataplex_data_lineage_integration_enabled en false y, luego, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Ver gráficos de linaje de datos

Para ver gráficos de linaje de entidades en todos los servicios de Google Cloud, haz lo siguiente:

  1. Ve a tu instancia en Cloud Data Fusion y ejecuta una canalización de datos que use complementos compatibles.

  2. Consulta los gráficos de linaje en la página de Dataplex en la consola y busca el activo para el que deseas ver la información del linaje.

Limitaciones

La visualización del linaje en Dataplex tiene las siguientes limitaciones:

¿Qué sigue?