Consultar el linaje en Dataplex

En esta página, se describe cómo ver el linaje de datos que generan tus canalizaciones de Cloud Data Fusion con otros movimientos de datos en Google Cloud para fines de descubrimiento y administración. Puedes ver los gráficos de linaje de las fuentes de datos compatibles en la página de Dataplex en la consola o usar la API de Data Lineage para recuperar registros de linaje de datos completos.

Complementos que admiten el linaje de datos de Dataplex

Cloud Data Fusion y Dataplex admiten linaje a nivel de los recursos para los siguientes complementos:

  • Amazon S3
  • BigQuery
  • Receptor de varias tablas de BigQuery (versión 6.9.1 y posteriores)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Dataplex
  • FTP
  • Base de datos genérica
  • HTTP
  • Servidor MSSQL/SQL
  • Fuente de varias tablas de bases de datos (versión 6.9.1 y posteriores)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • Tabla de SAP

Para obtener más información, consulta Complementos de Cloud Data Fusion.

Antes de comenzar

Para habilitar la visualización de los gráficos de linaje de Cloud Data Fusion en la página de Dataplex en la consola, sigue estos pasos:

  1. Crea una canalización de datos que use solo los complementos compatibles.

  2. Habilita la API de Data Lineage en el proyecto que contiene tu instancia de Cloud Data Fusion.

  3. Otorga la función de productor de eventos de linaje de datos (roles/datalineage.producer) a la cuenta de servicio administrada de Cloud Data Fusion, el agente de servicio de la API de Cloud Data Fusion. El proceso varía si tu instancia se ejecuta en una versión anterior de Cloud Data Fusion y RBAC está habilitado.

    6.10+ o sin RBAC

    Si tu instancia de Cloud Data Fusion usa la versión 6.10.0 o posterior, o usa una versión anterior y el RBAC no está habilitado, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Selecciona la casilla de verificación Incluir asignaciones de roles proporcionadas por Google.

    3. Selecciona la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion y haz clic en Editar.

    4. Haz clic en Agregar otra función y selecciona la función Producer de eventos de linaje de datos.

    5. Haz clic en Guardar.

    <6.10 con RBAC

    Si tu instancia de Cloud Data Fusion usa una versión anterior a la 6.10.0 y RBAC está habilitado, la cuenta de servicio no aparece en la lista de principales de la página IAM. Debes ingresar el nombre de la cuenta de servicio de forma manual.

    Para otorgar el rol necesario, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Haz clic en Otorgar acceso.

    3. En el campo Principales nuevas, ingresa la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion. Usa el siguiente formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Reemplaza TENANT_PROJECT_ID por el ID de usuario de tu instancia. Para ver el ID del proyecto de usuario, ve a la página Instancias y haz clic en el nombre de la instancia para ver sus detalles.

      Ir a Instancias

    4. Selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

Habilita el linaje de datos de Dataplex en Cloud Data Fusion

Para las instancias nuevas en Cloud Data Fusion, el linaje de datos de Dataplex está desactivado de forma predeterminada. Si creaste la instancia antes del 27 de enero de 2024 con la versión 6.8.0 o posterior, se activa de forma predeterminada después de completar los pasos de Antes de comenzar.

Habilita el linaje de datos de Dataplex cuando crees una instancia

Console

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, sigue estos pasos:

  1. Ve a la página Instancias de Cloud Data Fusion y haz clic en Crear una instancia.

    Crear una instancia

  2. Cuando configures la instancia, expande la sección Opciones avanzadas y haz clic en Habilitar la integración con el linaje de datos de Dataplex. Para obtener más información sobre la creación de instancias, consulta Crea una instancia pública.

API de REST

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, configura la propiedad opcional dataplex_data_lineage_integration_enabled en true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desactivarlo, configura la propiedad como falsa o omite la propiedad, ya que el linaje está desactivado de forma predeterminada cuando creas una instancia nueva.

Habilita o inhabilita el linaje de datos de Dataplex en una instancia existente

Console

Para habilitar o inhabilitar el linaje de datos de Dataplex en una instancia existente de Cloud Data Fusion, sigue estos pasos:

  1. Visualiza los detalles de la instancia:
    1. En Google Cloud Console, ve a la página de Cloud Data Fusion.

    2. Haz clic en Instancias y, luego, en el nombre de la instancia para ir a la página Detalles de la instancia.

      Ir a Instancias

  2. En el campo Integración del linaje de datos de Dataplex, haz clic en Editar.
  3. Habilita o inhabilita el linaje de datos de Dataplex y, luego, haz clic en Guardar.

API de REST

Para habilitar el linaje de datos de Dataplex en una instancia existente de Cloud Data Fusion, configura la propiedad dataplex_data_lineage_integration_enabled en true y, luego, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para inhabilitar el linaje de datos de Dataplex en una instancia existente de Cloud Data Fusion, configura la propiedad dataplex_data_lineage_integration_enabled en false y, luego, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Ver gráficos de linaje de datos

Para ver los gráficos de linaje de las entidades en todos los servicios de Google Cloud, haz lo siguiente:

  1. Ve a tu instancia en Cloud Data Fusion y ejecuta una canalización de datos que use complementos compatibles.

  2. Consulta los gráficos de linaje en la página de Dataplex en la consola y busca el recurso para el que deseas ver la información del linaje.

Limitaciones

La visualización del linaje en Dataplex tiene las siguientes limitaciones:

¿Qué sigue?