Consultar el linaje en Dataplex

En esta página, se describe cómo ver el linaje de datos que generan tus canalizaciones de Cloud Data Fusion con otros movimientos de datos en Google Cloud, para fines de descubrimiento y administración. Puedes ver los gráficos de linaje de las fuentes de datos compatibles en la página de Dataplex en la consola o usar la API de Data Lineage para recuperar registros de linaje de datos completos.

Complementos que admiten el linaje de datos de Dataplex

Cloud Data Fusion y Dataplex admiten el linaje a nivel del activo para los siguientes complementos:

  • Amazon S3
  • BigQuery
  • Receptor de tablas múltiples de BigQuery (versión 6.9.1 y versiones posteriores)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Dataplex
  • FTP
  • Base de datos genérica
  • HTTP
  • MSSQL/SQL Server
  • Fuente de varias tablas de bases de datos (versión 6.9.1 y posteriores)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • Tabla de SAP

Para obtener más información, consulta Complementos de Cloud Data Fusion.

Antes de comenzar

Para habilitar la visualización de los gráficos de linaje de Cloud Data Fusion en la página Dataplex de la consola, haz lo siguiente:

  1. Crea una canalización de datos que solo use los complementos compatibles.

  2. Habilita la API de Data Lineage en el proyecto que contiene tu instancia de Cloud Data Fusion.

  3. Otorga el rol de productor de eventos de linaje de datos (roles/datalineage.producer) a la cuenta de servicio administrada por Cloud Data Fusion, el agente de servicios de la API de Cloud Data Fusion. El proceso varía si tu instancia se ejecuta en una versión anterior de Cloud Data Fusion y el RBAC está habilitado.

    6.10 o versiones posteriores, o sin RBAC

    Si tu instancia de Cloud Data Fusion usa la versión 6.10.0 o una posterior, o tu instancia usa una versión anterior y no está habilitada la RBAC, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Selecciona la casilla de verificación Incluir asignaciones de funciones proporcionadas por Google.

    3. Selecciona la cuenta de servicio del Agente de servicio de la API de Cloud Data Fusion y haz clic en Editar.

    4. Haz clic en Agregar otra función y selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

    <6.10 con RBAC

    Si tu instancia de Cloud Data Fusion usa una versión anterior a la 6.10.0 y está habilitada la RBAC, la cuenta de servicio no aparecerá en la lista de principales de la página de IAM. Debes ingresar el nombre de la cuenta de servicio de forma manual.

    Para otorgar el rol requerido, sigue estos pasos:

    1. En la consola de Google Cloud, ve a la página IAM.

      Ir a IAM

    2. Haz clic en Otorgar acceso.

    3. En el campo Principales nuevas, ingresa la cuenta de servicio del Agente de servicio de la API de Cloud Data Fusion. Usa el siguiente formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Reemplaza TENANT_PROJECT_ID por el ID del inquilino de tu instancia. Para ver el ID del proyecto del inquilino, ve a la página Instancias y haz clic en el nombre de la instancia para ver sus detalles.

      Ir a Instancias

    4. Selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

Habilita el linaje de datos de Dataplex en Cloud Data Fusion

En el caso de las instancias nuevas de Cloud Data Fusion, el linaje de datos de Dataplex está desactivado de forma predeterminada. Si creaste la instancia antes del 27 de enero de 2024 con la versión 6.8.0 o una posterior, se activa de forma predeterminada después de completar los pasos que se indican en Antes de comenzar.

Habilita el linaje de datos de Dataplex cuando crees una instancia

Console

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, sigue estos pasos:

  1. Ve a la página Instancias de Cloud Data Fusion y haz clic en Crear una instancia.

    Crea una instancia

  2. Cuando configures la instancia, expande la sección Opciones avanzadas y haz clic en Habilitar la integración del linaje de datos de Dataplex. Para obtener más información sobre la creación de instancias, consulta Cómo crear una instancia pública.

API de REST

Para habilitar el linaje de datos de Dataplex cuando creas una instancia, configura la propiedad opcional dataplex_data_lineage_integration_enabled en true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desactivarlo, establece la propiedad como falsa o omítela, ya que el linaje se desactiva de forma predeterminada cuando creas una instancia nueva.

Habilita o inhabilita el linaje de datos de Dataplex en una instancia existente

Console

Para habilitar o inhabilitar el linaje de datos de Dataplex en una instancia existente de Cloud Data Fusion, sigue estos pasos:

  1. Consulta los detalles de la instancia:
    1. En la consola de Google Cloud, ve a la página de Cloud Data Fusion.

    2. Haz clic en Instancias y, luego, en el nombre de la instancia para ir a la página Detalles de la instancia.

      Ir a Instancias

  2. En el campo Integración del linaje de datos de Dataplex, haz clic en Editar.
  3. Habilita o inhabilita el linaje de datos de Dataplex y, luego, haz clic en Guardar.

API de REST

Para habilitar el linaje de datos de Dataplex en una instancia existente de Cloud Data Fusion, establece la propiedad dataplex_data_lineage_integration_enabled en true y, luego, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para inhabilitar el linaje de datos de Dataplex en una instancia existente en Cloud Data Fusion, establece la propiedad dataplex_data_lineage_integration_enabled en false y, luego, incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Cómo ver gráficos de linaje de datos

Para ver los grafos de linaje de las entidades en todos los Google Cloud servicios, haz lo siguiente:

  1. Ve a tu instancia en Cloud Data Fusion y ejecuta una canalización de datos que use complementos compatibles.

  2. Consulta los gráficos de linaje en la página de Dataplex en la consola y busca el activo para el que deseas ver la información del linaje.

Limitaciones

La visualización del linaje en Dataplex tiene las siguientes limitaciones:

¿Qué sigue?