Ver el linaje en Dataplex Universal Catalog

En esta página se describe cómo ver el linaje de datos generado por las canalizaciones de Cloud Data Fusion junto con otros movimientos de datos en Google Cloud, con fines de descubrimiento y gobernanza. Puedes ver los gráficos de linaje de las fuentes de datos admitidas en la página Catálogo universal de Dataplex de la consola o usar la API Data Lineage para obtener registros de linaje de datos completos.

Complementos compatibles con el linaje de datos de Dataplex Universal Catalog

Cloud Data Fusion y Dataplex Universal Catalog admiten el linaje a nivel de recurso de los siguientes complementos:

  • Amazon S3
  • BigQuery
  • Multitabla de BigQuery (versión 6.9.1 y posteriores)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Dataplex Universal Catalog
  • FTP
  • Base de datos genérica
  • HTTP
  • MSSQL/SQL Server
  • Fuente de varias tablas de base de datos (versión 6.9.1 y posteriores)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • ODP de SAP
  • Tabla de SAP

Para obtener más información, consulta Complementos de Cloud Data Fusion.

Antes de empezar

Para ver los gráficos de linaje de Cloud Data Fusion en la página Catálogo universal de Dataplex de la consola, haz lo siguiente:

  1. Crea un flujo de procesamiento de datos que solo use los plugins admitidos.

  2. Habilita la API Data Lineage en el proyecto que contenga tu instancia de Cloud Data Fusion.

  3. Asigna el rol Productor de eventos de linaje de datos (roles/datalineage.producer) a la cuenta de servicio gestionada por Cloud Data Fusion, el agente de servicio de la API de Cloud Data Fusion. El proceso varía si tu instancia se ejecuta en una versión anterior de Cloud Data Fusion y el control de acceso basado en roles está habilitado.

    6.10 o una versión posterior, o sin RBAC

    Si tu instancia de Cloud Data Fusion usa la versión 6.10.0 o una posterior, o bien si usa una versión anterior y el control de acceso basado en roles no está habilitado, sigue estos pasos:

    1. En la consola, ve a la página Gestión de identidades y accesos. Google Cloud

      Ir a IAM

    2. Selecciona la casilla Incluir concesiones de roles proporcionadas por Google.

    3. Selecciona la cuenta de servicio Agente de servicio de la API de Cloud Data Fusion y haz clic en Editar.

    4. Haz clic en Añadir otro rol y selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

    <6.10 con control de acceso basado en roles

    Si tu instancia de Cloud Data Fusion usa una versión anterior a la 6.10.0 y el control de acceso basado en roles está habilitado, la cuenta de servicio no aparece en la lista de principales de la página IAM. Debes introducir el nombre de la cuenta de servicio manualmente.

    Para conceder el rol necesario, sigue estos pasos:

    1. En la consola, ve a la página Gestión de identidades y accesos. Google Cloud

      Ir a IAM

    2. Haz clic en Conceder acceso.

    3. En el campo Nuevos principales, introduce la cuenta de servicio del agente de servicio de la API de Cloud Data Fusion. Utiliza el siguiente formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Sustituye TENANT_PROJECT_ID por el ID de arrendatario de tu instancia. Para ver el ID del proyecto de inquilino, vaya a la página Instancias y haga clic en el nombre de la instancia para ver sus detalles.

      Ir a Instancias

    4. Selecciona el rol Productor de eventos de linaje de datos.

    5. Haz clic en Guardar.

Habilitar el linaje de datos de Dataplex Universal Catalog en Cloud Data Fusion

En las instancias nuevas de Cloud Data Fusion, el linaje de datos de Dataplex Universal Catalog está desactivado de forma predeterminada. Si creaste la instancia antes del 27 de enero del 2024 con la versión 6.8.0 o una posterior, estará activada de forma predeterminada después de completar los pasos de la sección Antes de empezar.

Habilitar el linaje de datos de Dataplex Universal Catalog al crear una instancia

Consola

Para habilitar el linaje de datos de Dataplex Universal Catalog al crear una instancia, sigue estos pasos:

  1. Ve a la página Instancias de Cloud Data Fusion y haz clic en Crear una instancia.

    Crear una instancia

  2. Cuando configures la instancia, despliega la sección Opciones avanzadas y haz clic en Habilitar la integración con el linaje de datos de Dataplex. Para obtener más información sobre cómo crear instancias, consulta Crear una instancia pública.

API REST

Para habilitar el linaje de datos de Dataplex Universal Catalog al crear una instancia, defina la propiedad opcional dataplex_data_lineage_integration_enabled en true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desactivarlo, asigne el valor "false" a la propiedad u omítala, ya que el linaje está desactivado de forma predeterminada al crear una instancia.

Habilitar o inhabilitar el linaje de datos de Dataplex Universal Catalog en una instancia

Consola

Para habilitar o inhabilitar el linaje de datos de Dataplex Universal Catalog en una instancia de Cloud Data Fusion, sigue estos pasos:

  1. Para ver los detalles de la instancia, haz lo siguiente:
    1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.

    2. Haz clic en Instancias y, a continuación, en el nombre de la instancia para ir a la página Detalles de la instancia.

      Ir a Instancias

  2. En el campo Integración del linaje de datos de Dataplex, haga clic en Editar.
  3. Habilita o inhabilita el linaje de datos de Dataplex Universal Catalog y, a continuación, haz clic en Guardar.

API REST

Para habilitar el linaje de datos de Universal Catalog de Dataplex en una instancia de Cloud Data Fusion, asigna el valor true a la propiedad dataplex_data_lineage_integration_enabled e incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para inhabilitar el linaje de datos de Dataplex Universal Catalog en una instancia de Cloud Data Fusion, asigna el valor false a la propiedad dataplex_data_lineage_integration_enabled e incluye el valor del parámetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Ver gráficos de linaje de datos

Para ver los gráficos de linaje de las entidades de todos los Google Cloud servicios, haz lo siguiente:

  1. Ve a tu instancia de Cloud Data Fusion y ejecuta un flujo de procesamiento de datos que use complementos compatibles.

  2. Consulta los gráficos de linaje en la página Catálogo universal de Dataplex de la consola y busca el recurso del que quieras ver la información de linaje.

Limitaciones

Ver el linaje en Dataplex Universal Catalog tiene las siguientes limitaciones:

Siguientes pasos