Visualizza la derivazione in Dataplex

Questa pagina descrive come visualizzare la derivazione dei dati generata dalle tue pipeline Cloud Data Fusion con altri spostamenti di dati su Google Cloud, a fini di rilevamento e governance. Puoi visualizzare i grafici della cronologia per le origini dati supportate nella pagina Dataplex della console oppure utilizzare l'API Data Lineage per recuperare record completi della cronologia dei dati.

Plug-in che supportano la derivazione dei dati Dataplex

Cloud Data Fusion e Dataplex supportano la consistenza a livello di asset per i seguenti plug-in:

  • Amazon S3
  • BigQuery
  • Destinazione BigQuery Multi Table (versione 6.9.1 e successive)
  • Spanner
  • Cloud Storage
  • Cloud SQL per MySQL
  • Cloud SQL per PostgreSQL
  • Dataplex
  • FTP
  • Database generico
  • HTTP
  • MSSQL/SQL Server
  • Origine Più tabelle di database (versione 6.9.1 e successive)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • Tabella SAP

Per ulteriori informazioni, consulta Plug-in di Cloud Data Fusion.

Prima di iniziare

Per abilitare la visualizzazione dei grafici di eredità di Cloud Data Fusion nella pagina Dataplex della console, procedi nel seguente modo:

  1. Crea una pipeline di dati che utilizzi solo i plug-in supportati.

  2. Abilita l'API Data Lineage nel progetto che contiene l'istanza Cloud Data Fusion.

  3. Concedi il ruolo Produttore di eventi di eredità dei dati (roles/datalineage.producer) all'account di servizio gestito da Cloud Data Fusion, l'agente di servizio API Cloud Data Fusion. La procedura varia se l'istanza viene eseguita in una versione precedente di Cloud Data Fusion e se è abilitato il RBAC.

    6.10 o versioni successive o nessuna RBAC

    Se la tua istanza Cloud Data Fusion utilizza la versione 6.10.0 o successive o se utilizza una versione precedente e il RBAC non è abilitato, segui questi passaggi:

    1. Nella console Google Cloud, vai alla pagina IAM.

      Vai a IAM

    2. Seleziona la casella di controllo Includi concessioni di ruoli fornite da Google.

    3. Seleziona l'account di servizio Cloud Data Fusion API Service Agent e fai clic su Modifica.

    4. Fai clic su Aggiungi un altro ruolo e seleziona il ruolo Produttore di eventi di eredità dei dati.

    5. Fai clic su Salva.

    <6.10 con RBAC

    Se la tua istanza Cloud Data Fusion utilizza una versione precedente alla 6.10.0 e il RBAC è abilitato, l'account di servizio non viene visualizzato nell'elenco dei principali nella pagina IAM. Devi inserire manualmente il nome dell'account di servizio.

    Per concedere il ruolo richiesto:

    1. Nella console Google Cloud, vai alla pagina IAM.

      Vai a IAM

    2. Fai clic su Concedi accesso.

    3. Nel campo Nuove entità, inserisci l'account di servizio Agente di servizio dell'API Cloud Data Fusion. Utilizza il formato seguente: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Sostituisci TENANT_PROJECT_ID con l'ID tenant della tua istanza. Per visualizzare l'ID progetto del tenant, vai alla pagina Istanze e fai clic sul nome dell'istanza per visualizzarne i dettagli.

      Vai a Istanze

    4. Seleziona il ruolo Data Lineage Events Producer.

    5. Fai clic su Salva.

Attivare la derivazione dei dati Dataplex in Cloud Data Fusion

Per le nuove istanze in Cloud Data Fusion, la derivazione dei dati Dataplex è disattivata per impostazione predefinita. Se hai creato l'istanza prima del 27 gennaio 2024 con la versione 6.8.0 o successive, è attiva per impostazione predefinita dopo aver completato i passaggi descritti in Prima di iniziare.

Attivare la derivazione dei dati Dataplex quando crei un'istanza

Console

Per attivare la derivazione dei dati Dataplex quando crei un'istanza, segui questi passaggi:

  1. Vai alla pagina Istanze di Cloud Data Fusion e fai clic su Crea un'istanza.

    Crea un'istanza

  2. Quando configuri l'istanza, espandi la sezione Opzioni avanzate e fai clic su Abilita l'integrazione con la derivazione dei dati Dataplex. Per ulteriori informazioni sulla creazione di istanze, vedi Creare un'istanza pubblica.

API REST

Per attivare la derivazione dei dati Dataplex quando crei un'istanza, imposta la proprietà facoltativa dataplex_data_lineage_integration_enabled su true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Per disattivarla, imposta la proprietà su false o omettila, poiché la consistenza è disattivata per impostazione predefinita quando crei una nuova istanza.

Attivare o disattivare la derivazione dei dati Dataplex in un'istanza esistente

Console

Per attivare o disattivare la derivazione dei dati Dataplex in un'istanza esistente in Cloud Data Fusion:

  1. Visualizza i dettagli dell'istanza:
    1. Nella console Google Cloud, vai alla pagina Cloud Data Fusion.

    2. Fai clic su Istanze, quindi sul nome dell'istanza per andare alla pagina Dettagli istanza.

      Vai a Istanze

  2. Nel campo Integrazione della derivazione dei dati Dataplex, fai clic su Modifica.
  3. Abilita o disattiva la derivazione dei dati Dataplex e poi fai clic su Salva.

API REST

Per attivare la derivazione dei dati Dataplex in un'istanza esistente in Cloud Data Fusion, imposta la proprietà dataplex_data_lineage_integration_enabled su true e includi il valore del parametro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Per disattivare la derivazione dei dati Dataplex in un'istanza esistente in Cloud Data Fusion, imposta la proprietà dataplex_data_lineage_integration_enabled su false e includi il valore del parametro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Visualizzare i grafici della derivazione dei dati

Per visualizzare i grafici della struttura per le entità in tutti i Google Cloud servizi, segui questi passaggi:

  1. Vai alla tua istanza in Cloud Data Fusion ed esegui una pipeline di dati che utilizza i plug-in supportati.

  2. Visualizza i grafici della cronologia nella pagina Dataplex della console e individua la risorsa per cui vuoi visualizzare le informazioni sulla cronologia.

Limitazioni

La visualizzazione della derivazione in Dataplex presenta le seguenti limitazioni:

Passaggi successivi