Visualizar a linhagem no Dataplex

Nesta página, descrevemos como visualizar a linhagem de dados gerada pelos pipelines do Cloud Data Fusion com outros movimentos de dados no Google Cloud, para fins de descoberta e governança. É possível visualizar os gráficos de linhagem das fontes de dados compatíveis na página do Dataplex no console ou usar a API Data Lineage para recuperar registros de linhagem de dados completos.

Plug-ins com suporte à linhagem de dados do Dataplex

O Cloud Data Fusion e o Dataplex são compatíveis com a linhagem em nível de recurso para os seguintes plug-ins:

  • Amazon S3
  • BigQuery
  • Coletor de várias tabelas do BigQuery (versão 6.9.1 e mais recente)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Dataplex
  • FTP
  • Banco de dados genérico
  • HTTP
  • MSSQL/SQL Server
  • Fonte de várias tabelas de banco de dados (versão 6.9.1 e posteriores)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • ODP do SAP
  • Tabela SAP

Para mais informações, consulte Plug-ins do Cloud Data Fusion.

Antes de começar

Para ativar a visualização de gráficos de linhagem do Cloud Data Fusion na página do Dataplex no console, faça o seguinte:

  1. Crie um pipeline de dados que use apenas os plug-ins compatíveis.

  2. Ative a API Data Lineage no projeto que contém a instância do Cloud Data Fusion.

  3. Conceda o papel Produtor de eventos da linhagem de dados (roles/datalineage.producer) à conta serviço gerenciado do Cloud Data Fusion, ao Agente de serviço da API Cloud Data Fusion. O processo varia se a instância for executada em uma versão anterior do Cloud Data Fusion e o RBAC estiver ativado.

    6.10+ ou sem RBAC

    Se a instância do Cloud Data Fusion usar a versão 6.10.0 ou posterior, ou se a instância usar uma versão anterior e o RBAC não estiver ativado, siga estas etapas:

    1. No console do Google Cloud, abra a página IAM.

      Acessar IAM

    2. Marque a caixa de seleção Incluir concessões de papel fornecidas pelo Google.

    3. Selecione a conta de serviço do agente de serviço da API Cloud Data Fusion e clique em Editar.

    4. Clique em Adicionar outro papel e selecione o papel Produtor de eventos de linhagem de dados.

    5. Clique em Salvar.

    <6,10 com RBAC

    Se a instância do Cloud Data Fusion usar uma versão anterior à 6.10.0 e o RBAC estiver ativado, a conta de serviço não aparecerá na lista de principais na página do IAM. Você precisa inserir o nome da conta de serviço manualmente.

    Para conceder o papel necessário, siga estas etapas:

    1. No console do Google Cloud, abra a página IAM.

      Acessar IAM

    2. Clique em Conceder acesso.

    3. No campo Novas principais, insira a conta de serviço do agente de serviço da API Cloud Data Fusion. Use o seguinte formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Substitua TENANT_PROJECT_ID pelo ID do locatário da sua instância. Para ver o ID do projeto de locatário, acesse a página Instâncias e clique no nome da instância para ver os detalhes dela.

      Acesse "Instâncias"

    4. Selecione o papel Produtor de eventos de linhagem de dados.

    5. Clique em Salvar.

Ativar a linhagem de dados do Dataplex no Cloud Data Fusion

Para novas instâncias no Cloud Data Fusion, a linhagem de dados do Dataplex é desativada por padrão. Se você criou a instância antes de 27 de janeiro de 2024 com a versão 6.8.0 ou mais recente, ela será ativada por padrão depois de concluir as etapas em Antes de começar.

Ativar a linhagem de dados do Dataplex ao criar uma instância

Console

Para ativar a linhagem de dados do Dataplex ao criar uma instância, siga estas etapas:

  1. Acesse a página Instâncias do Cloud Data Fusion e clique em Criar uma instância.

    Criar uma instância

  2. Ao configurar a instância, expanda a seção Opções avançadas e clique em Ativar integração com a linhagem de dados do Dataplex. Para mais informações sobre como criar instâncias, consulte Criar uma instância pública.

API REST

Para ativar a linhagem de dados do Dataplex ao criar uma instância, defina a propriedade dataplex_data_lineage_integration_enabled opcional como true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desativá-la, defina a propriedade como falsa ou omita a propriedade, já que a linhagem é desativada por padrão quando você cria uma nova instância.

Ativar ou desativar a linhagem de dados do Dataplex em uma instância atual

Console

Para ativar ou desativar a linhagem de dados do Dataplex em uma instância atual no Cloud Data Fusion, siga estas etapas:

  1. Visualize os detalhes da instância:
    1. No console do Google Cloud, acesse a página do Cloud Data Fusion.

    2. Clique em Instâncias e no nome da instância para acessar a página Detalhes da instância.

      Acesse "Instâncias"

  2. No campo Integração da linhagem de dados do Dataplex, clique em Editar.
  3. Ative ou desative a linhagem de dados do Dataplex e clique em Salvar.

API REST

Para ativar a linhagem de dados do Dataplex em uma instância atual no Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled como true e inclua o valor do parâmetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para desativar a linhagem de dados do Dataplex em uma instância atual no Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled como false e inclua o valor do parâmetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Conferir gráficos de linhagem de dados

Para visualizar os gráficos de linhagem das entidades em todos os serviços do Google Cloud, faça o seguinte:

  1. Acesse sua instância no Cloud Data Fusion e execute um pipeline de dados que use plug-ins compatíveis.

  2. Veja os gráficos de linhagem na página do Dataplex no console e encontre o recurso com as informações de linhagem que você quer visualizar.

Limitações

A visualização da linhagem no Dataplex tem as seguintes limitações:

A seguir