Esta página descreve como ver a linhagem de dados gerada pelos seus pipelines do Cloud Data Fusion com outros movimentos de dados no Google Cloud, para fins de deteção e administração. Pode ver os gráficos de linhagem para origens de dados suportadas na página Catálogo universal do Dataplex na consola ou usar a API Data Lineage para obter registos de linhagem de dados completos.
Plugins que suportam a linhagem de dados do catálogo universal do Dataplex
O Cloud Data Fusion e o Dataplex Universal Catalog suportam a linhagem ao nível do recurso para os seguintes plug-ins:
- Amazon S3
- BigQuery
- Destino de várias tabelas do BigQuery (versão 6.9.1 e posterior)
- Spanner
- Cloud Storage
- Cloud SQL para MySQL
- Cloud SQL para PostgreSQL
- Dataplex Universal Catalog
- FTP
- Base de dados genérica
- HTTP
- MSSQL/SQL Server
- Origem de várias tabelas de base de dados (versão 6.9.1 e posterior)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Tabela SAP
Para mais informações, consulte os plug-ins do Cloud Data Fusion.
Antes de começar
Para ativar a visualização de gráficos de linhagem do Cloud Data Fusion na página do catálogo universal do Dataplex na consola, faça o seguinte:
Crie um pipeline de dados que use apenas os plug-ins suportados.
Ative a API Data Lineage no projeto que contém a sua instância do Cloud Data Fusion.
Conceda a função de produtor de eventos de linhagem de dados (
roles/datalineage.producer
) à conta de serviço gerida pelo Cloud Data Fusion, o agente do serviço API Cloud Data Fusion. O processo varia se a sua instância for executada numa versão anterior do Cloud Data Fusion e o RBAC estiver ativado.6.10 ou sem RBAC
Se a sua instância do Cloud Data Fusion usar a versão 6.10.0 ou posterior, ou se a sua instância usar uma versão anterior e o RBAC não estiver ativado, siga estes passos:
Na Google Cloud consola, aceda à página IAM.
Selecione a caixa de verificação Incluir concessões de funções fornecidas pela Google.
Selecione a conta de serviço do agente de serviço da API Cloud Data Fusion e clique em
Editar.Clique em Adicionar outra função e selecione a função Data Lineage Events Producer.
Clique em Guardar.
<6.10 com RBAC
Se a sua instância do Cloud Data Fusion usar uma versão anterior a 6.10.0 e o RBAC estiver ativado, a conta de serviço não aparece na lista de responsáveis na página do IAM. Tem de introduzir o nome da conta de serviço manualmente.
Para conceder a função necessária, siga estes passos:
Na Google Cloud consola, aceda à página IAM.
Clique em Conceder acesso.
No campo Novos membros, introduza a conta de serviço do agente de serviço da API Cloud Data Fusion. Use o seguinte formato:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
.Substitua
TENANT_PROJECT_ID
pelo ID do inquilino da sua instância. Para ver o ID do projeto de inquilino, aceda à página Instâncias e clique no nome da instância para ver os detalhes da instância.Selecione a função Produtor de eventos de linhagem de dados.
Clique em Guardar.
Ative a linhagem de dados do catálogo universal do Dataplex no Cloud Data Fusion
Para novas instâncias no Cloud Data Fusion, a linhagem de dados do Dataplex Universal Catalog está desativada por predefinição. Se criou a instância antes de 27 de janeiro de 2024 com a versão 6.8.0 ou posterior, esta é ativada por predefinição após concluir os passos em Antes de começar.
Ative a linhagem de dados do catálogo universal do Dataplex quando criar uma instância
Consola
Para ativar a linhagem de dados do catálogo universal do Dataplex quando cria uma instância, siga estes passos:
Aceda à página Instances do Cloud Data Fusion e clique em Create an instance.
Quando configurar a instância, expanda a secção Opções avançadas e clique em Ativar integração com a linhagem de dados do Dataplex. Para mais informações sobre a criação de instâncias, consulte o artigo Crie uma instância pública.
API REST
Para ativar a linhagem de dados do catálogo universal do Dataplex quando cria uma instância,
defina a propriedade opcional dataplex_data_lineage_integration_enabled
como
true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Para a desativar, defina a propriedade como falsa ou omita a propriedade, uma vez que a linhagem está desativada por predefinição quando cria uma nova instância.
Ative ou desative a linhagem de dados do catálogo universal do Dataplex numa instância existente
Consola
Para ativar ou desativar a linhagem de dados do catálogo universal do Dataplex numa instância existente no Cloud Data Fusion, siga estes passos:
- Veja os detalhes da instância:
Na Google Cloud consola, aceda à página do Cloud Data Fusion.
Clique em Instâncias e, de seguida, clique no nome da instância para aceder à página Detalhes da instância.
- No campo Integração da linhagem de dados do Dataplex, clique em Editar.
- Ative ou desative a linhagem de dados do catálogo universal do Dataplex e, de seguida, clique em Guardar.
API REST
Para ativar a linhagem de dados do catálogo universal do Dataplex numa instância existente no
Cloud Data Fusion, defina a dataplex_data_lineage_integration_enabled
propriedade como true
e inclua o valor do parâmetro updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Para desativar a linhagem de dados do catálogo universal do Dataplex numa instância existente no Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled
como false
e inclua o valor do parâmetro updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Veja gráficos de linhagem de dados
Para ver gráficos de linhagem de entidades em todos os Google Cloud serviços, faça o seguinte:
Aceda à sua instância no Cloud Data Fusion e execute um pipeline de dados que use plug-ins suportados.
Veja os gráficos de linhagem na página Catálogo universal do Dataplex na consola e encontre o recurso para o qual quer ver informações de linhagem.
Limitações
A visualização da linhagem no catálogo universal do Dataplex tem as seguintes limitações:
A linhagem no catálogo universal do Dataplex só é detetável se existir uma entidade do BigQuery associada aos plug-ins suportados. Para mais informações sobre quando os gráficos de linhagem de dados estão disponíveis, consulte Acerca da linhagem de dados.
A API Data Lineage não suporta chaves de encriptação geridas pelo cliente (CMEK).
O Cloud Data Fusion não suporta esta funcionalidade nas localizações
me-central1
oueurope-west12
.Reveja as considerações sobre a linhagem de dados.
O que se segue?
- Saiba mais sobre a linhagem de dados.