Nesta página, descrevemos como visualizar a linhagem de dados gerada pelo seu pipelines do Cloud Data Fusion com outros movimentos de dados no Google Cloud, para fins de descoberta e governança. É possível visualizar os gráficos de linhagem das fontes de dados com suporte na página do Dataplex no console ou usar a API Data Lineage para extrair registros completos de linhagem de dados.
Plug-ins que oferecem suporte à linhagem de dados do Dataplex
O Cloud Data Fusion e o Dataplex são compatíveis com o nível de recursos linhagem para os seguintes plug-ins:
- Amazon S3
- BigQuery
- Coletor de várias tabelas do BigQuery (versão 6.9.1 e mais recentes)
- Spanner
- Cloud Storage
- Cloud SQL para MySQL
- Cloud SQL para PostgreSQL
- Dataplex
- FTP
- Banco de dados genérico
- HTTP
- MSSQL/SQL Server
- Origem de várias tabelas de banco de dados (versão 6.9.1 e mais recentes)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- ODP do SAP
- Tabela SAP
Para mais informações, consulte Plug-ins do Cloud Data Fusion.
Antes de começar
Para ativar a visualização dos gráficos de linhagem do Cloud Data Fusion na página do Dataplex no console, faça o seguinte:
Crie um pipeline de dados que use apenas os plug-ins compatíveis.
Ative a API Data Lineage no projeto que contém seu instância do Cloud Data Fusion.
Conceda o papel de produtor de eventos de linhagem de dados (
roles/datalineage.producer
) à conta de serviço gerenciada pelo Cloud Data Fusion, o agente de serviço da API Cloud Data Fusion. O processo varia se a instância for executada em uma versão anterior do O Cloud Data Fusion e o RBAC estão ativados.6.10 ou mais recente ou sem RBAC
Se a instância do Cloud Data Fusion usa a versão 6.10.0 ou mais recente ou usa uma versão anterior e o RBAC não está ativado, siga estas etapas:
No console do Google Cloud, abra a página IAM.
Marque a caixa de seleção Incluir concessões de papel fornecidas pelo Google.
Selecione a conta de serviço do agente de serviço da API Cloud Data Fusion e clique em
Editar.Clique em Adicionar outro papel e selecione os Eventos de linhagem de dados Producer.
Clique em Salvar.
<6.10 com RBAC
Se a instância do Cloud Data Fusion usar uma versão anterior à 6.10.0 e o RBAC estiver ativado, a conta de serviço não vai aparecer na lista de principais na página do IAM. Você deve inserir o o nome da conta de serviço manualmente.
Para conceder o papel necessário, siga estas etapas:
No console do Google Cloud, abra a página IAM.
Clique em Conceder acesso.
No campo Novos principais, insira a conta de serviço do agente de serviço da API Cloud Data Fusion. Use o seguinte formato:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
.Substitua
TENANT_PROJECT_ID
pelo ID do locatário da sua instância. Para acessar o ID do projeto de locatário, acesse página Instâncias e clique no nome da instância detalhes.Selecione o papel Produtor de eventos de linhagem de dados.
Clique em Salvar.
Ativar a linhagem de dados do Dataplex no Cloud Data Fusion
Para novas instâncias no Cloud Data Fusion, a linhagem de dados do Dataplex é desativada por padrão. Se você criou a instância antes de 27 de janeiro de 2024 com a versão 6.8.0 ou mais recente, ela será ativada por padrão após a conclusão das etapas em Antes de começar.
Ativar a linhagem de dados do Dataplex ao criar uma instância
Console
Para ativar a linhagem de dados do Dataplex ao criar uma instância, faça o seguinte: siga estas etapas:
Acesse a página Instâncias do Cloud Data Fusion e clique em Criar uma instância.
Ao configurar a instância, expanda a seção Opções avançadas. e clique em Ativar a integração com a linhagem de dados do Dataplex. Para mais informações sobre como criar instâncias, consulte Criar uma instância pública.
API REST
Para ativar a linhagem de dados do Dataplex ao criar uma instância, faça o seguinte:
Defina a propriedade dataplex_data_lineage_integration_enabled
opcional como
true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Para desativá-la, defina a propriedade como falsa ou omita a propriedade, conforme a linhagem é desativada por padrão quando você cria uma nova instância.
Ativar ou desativar a linhagem de dados do Dataplex em uma instância atual
Console
Para ativar ou desativar a linhagem de dados do Dataplex em uma instância atual no Cloud Data Fusion, siga estas etapas:
- Veja os detalhes da instância:
No console do Google Cloud, acesse a página do Cloud Data Fusion.
Clique em Instâncias e no nome da instância para acessar a página Detalhes da instância.
- No campo Integração da linhagem de dados do Dataplex, clique em Editar.
- Ative ou desative a linhagem de dados do Dataplex e clique em Salvar.
API REST
Para ativar a linhagem de dados do Dataplex em uma instância atual no Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled
como true
e inclua o valor do parâmetro updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Para desativar a linhagem de dados do Dataplex em uma instância atual no
Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled
como false
e inclua o valor do parâmetro updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Conferir gráficos de linhagem de dados
Para conferir gráficos de linhagem de entidades em todos os serviços do Google Cloud, faça o seguinte:
Acesse sua instância no Cloud Data Fusion e execute um pipeline de dados que usa plug-ins compatíveis.
Confira os gráficos de linhagem na página do Dataplex no console e encontre o recurso para o qual você quer ver as informações de linhagem.
Limitações
A visualização da linhagem no Dataplex tem as seguintes limitações:
A linhagem no Dataplex só é detectável se houver Entidade do BigQuery conectada aos plug-ins compatíveis. Para mais informações sobre quando os gráficos de linhagem de dados estão disponíveis, consulte Sobre a linhagem de dados.
A API Data Lineage não oferece suporte a chaves de criptografia gerenciadas pelo cliente (CMEK).
O Cloud Data Fusion não oferece suporte a esse recurso em
me-central1
oueurope-west12
locais.Analise o considerações sobre a linhagem de dados.
A seguir
- Saiba mais sobre a linhagem de dados.