Resolva problemas de linhagem de dados

Este documento descreve como resolver problemas com a linhagem de dados do Dataplex Universal Catalog.

Tipos de projetos

Os recursos de dados podem residir em projetos diferentes. Segue-se um resumo dos possíveis projetos e respetivos nomes dos recursos.

Projeto de armazenamento do BigQuery

Este projeto armazena os seus recursos de dados do BigQuery. Pode encontrá-lo nos detalhes do recurso como parte de Table ID, antes do primeiro ponto.

Na IU do BigQuery, o nome do projeto de armazenamento é apresentado no campo
    ID da tabela, antes do primeiro ponto no nome da tabela totalmente qualificado.
Figura 1. O nome de um projeto de armazenamento do BigQuery.

Projeto de computação

Este projeto armazena os metadados de linhagem de dados. No BigQuery, é aqui que executa uma tarefa. Se executar uma tarefa através da Google Cloud consola, pode encontrar o nome do projeto de computação no seletor de projetos:

A IU do BigQuery mostra um projeto de computação denominado docs-compute na página onde executa consultas SQL.
Figura 2. O nome de um projeto de computação que executa tarefas do BigQuery.

Quando enviar pedidos para a API BigQuery, especifique o projeto de computação no URL, por exemplo:

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Projeto ativo

Este é o projeto a partir do qual está a ver a linhagem de dados. A Google Cloud consola mostra o projeto ativo no seletor de projetos. Se estiver a usar a API, o projeto ativo é o projeto a partir do qual está a fazer chamadas API.

A IU do BigQuery mostra a linhagem de dados de um conjunto de dados denominado source-001, que está num projeto denominado docs-source.
Figura 3. O projeto ativo na Google Cloud consola.

A linhagem de dados do BigQuery não é apresentada

O seguinte problema ocorre após a execução de uma tarefa do BigQuery. Neste caso, o problema pode ser causado por três cenários:

Se vir a mensagem "A obtenção da linhagem falhou devido a autorizações em falta" na parte inferior da página, significa que tem autorizações em falta no projeto ativo. Caso contrário, não tem as autorizações necessárias no projeto de computação.

Um gráfico de linhagem vazio.
Figura 4. Exemplo de linhagem que não é apresentada na IU do BigQuery.

Para resolver este problema, verifique se a API Data Lineage está ativada para o projeto de computação. Depois de ativar a API, tem de executar uma tarefa para ver a linhagem de dados. Consoante o volume e a complexidade dos dados que estão a ser processados, a linhagem de dados pode demorar entre 30 minutos e 24 horas a ser apresentada.

Em seguida, verifique se a API Data Lineage está ativada para o projeto ativo.

Quando a API Data Lineage está ativada, conceda a função de visitante do Data Lineage (roles/datalineage.viewer) nos projetos ativos e de computação.

Os metadados do processo do BigQuery não são apresentados

O seguinte problema ocorre quando abre o painel de detalhes da tabela, que não mostra todos os detalhes, como a declaração SQL ou a propriedade Process type. Isto acontece apesar de a linhagem de dados ser apresentada corretamente.

Isto pode acontecer quando não tem autorizações para ver metadados no projeto de computação.

Exemplo:

Se clicar nos detalhes do processo do BigQuery, é apresentada a seguinte mensagem na Google Cloud consola:

You don't have permission to view BigQuery process metadata in project X.
Na IU do BigQuery, no separador Linhagem, o painel Detalhes mostra uma mensagem de erro.
Figura 5. Exemplo de detalhes do processo do BigQuery que não são apresentados na IU do BigQuery.

Para resolver este problema, conceda ao utilizador a autorização bigquery.jobs.get (por exemplo, incluída na função Visitante de recursos do BigQuery) no projeto de computação.

Os detalhes da tabela do BigQuery não são apresentados

O problema seguinte ocorre quando abre o painel de detalhes da tabela, que mostra apenas a propriedade Fully qualified name. Isto acontece apesar de a origem dos dados ser apresentada corretamente. Isto pode acontecer quando não tem todas as autorizações necessárias nos projetos de armazenamento da tabela.

Exemplo:

Neste caso, quando clica nos detalhes do nó do BigQuery, pode ver uma mensagem Entry with this fully qualified name is not available in Dataplex Universal Catalog or you do not have permissions to view it.

Os detalhes da tabela do BigQuery não são apresentados.
Figura 6. Exemplo de detalhes da tabela do BigQuery que não são apresentados na IU do BigQuery.

Para resolver este problema, conceda as bigquery.tables.getautorizações (por exemplo, incluídas na função de visualizador de dados do BigQuery) no projeto de armazenamento.