Acerca da visualização da linhagem

A linhagem de dados ajuda a compreender como os dados se movem através dos seus sistemas, acompanhando as relações entre os recursos de dados e os processos que os transformam. Pode ver estas informações de linhagem como gráficos e listas na Google Cloud consola.

Este documento fornece uma vista geral do modelo de informações de linhagem de dados, detalhes sobre a granularidade da linhagem ao nível da tabela e da coluna, e instruções sobre a utilização das vistas de gráfico e de lista para explorar a linhagem de dados.

Modelo de informações de linhagem de dados

A linhagem é um registo de dados que são transformados de origens em destinos. A API Data Lineage recolhe estas informações e organiza-as num modelo de dados hierárquico que usa os conceitos de processos, execuções e eventos.

  • Processo: uma definição de transformação de dados.
  • Execução: uma execução de um processo.
  • Evento: um registo do movimento de dados durante uma execução.

Processo

Um processo é a definição de uma operação de transformação de dados para um sistema específico. Para a linhagem do BigQuery, um processo é uma tarefa de um tipo de tarefa suportado. Todas as execuções da mesma consulta SQL estão associadas a um único processo, o que lhe permite acompanhar todas as instâncias em que é usada uma lógica de transformação específica.

Por exemplo, a seguinte consulta SQL é um processo. Esta consulta cria uma tabela que conta o número total de viagens para cada fornecedor a partir de duas tabelas de origem.

  CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
  AS
  SELECT
      vendor_id,
      COUNT(*) AS number_of_trips
  FROM
      (
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
          UNION ALL
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
      )
  GROUP BY
      vendor_id;

O formato do nome do recurso REST para um processo é projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID.

Por exemplo: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6

Para mais informações sobre o recurso process, consulte a referência do recurso Process.

Execução

Uma execução é uma única execução de um processo. Os processos podem ter várias execuções.

Cada execução é uma operação única caraterizada por um startTime, um endTime e um estado final, como COMPLETED, FAILED ou ABORTED.

Por exemplo, a execução da consulta SQL da secção Processo às 09:00 cria uma execução específica. A execução da mesma consulta novamente às 10:00 cria uma execução nova e distinta. Ambas as execuções estão associadas ao mesmo processo principal.

O formato do nome do recurso REST para uma execução mostra que é um elemento subordinado de um processo: projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID.

Por exemplo: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1

Para mais informações sobre o recurso run, consulte a referência do recurso Run.

Evento

Um evento representa um ponto no tempo em que uma transformação de dados move dados entre uma origem e uma entidade de destino. Um evento é um registo detalhado de um movimento de dados específico que associa tabelas de origem e de destino para uma execução específica. Um evento também pode ter várias origens e destinos.

Por exemplo, se a sua execução executar a consulta SQL abordada na secção Processar, um evento de linhagem regista que as tabelas de origem nyc_green_trips_2021 e nyc_green_trips_2022 são usadas para criar a tabela de destino total_green_trips_22_21.

Um evento de linhagem contém uma lista de associações que definem a origem e o destino. Os eventos são usados para criar gráficos de linhagem. Embora a Google Cloud consola apresente estes gráficos de linhagem, não apresenta diretamente eventos individuais. Pode criar, ler e eliminar eventos, mas não atualizá-los através da API Data Lineage.

Cada associação num evento define um único caminho de fluxo de dados de uma entidade de origem para uma entidade de destino. Uma entidade é uma referência a um recurso de dados, como uma tabela do BigQuery, e é identificada pelo respetivo nome totalmente qualificado (FQN). Um único evento pode conter vários links, o que é comum em operações como junções de tabelas em que várias origens contribuem para um destino.

Para detalhes sobre como os eventos suportam a linhagem ao nível da coluna, consulte o artigo Linhagem ao nível da coluna.

Nível de detalhe da linhagem

A linhagem de dados permite-lhe rastrear a origem e o caminho de transformação dos seus dados ao nível da tabela e da coluna.

Linha de descendência ao nível da tabela

A linhagem ao nível da tabela oferece uma vista geral das suas condutas de dados, mostrando as relações entre tabelas inteiras. Use a linhagem ao nível da tabela para tarefas ao nível macro, como as seguintes:

  • Descoberta de dados. Um analista que cria um novo painel de controlo pode usar a linhagem ao nível da tabela para rastrear uma tabela de resumo até às respetivas origens e confirmar que os dados têm origem numa base de dados autorizada.

  • Planeamento da migração. Um administrador de base de dados que planeia migrar uma base de dados principal pode usar a linhagem ao nível da tabela para identificar todos os relatórios e painéis de controlo a jusante que dependem dela.

  • Auditoria e governação. Um administrador de dados pode usar a linhagem ao nível da tabela e da coluna para verificar como os dados de uma tabela que contém informações de identificação pessoal (PII) fluem através de um pipeline.

Linha de dados ao nível da coluna

A linhagem ao nível da coluna oferece uma vista mais detalhada ao acompanhar o fluxo de dados entre colunas individuais. Nesta vista, os links num evento de linhagem representam a relação entre uma coluna de origem e uma coluna de destino. Cada um destes links ao nível da coluna tem um tipo de dependência que descreve a transformação:

  • Exact copy: os valores são copiados entre colunas.

  • Other: outros tipos de dependências entre colunas.

Use a linhagem ao nível da coluna para tarefas como as seguintes:

  • Análise da causa principal. Se um analista de dados encontrar um valor incorreto numa coluna, pode usar a linhagem ao nível da coluna para rastreá-lo até às colunas de origem e encontrar a causa principal.

  • Análise de impacto. Antes de um engenheiro de dados descontinuar uma coluna, pode usar a linhagem ao nível da coluna para encontrar todas as colunas a jusante que dependem dela.

  • Validação da origem de dados para métricas. Um analista de dados pode usar a linhagem ao nível da coluna para identificar que colunas de origem são usadas para calcular uma métrica sem decifrar uma consulta SQL complexa.

A linhagem ao nível da coluna é recolhida automaticamente para os seguintes tipos de tarefas do BigQuery:

Vistas de linhagem na Google Cloud consola

A linhagem de dados na Google Cloud consola permite-lhe interagir com informações de linhagem de duas formas: pode explorar o gráfico de linhagem em várias regiões disponíveis ou pode usar o painel Explorador de linhagem para obter uma vista mais focada numa região específica. Também pode alternar entre a vista de gráfico e a vista de lista para analisar o fluxo de dados a diferentes níveis de detalhe.

As vistas de linhagem só estão disponíveis para entradas do catálogo universal do Dataplex, recursos do BigQuery e recursos do Vertex AI (modelos, conjuntos de dados, vistas da loja de funcionalidades e grupos de funcionalidades).

Para ver as diferentes vistas abordadas nesta página, consulte o artigo Use a linhagem de dados com Google Cloud sistemas.

Vista de gráfico de linhagem

A vista Gráfico visualiza o fluxo e as relações dos recursos de dados em sistemas e regiões, ajudando a compreender a arquitetura de dados, rastrear origens e destinos, e identificar padrões. Estes gráficos de linhagem, gerados pelo serviço Data Lineage API para uma entrada específica do Dataplex Universal Catalog, mostram como os dados são transformados ao longo do tempo, apresentando fluxos a montante, a jusante ou ambos a partir de uma entrada raiz selecionada.

A API Data Lineage recebe automaticamente informações de recursos de sistemas suportados e através de chamadas de API para origens personalizadas.

Os elementos principais no gráfico são descritos da seguinte forma:

  • Nós. Representar as entidades de dados. Numa vista ao nível da tabela, um nó mostra o nome da tabela e as respetivas colunas. Numa vista ao nível da coluna, cada nó representa uma tabela e uma coluna específicas.

  • Limites. As linhas que ligam os nós e representam os processos que ocorrem entre eles. O aspeto de uma aresta depende da vista de linhagem:

    • Na vista ao nível da tabela, os limites têm ícones para indicar as transformações de dados.
    • Na vista ao nível da coluna, os limites têm etiquetas para indicar as transformações de dados. Por exemplo, uma etiqueta de aresta pode dizer Exact copy para descrever como uma coluna de origem foi copiada para uma coluna de destino.
  • Processar ícones e etiquetas. Aparecem nas extremidades para fornecer mais informações acerca da transformação.

    • Ícones. Representar o processo de transformação. Quando explora manualmente o gráfico, os ícones nas arestas representam o sistema de origem do processo (por exemplo, o BigQuery ou o Vertex AI). Se estiverem envolvidos vários processos, é apresentado um ícone de "vários processos". Se o sistema de origem do processo for desconhecido, é usado um ícone de engrenagem. Quando aplica filtros, é usado um ícone de roda dentada para todos os processos.
    • Etiquetas. Na vista de linhagem ao nível da coluna, uma etiqueta descreve o tipo de dependência entre colunas: Exact copy ou Other.

Explore manualmente o gráfico de linhagem

Quando abre o separador Linha de descendência, vê a vista Gráfico predefinida. A vista predefinida oferece uma vista geral de alto nível em todos os sistemas e regiões, com uma expansão manual e incremental do gráfico que pode carregar cinco nós de cada vez. Os ícones de processamento nas extremidades representam o sistema de origem ou indicam vários processos.

Uma vista de gráfico de linhagem predefinida que mostra recursos de dados interligados.
Vista predefinida do gráfico de linhagem

Aplique filtros para uma vista de linhagem focada

Para filtrar dados de linhagem para uma análise focada numa região específica, use o painel Explorador de linhagem. Seguem-se alguns critérios que pode usar para mudar para uma vista focada:

  • Nome da coluna: filtre a linhagem pelo nome da coluna para ver detalhes ao nível da coluna.
  • Direção: mostrar a linhagem a montante ou a jusante, ou ambas.
  • Intervalo de tempo: filtre a linhagem com base numa hora de início ou de fim específica.
  • Tipo de dependência: filtre a linhagem ao nível da coluna com base no tipo de dependência. Alguns exemplos de opções disponíveis são All ou Exact copy.
O painel do explorador de linhagem mostra filtros para linhagem ao nível da coluna, direção e intervalo de tempo.
Painel do Explorador de linhagem

A vista focada expande automaticamente o gráfico até três níveis, carregando toda a linhagem que corresponda aos critérios de filtro. Suporta a linhagem ao nível da tabela e da coluna, incluindo a visualização do caminho de qualquer nó selecionado até à raiz. Nesta vista focada, é usado um ícone de engrenagem genérico para todos os processos.

Uma vista de gráfico de linhagem focada que mostra recursos de dados filtrados.
Vista de gráfico de linhagem ao nível da tabela focada

Para ver a linhagem ao nível da coluna, pode seguir um dos seguintes métodos:

  • Numa vista de Gráfico focada, clique no ícone de coluna numa tabela para mudar para a linhagem ao nível da coluna.

    Ícone usado para mudar para a linhagem ao nível da coluna.
    Ícone de coluna
  • Na vista de gráfico predefinida ou na vista de gráfico focada, aplique um nome de coluna no painel do Explorador de linhagem.

Um gráfico de linhagem que mostra as relações ao nível da coluna entre tabelas.
Vista de linhagem ao nível da coluna

Para remover todos os filtros e voltar à vista predefinida, clique em repor.

Detalhes do nó

Para ver os detalhes de um nó, clique no nó. É apresentado um painel lateral com informações detalhadas sobre o recurso de dados selecionado. Por exemplo, numa vista de linhagem ao nível da tabela, clicar num nó apresenta informações como o nome totalmente qualificado, o tipo e outros atributos relevantes do recurso.

Painel de detalhes de um nó selecionado no gráfico de linhagem.
Detalhes do nó

Auditoria e histórico de execuções

Um gráfico de linhagem completo é o resultado de execuções de muitas tarefas diferentes, com cada tarefa a criar um link específico no gráfico. As execuções múltiplas são registadas como novas execuções, mas não alteram o aspeto estático do gráfico.

Para ver os detalhes destas execuções individuais, clique num limite com um processo no gráfico. No painel Consulta apresentado, clique no separador Execuções.

O painel de consultas que mostra o separador Detalhes e execuções.
Painel de consultas

Inspecione a lógica de transformação

Para compreender a lógica de negócio de uma transformação sem pesquisar o código, pode ver a consulta SQL exata que foi executada. Para ver o código SQL, clique numa aresta com um processo no gráfico. No painel lateral apresentado, clique no separador Detalhes.

Visualização do caminho de linhagem

A visualização do caminho de linhagem ajuda a traçar o caminho de qualquer nó selecionado no gráfico até à entrada raiz. Quando seleciona um nó e clica em Visualizar caminho, o gráfico realça apenas os nós e os processos que formam o caminho de linhagem direto para a entrada raiz.

Para ver a visualização do caminho de linhagem, no painel Explorador de linhagem, aplique um filtro para criar uma vista de gráfico focada. Em seguida, na vista Gráfico focada, selecione um nó. No painel de detalhes do nó selecionado, clique em Visualizar caminho.

A visualização do caminho de linhagem está disponível para a linhagem ao nível da tabela e da coluna. Também pode usar a visualização do caminho de linhagem na vista de lista.

Botão de visualização do caminho de linhagem na vista de gráfico de linhagem ao nível da coluna.
Botão de visualização do caminho de linhagem na vista do gráfico de linhagem ao nível da coluna

Vista de lista de linhagem

A vista Lista oferece uma representação estruturada em tabela da linhagem, sincronizada com a vista Gráfico. Facilita a ordenação, a filtragem e a transferência de recursos de dados. Esta vista é ideal para analisar relações de origem-destino, detalhar os recursos envolvidos e exportar dados de linhagem.

A vista Lista está disponível para a linhagem ao nível da tabela e da coluna. Pode alternar entre as seguintes vistas de lista detalhadas e simplificadas.

  • Vista de lista simplificada: esta vista é útil para obter uma lista condensada e única de todos os recursos envolvidos na linhagem. As colunas, como Sistema, Projeto, Entidade, FQN (nome totalmente qualificado), Direção e Profundidade, ajudam a ver todos os recursos de dados na linhagem, onde residem, a respetiva origem original e a distância do recurso central que está a ser analisado. É ideal para uma vista geral de alto nível de todas as entidades que participam no fluxo de dados. É a vista predefinida.

  • Vista de lista detalhada: esta vista foi concebida para analisar relações de origem-destino individuais. Ao fornecer colunas separadas para Origem e Destino, pode ver cada associação de transformação de dados específica. Esta vista é ideal para tarefas que exigem uma compreensão detalhada de como os dados se movem entre pares específicos de recursos, como a auditoria de fluxos de dados individuais, a compreensão das dependências entre tabelas ou a exportação de registos de linhagem detalhados para cada associação.

Vista de lista de linhagem ao nível da tabela

Esta vista mostra as relações entre tabelas como um todo. Use os filtros fornecidos para selecionar as colunas de que precisa.

Uma tabela que mostra a vista de lista de linhagem simplificada ao nível da tabela.
Vista de lista simplificada ao nível da tabela

Expanda as secções seguintes para ver as colunas disponíveis nas vistas de lista ao nível da tabela.

Colunas disponíveis na vista de lista simplificada ao nível da tabela

  • Sistema: o sistema onde o recurso de dados está localizado. Exemplos: BigQuery.
  • Projeto: o Google Cloud ID do projeto que contém o recurso de dados.
  • Entidade: o nome do recurso de dados. Os exemplos incluem um nome de tabela.
  • FQN: o nome totalmente qualificado (FQN) da entidade ou coluna de origem original.
  • Direction: indica se o recurso listado está a montante (origem) ou a jusante (destino) no fluxo de linhagem.
  • Profundidade: o número de passos de linhagem a partir do ativo central que está a ser analisado.

Colunas disponíveis na vista de lista detalhada ao nível da tabela

  • Sistema de origem: o sistema onde se encontra o recurso de dados de origem. Os exemplos incluem o BigQuery.
  • Projeto de origem: o Google Cloud ID do projeto que contém o recurso de dados de origem.
  • Origem: o nome do recurso de dados de origem. Os exemplos incluem um nome de tabela.
  • FQDN de origem: o FQDN da entidade de origem.
  • Sistema de destino: o sistema onde o recurso de dados de destino está localizado. Os exemplos incluem o BigQuery.
  • Projeto de destino: o Google Cloud ID do projeto que contém o recurso de dados de destino.
  • Destino: o nome do recurso de dados de destino. Os exemplos incluem um nome de tabela.
  • FQN de destino: o FQN da entidade de destino.
  • Direction: indica se o recurso listado está a montante (origem) ou a jusante (destino) no fluxo de linhagem.
  • Profundidade: o número de passos de linhagem a partir do ativo central que está a ser analisado.

Vista de lista de linhagem ao nível da coluna

Esta vista mostra as relações entre colunas individuais nas tabelas de origem e de destino. Use os filtros fornecidos para selecionar as colunas de que precisa.

Uma tabela que mostra a vista de lista simplificada da linhagem ao nível da coluna.
Vista de lista simplificada ao nível da coluna

Expanda as secções seguintes para ver as colunas disponíveis nas vistas de lista ao nível da coluna.

Colunas disponíveis na vista de lista simplificada ao nível da coluna

  • Sistema: o sistema onde o recurso de dados está localizado. Exemplos: BigQuery.
  • Projeto: o Google Cloud ID do projeto que contém o recurso de dados.
  • Entidade: o nome do recurso de dados. Os exemplos incluem um nome de tabela.
  • Coluna: a coluna específica escolhida no painel Explorador de linhagem na entidade.
  • FQN: o nome totalmente qualificado (FQN) da entidade de origem original ou da coluna.
  • Direction: indica se o recurso listado está a montante (origem) ou a jusante (destino) no fluxo de linhagem.
  • Profundidade: o número de passos de linhagem a partir do ativo central que está a ser analisado.

Colunas disponíveis na vista de lista detalhada ao nível da coluna

  • Sistema de origem: o sistema onde se encontra o recurso de dados de origem.
  • Projeto de origem: o Google Cloud ID do projeto que contém o recurso de dados de origem.
  • FQN de origem: o FQN da coluna de origem.
  • Sistema de destino: o sistema onde o recurso de dados de destino está localizado.
  • Projeto de destino: o Google Cloud ID do projeto que contém o recurso de dados de destino.
  • FQN alvo: o FQN da coluna de destino.
  • Direção: indica se o fluxo de dados é a montante ou a jusante.
  • Tipos de dependência: descreve a natureza da relação entre as colunas.
  • Profundidade: o número de passos de linhagem a partir do ativo central que está a ser analisado.

O que se segue?