Rastrear a linhagem de dados de uma tabela do BigQuery

A linhagem de dados permite acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles.

Saiba como começar a rastrear a linhagem de dados para jobs de cópia e consulta do BigQuery:

  1. Copie duas tabelas de um conjunto de dados new_york_taxi_trips disponível publicamente.

  2. Combine o número total de viagens de táxi das duas tabelas em uma nova tabela.

  3. Confira um gráfico de visualização da linhagem para as três operações.

Antes de começar

Configure o projeto:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

Funções exigidas

Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Adicionar um conjunto de dados público ao projeto

  1. No console do Google Cloud, acesse a página do BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, clique em Adicionar.

  3. No painel Adicionar, pesquise Public datasets e selecione o resultado Conjuntos de dados públicos.

  4. No painel Marketplace, pesquise NYC TLC Trips e clique no resultado NYC TLC Trips.

  5. Clique em Ver conjunto de dados.

Isso adiciona o projeto do conjunto de dados público como uma referência que pode ser visualizada no painel Explorer. O painel de detalhes mostra informações do conjunto de dados, incluindo dados como ID do conjunto de dados, Local dos dados e Data da última modificação.

Criar um conjunto de dados no projeto

  1. No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.

  2. Clique em Ações e em Criar conjunto de dados.

  3. Na página Criar conjunto de dados, no campo ID do conjunto de dados, insira: data_lineage_demo. Não altere os valores padrão dos outros campos.

  4. Clique em Criar conjunto de dados.

  5. No painel Explorer, clique no data_lineage_demo recém-adicionado.

O painel de detalhes mostra as informações do conjunto de dados.

Copiar duas tabelas acessíveis publicamente para o conjunto de dados

  1. Abra um editor de consultas: no painel de detalhes, ao lado da guia data_lineage_demo, clique em (Escrever nova consulta). Essa etapa cria uma guia chamada Untitled.

  2. No editor de consultas, copie a primeira tabela inserindo a consulta abaixo. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Clique em Executar. Essa etapa cria a primeira tabela, chamada nyc_green_trips_2021.

  4. No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra o conteúdo da primeira tabela.

  5. No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela consulta a seguir. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Clique em Executar. Essa etapa cria a segunda tabela, chamada nyc_green_trips_2022.

  7. No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra o conteúdo da segunda tabela.

Agrupar dados em uma nova tabela

  1. No editor de consultas, insira a seguinte consulta. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Clique em Executar. Essa etapa cria uma tabela combinada, chamada total_green_trips_22_21.

  3. No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra a tabela combinada.

Conferir o gráfico de linhagem no Dataplex

  1. No console do Google Cloud, acesse a página Pesquisa do Dataplex.

    Acessar a Pesquisa do Dataplex

  2. Em Escolher plataforma de pesquisa, selecione Data Catalog como o modo de pesquisa.

  3. Na caixa Pesquisar, digite total_green_trips_22_21 e clique em Pesquisar.

  4. Na lista de resultados, clique em total_green_trips_22_21. Esta etapa mostra a guia Detalhes da tabela do BigQuery.

  5. Clique na guia Linhagem.

Tabela total_green_trips_22_21 com o painel de detalhes fixado na parte de baixo.
Figura 1. Linhagem de dados com detalhes do nó

No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:

  • Para mostrar ou ocultar a origem de uma tabela, clique em + (expandir) ou - (fechar).

  • Para mostrar as informações da tabela, clique em um nó. Esta etapa mostra um painel Details de nó.

  • Para mostrar informações do processo, clique em conferir detalhes do processo de linhagem. Nesta etapa, o painel Details mostra o job que transformou uma tabela de origem em uma de destino.

A tabela intermediária "nyc_green_trips_2021" com o painel de detalhes fixado na parte de baixo.
Figura 2. Linhagem de dados com detalhes do processo

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Excluir o conjunto de dados

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, pesquise o conjunto de dados data_lineage_demo que você criou.

  3. Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.

  4. Confirme a ação de exclusão.

A seguir