Rastrear a linhagem de dados de uma tabela do BigQuery
Linhagem de dados permite que você rastreie como os dados se movem pelos sistemas: de onde vêm, de onde ele é transmitido e quais transformações são aplicadas a ele.
Saiba como rastrear a linhagem de dados em Jobs de cópia e consulta do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_trips
disponível publicamente.Combinar o número total de corridas de táxi das duas tabelas em uma nova tabela.
Conferir um gráfico de visualização de linhagem para as três operações.
Antes de começar
Configure seu projeto:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
Funções exigidas
Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis do IAM:
-
Leitor do Data Catalog (
roles/datacatalog.viewer
) no projeto de recursos do Data Catalog -
Leitor de linhagem de dados (
roles/datalineage.viewer
) no projeto em que você usa o BigQuery -
Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) no projeto em que você usa o BigQuery
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Adicionar um conjunto de dados público ao projeto
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, clique em Adicionar.
No painel Adicionar, pesquise por
Public datasets
e selecione o Resultado de conjuntos de dados públicos.No painel Marketplace, pesquise por
NYC TLC Trips
e clique no Resultado da pesquisa NYC TLC Trips.Clique em Ver conjunto de dados.
Nesta etapa, o conjunto de dados new_york_taxi_trips será adicionado ao seu projeto. Detalhes mostra as Informações do conjunto de dados, incluindo informações como: ID do conjunto de dados, Local dos dados e Data da Última modificação.
Criar um conjunto de dados no projeto
No painel Explorer, selecione o projeto em que você quer criar o no conjunto de dados.
Clique no ícone
Ações e em Criar no conjunto de dados.No campo ID do conjunto de dados da página Criar conjunto de dados, digite:
data_lineage_demo
Não altere os valores padrão dos outros campos.Clique em Criar conjunto de dados.
No painel Explorer, clique no
data_lineage_demo
recém-adicionado.
O painel de detalhes mostra as informações do conjunto de dados.
Copiar duas tabelas acessíveis publicamente para seu conjunto de dados
Abrir um editor de consultas: no painel de detalhes, ao lado da guia chamada
data_lineage_demo
, clique em (Criar nova consulta). Esta etapa cria uma guia chamadaUntitled
.No editor de consultas, copie a primeira tabela inserindo o seguinte: consulta. Substitua
PROJECT_ID
pelo nome identificador.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Clique em
Executar. Esta etapa cria a primeira tabela, chamadanyc_green_trips_2021
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra o conteúdo da primeira tabela.
No editor de consultas, copie a segunda tabela substituindo a anterior. com a consulta a seguir. Substitua
PROJECT_ID
pelo seu do projeto identificador.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Clique em
Executar. Esta etapa cria a segunda tabela, chamadanyc_green_trips_2022
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra o conteúdo da segunda tabela.
Agregar dados em uma nova tabela
No editor de consultas, insira a consulta a seguir. Substituir
PROJECT_ID
por o do seu projeto identificador.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Clique em
Executar. Esta etapa cria uma tabela combinada, chamadatotal_green_trips_22_21
.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra a tabela combinada.
Conferir o gráfico de linhagem no Dataplex
Abra a página de pesquisa do Dataplex.
Em Escolher plataforma de pesquisa, selecione Data Catalog como o modo de pesquisa.
Na caixa Pesquisar, digite
total_green_trips_22_21
e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21
. Esta etapa mostra na guia Detalhes da tabela do BigQuery.Clique na guia Linhagem.
No gráfico de linhagem, cada nó retangular representa uma tabela, um original, copiada ou combinada. Faça o seguinte:
Mostrar ou ocultar a origem de uma tabela clicando em + (Expandir) ou - (Recolher).
Mostrar informações da tabela clicando em um nó. Esta etapa mostra um nó Painel Detalhes.
Mostrar informações do processo clicando em um ícone de processo. Esta etapa exibe um painel Detalhes do processo mostrando o job que transformou uma tabela de origem em uma de destino.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Exclua o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Excluir o conjunto de dados
Acesse a página do BigQuery.
No painel Explorer, pesquise o conjunto de dados
data_lineage_demo
que você criados.Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.
Confirme a ação de exclusão.
A seguir
- Saiba mais sobre o Dataplex e o linhagem de dados.
- Saiba como executar o BigQuery comuns.
- Saiba como usar linhagem de dados e visualização linhagem de dados gráficos.
- Saiba mais sobre os preços do Dataplex e faturamento.