Rastrear a linhagem de dados de uma tabela do BigQuery
A linhagem de dados permite que você rastreie como os dados se movem pelos sistemas: de onde eles vêm, de onde são transmitidos e quais transformações são aplicadas a eles.
Saiba como começar a rastrear a linhagem de dados para jobs de cópia e consulta do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_trips
disponível publicamente.Combine o número total de corridas de táxi das duas tabelas em uma nova.
Confira um gráfico de visualização da linhagem das três operações.
Antes de começar
Configure seu projeto:
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Data Catalog, BigQuery, and data lineage.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Data Catalog, BigQuery, and data lineage.
Funções exigidas
Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis de IAM:
-
Leitor do Data Catalog (
roles/datacatalog.viewer
) no projeto de recursos do Data Catalog -
Visualizador de linhagem de dados (
roles/datalineage.viewer
) no projeto em que você usa o BigQuery -
Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) no projeto em que o BigQuery é usado
Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.
Talvez você também consiga receber as permissões necessárias por meio de papéis personalizados ou outros papéis predefinidos.
Adicionar um conjunto de dados público ao seu projeto
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, clique em Adicionar.
No painel Adicionar, pesquise
Public datasets
e selecione o resultado Conjuntos de dados públicos.No painel Marketplace, pesquise
NYC TLC Trips
e clique no resultado NYC TLC Trips.Clique em Ver conjunto de dados.
Nesta etapa, você vai adicionar o conjunto de dados new_york_taxi_trips ao seu projeto. O painel de detalhes mostra as Informações do conjunto de dados, incluindo o ID do conjunto de dados, o local dos dados e a data da última modificação.
Criar um conjunto de dados no projeto
No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.
Clique no ícone
Ações e, depois, em Criar conjunto de dados.Na página Criar conjunto de dados, no campo ID do conjunto de dados, digite:
data_lineage_demo
. Não altere os valores padrão dos outros campos.Clique em Criar conjunto de dados.
No painel Explorer, clique no
data_lineage_demo
recém-adicionado.
O painel de detalhes mostra as Informações do conjunto de dados.
Copiar duas tabelas acessíveis publicamente para seu conjunto de dados
Abra um editor de consultas: no painel de detalhes, ao lado da guia chamada
data_lineage_demo
, clique em (Criar nova consulta). Nesta etapa, vamos criar uma guia chamadaUntitled
.No Editor de consultas, copie a primeira tabela inserindo a seguinte consulta. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Clique em
Executar. Esta etapa cria a primeira tabela, chamadanyc_green_trips_2021
.No painel Resultados da consulta, clique em Ir para a tabela. Essa etapa exibe o conteúdo da primeira tabela.
No Editor de consultas, copie a segunda tabela substituindo a consulta anterior pela consulta a seguir. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Clique em
Executar. Esta etapa cria a segunda tabela, chamadanyc_green_trips_2022
.No painel Resultados da consulta, clique em Ir para a tabela. Essa etapa exibe o conteúdo da segunda tabela.
Agregar dados em uma nova tabela
No Editor de consultas, insira a consulta a seguir. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Clique em
Executar. Esta etapa cria uma tabela combinada, chamadatotal_green_trips_22_21
.No painel Resultados da consulta, clique em Ir para a tabela. Essa etapa exibe a tabela combinada.
Conferir o gráfico de linhagem no Dataplex
Abra a página de pesquisa do Dataplex.
Na caixa Pesquisa, digite
total_green_trips_22_21
e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21
. Essa etapa exibe a guia Detalhes da tabela do BigQuery.Clique na guia Linhagem.
No gráfico de linhagem, cada nó retangular representa uma tabela, que pode ser original, copiada ou combinada. Faça o seguinte:
Mostre ou oculte a origem de uma tabela clicando em + (expandir) ou - (recolher).
Mostrar informações da tabela clicando em um nó. Nesta etapa, é exibido um painel Details do nó.
Mostrar informações do processo clicando em um ícone de processo . Nesta etapa, o painel Detalhes do processo mostra o job que transformou uma tabela de origem em uma tabela de destino.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto, faça o seguinte:
- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Excluir o conjunto de dados
Acesse a página do BigQuery.
No painel Explorer, pesquise o conjunto de dados
data_lineage_demo
que você criou.Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.
Confirme sua ação de exclusão.
A seguir
- Saiba mais sobre o Dataplex e a linhagem de dados.
- Saiba como executar consultas do BigQuery.
- Saiba como usar a linhagem de dados e visualizar gráficos de linhagem de dados.
- Saiba mais sobre preços e billing.