Rastrear a linhagem de dados de uma tabela do BigQuery
A linhagem de dados permite acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles.
Saiba como começar a rastrear a linhagem de dados para jobs de cópia e consulta do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_trips
disponível publicamente.Combine o número total de viagens de táxi das duas tabelas em uma nova tabela.
Confira um gráfico de visualização da linhagem para as três operações.
Antes de começar
Configure o projeto:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
Funções exigidas
Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis do IAM:
-
Leitor do Data Catalog (
roles/datacatalog.viewer
) no projeto de recursos do Data Catalog. -
Leitor da linhagem de dados (
roles/datalineage.viewer
) no projeto em que você usa o BigQuery -
Visualizador de dados do BigQuery (
roles/bigquery.dataViewer
) no projeto em que você usa o BigQuery
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Adicionar um conjunto de dados público ao projeto
No console do Google Cloud, acesse a página do BigQuery.
No painel Explorer, clique em Adicionar.
No painel Adicionar, pesquise
Public datasets
e selecione o resultado Conjuntos de dados públicos.No painel Marketplace, pesquise
NYC TLC Trips
e clique no resultado NYC TLC Trips.Clique em Ver conjunto de dados.
Isso adiciona o projeto do conjunto de dados público como uma referência que pode ser visualizada no painel Explorer. O painel de detalhes mostra informações do conjunto de dados, incluindo dados como ID do conjunto de dados, Local dos dados e Data da última modificação.
Criar um conjunto de dados no projeto
No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.
Clique em
Ações e em Criar conjunto de dados.Na página Criar conjunto de dados, no campo ID do conjunto de dados, insira:
data_lineage_demo
. Não altere os valores padrão dos outros campos.Clique em Criar conjunto de dados.
No painel Explorer, clique no
data_lineage_demo
recém-adicionado.
O painel de detalhes mostra as informações do conjunto de dados.
Copiar duas tabelas acessíveis publicamente para o conjunto de dados
Abra um editor de consultas: no painel de detalhes, ao lado da guia
data_lineage_demo
, clique em (Escrever nova consulta). Essa etapa cria uma guia chamadaUntitled
.No editor de consultas, copie a primeira tabela inserindo a consulta abaixo. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Clique em
Executar. Essa etapa cria a primeira tabela, chamadanyc_green_trips_2021
.No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra o conteúdo da primeira tabela.
No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela consulta a seguir. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Clique em
Executar. Essa etapa cria a segunda tabela, chamadanyc_green_trips_2022
.No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra o conteúdo da segunda tabela.
Agrupar dados em uma nova tabela
No editor de consultas, insira a seguinte consulta. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Clique em
Executar. Essa etapa cria uma tabela combinada, chamadatotal_green_trips_22_21
.No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra a tabela combinada.
Conferir o gráfico de linhagem no Dataplex
No console do Google Cloud, acesse a página Pesquisa do Dataplex.
Em Escolher plataforma de pesquisa, selecione Data Catalog como o modo de pesquisa.
Na caixa Pesquisar, digite
total_green_trips_22_21
e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21
. Esta etapa mostra a guia Detalhes da tabela do BigQuery.Clique na guia Linhagem.
No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:
Para mostrar ou ocultar a origem de uma tabela, clique em + (expandir) ou - (fechar).
Para mostrar as informações da tabela, clique em um nó. Esta etapa mostra um painel Details de nó.
Para mostrar informações do processo, clique em . Nesta etapa, o painel Details mostra o job que transformou uma tabela de origem em uma de destino.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Exclua o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Excluir o conjunto de dados
No Console do Google Cloud, acesse a página BigQuery.
No painel Explorer, pesquise o conjunto de dados
data_lineage_demo
que você criou.Clique com o botão direito do mouse no conjunto de dados e selecione Excluir.
Confirme a ação de exclusão.
A seguir
- Saiba mais sobre o Dataplex e a linhagem de dados.
- Saiba como executar consultas do BigQuery.
- Saiba como usar a linhagem de dados e visualizar gráficos de linhagem de dados.
- Saiba mais sobre os preços e o faturamento do Dataplex.