Acompanhe a linhagem de dados de uma tabela do BigQuery
A linhagem de dados permite-lhe acompanhar a forma como os dados se movem nos seus sistemas: a origem, o destino e as transformações que lhes são aplicadas.
Este início rápido mostra como começar a monitorizar a linhagem de dados para tarefas de cópia e consulta do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_trips
disponível publicamente.Combine o número total de viagens de táxi de ambas as tabelas numa nova tabela.
Veja um gráfico de visualização da linhagem para todas as três operações.
Antes de começar
Configure o seu projeto:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Visualizador do catálogo do Dataplex (
roles/dataplex.catalogViewer
) no projeto de recursos do catálogo universal do Dataplex -
Visualizador de linhagem de dados (
roles/datalineage.viewer
) no projeto onde usa o BigQuery -
Visualizador de dados do BigQuery (
roles/bigquery.dataViewer
) no projeto onde usa o BigQuery Na Google Cloud consola, aceda à página do BigQuery.
No painel Explorador, clique em Adicionar dados.
No painel Adicionar dados, selecione Conjuntos de dados públicos.
No painel Marketplace, pesquise
NYC TLC Trips
e clique no resultado NYC TLC Trips.Clique em Ver conjunto de dados.
No painel Explorador, selecione o projeto onde quer criar o conjunto de dados.
Clique em
Ações e, de seguida, em Criar conjunto de dados.Na página Criar conjunto de dados, no campo ID do conjunto de dados, introduza:
data_lineage_demo
. Deixe os outros campos com os respetivos valores predefinidos.Clique em Criar conjunto de dados.
No painel Explorador, clique no
data_lineage_demo
adicionado recentemente.Abra um editor de consultas: no painel de detalhes, junto ao separador denominado
data_lineage_demo
, clique em (Compor nova consulta). Este passo cria um separador denominadoUntitled
.No editor de consultas, copie a primeira tabela introduzindo a seguinte consulta. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Clique em
Executar. Este passo cria a primeira tabela, denominadanyc_green_trips_2021
.No painel Resultados da consulta, clique em Aceder à tabela. Este passo apresenta o conteúdo da primeira tabela.
No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela seguinte. Substitua
PROJECT_ID
pelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Clique em
Executar. Este passo cria a segunda tabela, denominadanyc_green_trips_2022
.No painel Resultados da consulta, clique em Aceder à tabela. Este passo apresenta o conteúdo da segunda tabela.
No editor de consultas, introduza a seguinte consulta. Substitua
PROJECT_ID
pelo identificador do seu projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Clique em
Executar. Este passo cria uma tabela combinada denominadatotal_green_trips_22_21
.No painel Resultados da consulta, clique em Aceder à tabela. Este passo apresenta a tabela combinada.
Na Google Cloud consola, aceda à página Pesquisa do Dataplex Universal Catalog.
Em Escolher plataforma de pesquisa, selecione Dataplex Universal Catalog como modo de pesquisa.
Na caixa Pesquisar, introduza
total_green_trips_22_21
e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21
. Este passo apresenta o separador Detalhes da tabela do BigQuery.Clique no separador Linha de descendência.
Para mostrar ou ocultar a origem de uma tabela, clique em + (Expandir) ou - (Reduzir).
Para mostrar informações da tabela, clique num nó. Este passo apresenta um painel de Detalhes do nó.
Para mostrar informações do processo, clique em
. Este passo apresenta um painel Detalhes do processo que mostra a tarefa que transformou uma tabela de origem numa tabela de destino.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Na Google Cloud consola, aceda à página BigQuery.
No painel Explorador, pesquise o conjunto de dados
data_lineage_demo
que criou.Clique com o botão direito do rato no conjunto de dados e selecione Eliminar.
Confirme a ação de eliminação.
- Saiba mais sobre a linhagem de dados.
- Saiba como executar consultas do BigQuery.
- Saiba como usar a linhagem de dados.
- Saiba mais sobre os preços do Dataplex Universal Catalog.
Funções necessárias
Para receber as autorizações de que precisa para ver gráficos de visualização da linhagem, peça ao seu administrador que lhe conceda as seguintes funções de IAM:
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Adicione um conjunto de dados público ao seu projeto
Esta ação adiciona o projeto do conjunto de dados público como uma referência que pode ver no painel do Explorador. O painel de detalhes mostra as Informações do conjunto de dados, incluindo informações como o ID do conjunto de dados, a Localização dos dados e a data da Última modificação.
Crie um conjunto de dados no seu projeto
O painel de detalhes mostra as Informações do conjunto de dados.
Copie duas tabelas acessíveis publicamente para o seu conjunto de dados
Agregue dados numa nova tabela
Veja o gráfico de linhagem no Dataplex Universal Catalog

No gráfico de linhagem, cada nó retangular representa uma tabela, seja uma tabela original, copiada ou combinada. Pode fazer o seguinte:

Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.