Acompanhe a linhagem de dados de uma tabela do BigQuery

A linhagem de dados permite-lhe acompanhar a forma como os dados se movem nos seus sistemas: a origem, o destino e as transformações que lhes são aplicadas.

Este início rápido mostra como começar a monitorizar a linhagem de dados para tarefas de cópia e consulta do BigQuery:

  1. Copie duas tabelas de um conjunto de dados new_york_taxi_trips disponível publicamente.

  2. Combine o número total de viagens de táxi de ambas as tabelas numa nova tabela.

  3. Veja um gráfico de visualização da linhagem para todas as três operações.

Antes de começar

Configure o seu projeto:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Funções necessárias

    Para receber as autorizações de que precisa para ver gráficos de visualização da linhagem, peça ao seu administrador que lhe conceda as seguintes funções de IAM:

    Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

    Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

    Adicione um conjunto de dados público ao seu projeto

    1. Na Google Cloud consola, aceda à página do BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, clique em Adicionar dados.

    3. No painel Adicionar dados, selecione Conjuntos de dados públicos.

    4. No painel Marketplace, pesquise NYC TLC Trips e clique no resultado NYC TLC Trips.

    5. Clique em Ver conjunto de dados.

    Esta ação adiciona o projeto do conjunto de dados público como uma referência que pode ver no painel do Explorador. O painel de detalhes mostra as Informações do conjunto de dados, incluindo informações como o ID do conjunto de dados, a Localização dos dados e a data da Última modificação.

    Crie um conjunto de dados no seu projeto

    1. No painel Explorador, selecione o projeto onde quer criar o conjunto de dados.

    2. Clique em Ações e, de seguida, em Criar conjunto de dados.

    3. Na página Criar conjunto de dados, no campo ID do conjunto de dados, introduza: data_lineage_demo. Deixe os outros campos com os respetivos valores predefinidos.

    4. Clique em Criar conjunto de dados.

    5. No painel Explorador, clique no data_lineage_demo adicionado recentemente.

    O painel de detalhes mostra as Informações do conjunto de dados.

    Copie duas tabelas acessíveis publicamente para o seu conjunto de dados

    1. Abra um editor de consultas: no painel de detalhes, junto ao separador denominado data_lineage_demo, clique em (Compor nova consulta). Este passo cria um separador denominado Untitled.

    2. No editor de consultas, copie a primeira tabela introduzindo a seguinte consulta. Substitua PROJECT_ID pelo identificador do projeto.

      CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
      COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
      
    3. Clique em Executar. Este passo cria a primeira tabela, denominada nyc_green_trips_2021.

    4. No painel Resultados da consulta, clique em Aceder à tabela. Este passo apresenta o conteúdo da primeira tabela.

    5. No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela seguinte. Substitua PROJECT_ID pelo identificador do projeto.

      CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
      COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
      
    6. Clique em Executar. Este passo cria a segunda tabela, denominada nyc_green_trips_2022.

    7. No painel Resultados da consulta, clique em Aceder à tabela. Este passo apresenta o conteúdo da segunda tabela.

    Agregue dados numa nova tabela

    1. No editor de consultas, introduza a seguinte consulta. Substitua PROJECT_ID pelo identificador do seu projeto.

      CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
      AS SELECT vendor_id, COUNT(*) AS number_of_trips
      FROM (
           SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
           UNION ALL
           SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
      )
      GROUP BY vendor_id
      
    2. Clique em Executar. Este passo cria uma tabela combinada denominada total_green_trips_22_21.

    3. No painel Resultados da consulta, clique em Aceder à tabela. Este passo apresenta a tabela combinada.

    Veja o gráfico de linhagem no Dataplex Universal Catalog

    1. Na Google Cloud consola, aceda à página Pesquisa do Dataplex Universal Catalog.

      Aceda à pesquisa

    2. Em Escolher plataforma de pesquisa, selecione Dataplex Universal Catalog como modo de pesquisa.

    3. Na caixa Pesquisar, introduza total_green_trips_22_21 e clique em Pesquisar.

    4. Na lista de resultados, clique em total_green_trips_22_21. Este passo apresenta o separador Detalhes da tabela do BigQuery.

    5. Clique no separador Linha de descendência.

    A tabela total_green_trips_22_21 com o painel de detalhes encaixado na parte inferior.
    Figura 1. Linhagem de dados com detalhes dos nós

    No gráfico de linhagem, cada nó retangular representa uma tabela, seja uma tabela original, copiada ou combinada. Pode fazer o seguinte:

    • Para mostrar ou ocultar a origem de uma tabela, clique em + (Expandir) ou - (Reduzir).

    • Para mostrar informações da tabela, clique num nó. Este passo apresenta um painel de Detalhes do nó.

    • Para mostrar informações do processo, clique em ver detalhes do processo de linhagem. Este passo apresenta um painel Detalhes do processo que mostra a tarefa que transformou uma tabela de origem numa tabela de destino.

    A tabela intermediária nyc_green_trips_2021 com o painel de detalhes encaixado na parte inferior.
    Figura 2. Linhagem de dados com detalhes do processo

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    Elimine o projeto

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Elimine o conjunto de dados

    1. Na Google Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, pesquise o conjunto de dados data_lineage_demo que criou.

    3. Clique com o botão direito do rato no conjunto de dados e selecione Eliminar.

    4. Confirme a ação de eliminação.

    O que se segue?