Trabalhe com o Data Catalog

O Data Catalog integra-se com o BigQuery catalogando automaticamente os metadados sobre os recursos do BigQuery, como tabelas, conjuntos de dados, vistas e modelos. Este documento descreve como pesquisar estes recursos, ver a linhagem de dados e adicionar etiquetas através do Data Catalog.

Pesquise recursos do BigQuery

Para usar o Data Catalog para pesquisar conjuntos de dados, tabelas e projetos com estrela do BigQuery, siga estes passos:

  1. Na Google Cloud consola, aceda à página Pesquisa do catálogo de dados.

    Aceda à pesquisa

  2. No campo Pesquisar, introduza uma consulta e, de seguida, clique em Pesquisar.

    A pesquisa do catálogo de dados permite-lhe encontrar dados nos seus projetos e organizações.

    Para refinar os parâmetros de pesquisa, use o painel Filtros. Por exemplo, na secção Sistemas, selecione a caixa de verificação BigQuery. Os resultados são filtrados para sistemas do BigQuery.

Pode fazer pesquisas básicas no catálogo de dados através da Google Cloud consola. Para mais informações sobre a pesquisa na Google Cloud consola, consulte o artigo Abra um conjunto de dados público.

Linhagem de dados

A linhagem de dados é uma funcionalidade do catálogo universal do Dataplex que lhe permite acompanhar a forma como os dados se movem nos seus sistemas: de onde vêm, para onde são transmitidos e que transformações lhes são aplicadas. Pode aceder à funcionalidade de linhagem de dados diretamente a partir do BigQuery.

A ativação da linhagem de dados no seu projeto do BigQuery faz com que o catálogo universal do Dataplex registe automaticamente informações de linhagem para tabelas criadas pelas seguintes operações:

Antes de começar

Nesta secção, ativa a API Data Lineage e concede funções de gestão de identidade e acesso (IAM) que dão aos utilizadores as autorizações necessárias para realizar cada tarefa neste documento.

Ative a linhagem de dados

  1. Na Google Cloud consola, na página do seletor de projetos, selecione o projeto que contém os recursos para os quais quer acompanhar a linhagem.

    Aceder ao seletor de projetos

  2. Ative a API Data Lineage e a API Dataplex.

    Ative as APIs

Funções de IAM necessárias

As informações de linhagem são acompanhadas automaticamente quando ativa a API Data Lineage.

Para receber as autorizações de que precisa para ver gráficos de linhagem, peça ao administrador que lhe conceda as seguintes funções de IAM:

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

Para mais informações, consulte o artigo Funções de linhagem de dados.

Veja gráficos de linhagem no BigQuery

Para ver o gráfico de linhagem de dados a partir do BigQuery, siga estes passos:

  1. Na Google Cloud consola, aceda à página BigQuery.

    Aceda ao BigQuery

  2. No painel Explorador, expanda o projeto e o conjunto de dados e, de seguida, selecione uma tabela.

  3. Clique no separador Linha de descendência.

    Separador Linhagem de dados.

    É apresentado o gráfico de linhagem de dados.

    Gráfico de linhagem de dados.

  4. Opcional: selecione um nó para ver detalhes adicionais sobre as entidades ou os processos envolvidos na criação de informações de linhagem.

Para mais informações acerca da linhagem de dados, consulte o artigo Acerca da linhagem de dados.

Etiquetas e modelos de etiquetas

As etiquetas permitem que as organizações criem, pesquisem e geram metadados para todas as respetivas entradas de dados num serviço unificado.

Esta secção explica dois conceitos principais do catálogo de dados:

  • As etiquetas permitem-lhe fornecer contexto para uma entrada de dados anexando campos de metadados personalizados.

  • Os modelos de etiquetas são estruturas reutilizáveis que pode usar para criar rapidamente novas etiquetas.

Etiquetas

O catálogo de dados oferece dois tipos de etiquetas: etiquetas privadas e etiquetas públicas.

Etiquetas privadas

As etiquetas privadas oferecem controlos de acesso rigorosos. Só pode pesquisar ou ver as etiquetas e as entradas de dados associadas às etiquetas se lhe forem concedidas as autorizações de visualização necessárias no modelo de etiqueta privado e nas entradas de dados.

A pesquisa de etiquetas privadas na página do catálogo de dados requer que use a sintaxe de pesquisa tag: ou os filtros de pesquisa.

As etiquetas privadas são adequadas para cenários em que precisa de armazenar algumas informações confidenciais na etiqueta e quer aplicar restrições de acesso adicionais além de verificar se o utilizador tem as autorizações para ver a entrada etiquetada.

Etiquetas públicas

As etiquetas públicas oferecem um controlo de acesso menos rigoroso para pesquisar e ver a etiqueta em comparação com as etiquetas privadas. Qualquer utilizador que tenha as autorizações de visualização necessárias para uma entrada de dados pode ver todas as etiquetas públicas associadas à mesma. As autorizações de visualização para etiquetas públicas só são necessárias quando faz uma pesquisa no catálogo de dados com a sintaxe tag: ou quando vê um modelo de etiqueta não associado.

As etiquetas públicas suportam a pesquisa simples e a pesquisa com predicados na página de pesquisa do catálogo de dados. Quando cria um modelo de etiqueta, a opção para criar um modelo de etiqueta público é a opção predefinida e recomendada na Google Cloud consola.

Por exemplo, vamos supor que tem um modelo de etiqueta público denominado employee data que usou para criar etiquetas para três entradas de dados denominadas Name, Location e Salary. Entre as três entradas de dados, apenas os membros de um grupo específico denominado HR podem ver a entrada de dados Salary. As outras duas entradas de dados têm autorizações de visualização para todos os funcionários da empresa.

Se um funcionário que não seja membro do grupo HR usar a página de pesquisa do catálogo de dados e pesquisar com a palavra employee, o resultado da pesquisa apresenta apenas as entradas de dados Name e Location com as etiquetas públicas associadas.

As etiquetas públicas são úteis para um vasto conjunto de cenários. As etiquetas públicas suportam a pesquisa simples e a pesquisa com predicados, enquanto as etiquetas privadas suportam apenas a pesquisa com predicados.

Modelos de etiquetas

Para começar a etiquetar metadados, primeiro tem de criar um ou mais modelos de etiquetas. Um modelo de etiqueta pode ser um modelo de etiqueta público ou privado. Quando cria um modelo de etiqueta, a opção de criar um modelo de etiqueta público é a opção predefinida e recomendada na Google Cloud consola. Um modelo de etiqueta é um grupo de pares de chave-valor de metadados denominado campos. Ter um conjunto de modelos é semelhante a ter um esquema de base de dados para os seus metadados.

Pode estruturar as suas etiquetas por tópico. Por exemplo:

  • Uma etiqueta data governance com campos para o responsável pelos dados, a data de retenção, a data de eliminação, PII (sim ou não), a classificação de dados (públicos, confidenciais, sensíveis, regulamentares)
  • Uma etiqueta data quality com campos para problemas de qualidade, frequência de atualização e informações de SLO
  • Uma etiqueta data usage com campos para principais utilizadores, principais consultas e utilizadores diários médios

Em seguida, pode combinar etiquetas, usando apenas as etiquetas relevantes para cada recurso de dados e as necessidades da sua empresa.

Para ajudar a começar, o catálogo de dados inclui uma galeria de modelos de etiquetas de exemplo para ilustrar exemplos de utilização de etiquetagem comuns. Use estes exemplos para saber mais sobre o poder da etiquetagem, para se inspirar ou como ponto de partida para criar a sua própria infraestrutura de etiquetagem.

Para usar uma galeria de modelos de etiquetas, siga estes passos:

  1. Na Google Cloud consola, aceda à página Modelos de etiquetas do catálogo universal do Dataplex.

    Aceda a Modelos de etiquetas

  2. Clique em Criar modelo de etiqueta.

    A galeria de modelos é apresentada como parte da página Criar modelo.

Depois de selecionar um modelo da galeria, pode usá-lo como qualquer outro modelo de etiqueta. Pode adicionar ou eliminar atributos e alterar qualquer elemento no modelo para se adequar às necessidades da sua empresa. Em seguida, pode pesquisar os campos e os valores do modelo através do catálogo de dados.

Para mais informações sobre etiquetas e modelos de etiquetas, consulte o artigo Etiquetas e modelos de etiquetas.

Recursos regionais

Cada modelo de etiqueta e etiqueta é armazenado numa Google Cloud região específica. Pode usar um modelo de etiqueta para criar uma etiqueta em qualquer região, pelo que não precisa de criar cópias do modelo se tiver entradas de metadados distribuídas por várias regiões.