Tags e modelos de tag

Documentar entradas de dados em grande escala é difícil, especialmente quando elas são usadas por diferentes grupos em uma organização com necessidades variadas. Muitas vezes, cada grupo cria o próprio conjunto de documentação e metadados para descrever os mesmos dados, resultando em esforço duplicado e informações incompletas. O Data Catalog resolve esse problema com tags, que permitem às organizações criar, pesquisar e gerenciar metadados de todas as entradas de dados em um serviço unificado.

Neste documento, explicamos dois conceitos principais do Data Catalog:

  • Tags. Campos de metadados personalizados que você pode anexar a uma entrada de dados para fornecer contexto.

  • Modelos de tag. Estruturas reutilizáveis que podem ser usadas para criar novas tags com rapidez.

Tags

As tags são um tipo de metadados de negócios. Adicionar tags a uma entrada de dados ajuda a fornecer contexto significativo para qualquer pessoa que precise usar o recurso. Por exemplo, uma tag pode fornecer informações como quem é responsável por uma determinada entrada de dados, se ela contém informações de identificação pessoal (PII), a política de retenção de dados do recurso e um índice de qualidade de dados.

As tags podem ser públicas ou privadas. Cada tipo de tag tem vantagens exclusivas para atender aos requisitos da sua empresa.

Tags particulares

As tags particulares fornecem controles de acesso rigorosos. Só será possível pesquisar ou conferir as tags e as entradas de dados associadas se você tiver as permissões de visualização necessárias no modelo de tag particular e nas entradas de dados.

Pesquisar tags particulares na página do Data Catalog requer que você use a sintaxe de pesquisa tag: ou os filtros de pesquisa.

As tags privadas são adequadas para cenários em que você precisa armazenar algumas informações confidenciais na tag e quer aplicar outras restrições de acesso além de verificar se o usuário tem as permissões para visualizar a entrada marcada.

Tags públicas

As tags públicas fornecem controle de acesso menos rigoroso para pesquisar e visualizar a tag em comparação com as tags particulares. Qualquer usuário que tenha as permissões para visualização necessárias para uma entrada de dados pode ver todas as tags públicas associadas a ela. As permissões de visualização para tags públicas são necessárias somente ao realizar uma pesquisa no Data Catalog usando a sintaxe tag: ou ao visualizar um modelo de tag não anexado.

As tags públicas são compatíveis com a pesquisa simples e com predicados na página de pesquisa do Data Catalog. Quando você cria um modelo de tag, a opção de criar um modelo público é a opção padrão e recomendada no console do Google Cloud.

Por exemplo, digamos que você tenha um modelo de tag pública chamado employee data usado para criar tags para três entradas de dados chamadas Name, Location e Salary. Entre as três entradas de dados, apenas membros de um grupo específico chamado HR podem visualizar a entrada de dados Salary. As outras duas entradas de dados têm permissões de visualização para todos os funcionários da empresa.

Se um funcionário que não for membro do grupo HR usar a página de pesquisa do Data Catalog e procurar com a palavra employee, o resultado da pesquisa exibirá apenas as entradas de dados Name e Location com as tags públicas associadas.

As tags públicas são úteis em vários cenários e são de uso intuitivo. As tags públicas são compatíveis com a pesquisa e a pesquisa simples com predicados, enquanto as tags particulares aceitam apenas a pesquisa com predicados.

Exemplos de tags anexadas a uma entrada de dados

No diagrama a seguir, mostramos um exemplo de tabela de clientes cust_tbl, com várias tags de metadados comerciais anexadas à tabela e às colunas dela.

Na amostra, são usadas tags de tabela para descrever a governança, a qualidade e o uso dos dados e as tags de coluna para sinalizar PIIs, como SSNs e dados de contato.
Figura 1. O Data Catalog é compatível com inclusão de tag nos níveis da tabela e da coluna.

Modelos de tag

Para começar a incluir tags nos dados, primeiro você precisa criar um ou mais modelos de tag. Um modelo de tag pode ser um modelo público ou particular. Ao criar um modelo de tag, a opção de criar um modelo de tag pública é a opção padrão e recomendada no Console do Google Cloud. Um modelo de tag é um grupo de pares de chave-valor de metadados chamados campos. Ter um conjunto de modelos é semelhante a ter um esquema de banco de dados para os metadados.

É possível estruturar suas tags por tópico. Exemplo:

  • Uma tag de governança de dados com campos para: gerente de dados, data de retenção, data de exclusão, PII (sim ou não), classificação de dados (pública, confidencial, confidencial, regulamentar)
  • Uma tag de qualidade de dados com campos para: problemas de qualidade, frequência de atualização e informações SLO.
  • Uma tag de uso de dados com campos para: principais usuários, principais consultas, média de usuários diários

Depois, combine as tags, usando apenas as que forem relevantes para cada recurso de dados e necessidades do seu negócio.

Campos de uma tag

As tags contêm um ou mais campos em que é possível armazenar informações. Os campos em uma tag são definidos por um modelo de tag, e cada campo pode ser usado para armazenar um ou mais valores. Cada tag é uma instância de um modelo de tag que pode ser aplicado a uma entrada de dados inteira ou a tabelas ou colunas específicas. Uma tag em uma coluna pode informar, por exemplo, se essa coluna contém PII, se o uso foi descontinuado ou qual fórmula foi usada para calcular um determinado valor.

Cada campo contém um ID, um nome de exibição e um tipo. O tipo pode ser string, double, boolean, enum (enumeração) ou datetime. Quando o tipo é enum, o modelo também armazena os valores permitidos para o campo.

Os campos são armazenados no modelo como um conjunto ordenado, em que a ordem representa a importância de um campo em relação aos outros.

Os campos são opcionais, a menos que estejam marcados como obrigatórios. Um campo obrigatório precisa receber um valor quando o modelo for usado, enquanto um campo opcional poderá ser deixado em branco.

Não é possível alterar um campo opcional para obrigatório após a criação do modelo.

Exemplos de campos em uma tag

Veja um exemplo de modelo de tag do quickstart que contém vários tipos de campo:

O modelo de tag de exemplo define campos para a fonte de dados, número de linhas, presença de PII e tipo de PII.
Figura 2. Um modelo de tag do Data Catalog.

Veja a seguir uma tag criada a partir do modelo, com valores fornecidos para cada campo:

A tag de exemplo indica que os dados são de uma tabela nomeada, tem centenas de milhões de linhas e não tem PIIs.
Figura 3. Uma tag criada com base em um modelo de tag.

Para ajudar você a começar, o Data Catalog inclui uma galeria de modelos de tag de exemplo para ilustrar casos de uso de tags comuns. Use esses exemplos para saber mais sobre o poder da inclusão de tags, como inspiração ou como ponto de partida para criar sua própria infraestrutura de inclusão de tags.

Para usar uma galeria de modelo de tag, execute as seguintes etapas:

  1. No console do Google Cloud, acesse a página Modelos de tag do Dataplex.

    Acesse Modelos de tag

  2. Clique em Criar modelo de tag.

    A galeria de modelos vai ser exibida como parte da página Criar modelo.

Depois de selecionar um modelo da galeria, use-o como qualquer outro modelo de tag. É possível adicionar e excluir atributos e alterar qualquer coisa no modelo para atender às necessidades do seu negócio. Em seguida, pesquise os campos e valores do modelo usando o Data Catalog.

Controle de acesso para tags

As tags e os metadados delas podem conter informações confidenciais, e as equipes de governança de dados podem querer que algumas tags sejam visíveis apenas para alguns grupos de usuários. O Data Catalog oferece controle de acesso em modelos de tags, e essas configurações se estendem a todas as tags criadas usando esse modelo.

É possível configurar modelos de tag com muitas configurações de controle de acesso, por exemplo:

  • Um modelo de tag que somente o criador do modelo pode usar para criar tags
  • um modelo de tag que cria tags visíveis apenas para um conjunto selecionado de usuários
  • um modelo de tag que pode ser usado por um conjunto selecionado de usuários para criar tags visíveis apenas para outro conjunto (possivelmente idêntico) de usuários.
  • Um modelo de tag visível para todos os usuários de uma organização ou de um projeto (tag pública)

O acesso a um modelo de tag é concedido ou negado com papéis do IAM. Elas dão permissões para criar, editar e usar o modelo de tag. Veja a seguir alguns papéis disponíveis do Data Catalog:

  • Para permitir que um usuário crie ou atualize um modelo de tag, você precisa conceder a ele o papel de criador de modelos de tag.

  • Para permitir que um usuário aplique tags a uma entrada de dados, conceda a ele a função do usuário do modelo de tag.

Consulte Identity and Access Management do Data Catalog para mais informações.

Recursos regionais

Todos os modelos de tag e tags são armazenados em uma determinada região do Google Cloud. É possível usar um modelo de tag para criar uma tag em qualquer região. Assim, não é necessário criar cópias do modelo se as entradas de dados estiverem espalhadas por várias regiões.

Próximas etapas