Tags e modelos de tag

Documentar entradas de dados em escala é difícil, especialmente quando elas são usadas por diferentes grupos em uma organização com necessidades variadas. Muitas vezes, cada grupo cria o próprio conjunto de documentação e metadados para descrever os mesmos dados, resultando em esforço duplicado e informações incompletas. O Data Catalog resolve esse problema com tags, que permitem que as organizações criem, pesquisem e gerenciem metadados de todas as entradas de dados em um serviço unificado.

Neste documento, explicamos dois conceitos principais do Data Catalog:

  • Tags. Campos de metadados personalizados que você pode anexar a uma entrada de dados para fornecer contexto.

  • Modelos de tag. estruturas reutilizáveis que podem ser usadas para criar novas tags com rapidez.

Tags

As tags são um tipo de metadados comerciais. Adicionar tags a uma entrada de dados ajuda a fornecer contexto significativo para qualquer pessoa que precise usar o recurso. Por exemplo, uma tag pode fornecer informações como quem é responsável por uma entrada de dados específica, se ela contém informações de identificação pessoal (PII), a política de retenção de dados do recurso e um índice de qualidade dos dados.

As tags podem ser públicas ou particulares. Cada tipo de tag tem vantagens exclusivas para atender às suas necessidades de negócios.

Tags particulares

As tags particulares fornecem controles de acesso rigorosos. Só é possível pesquisar ou visualizar as tags e as entradas de dados associadas a elas se você tiver as permissões de visualização necessárias no modelo de tag particular e nas entradas de dados.

Para pesquisar tags particulares na página do Data Catalog, é necessário usar a sintaxe de pesquisa tag: ou os filtros de pesquisa.

As tags privadas são adequadas para cenários em que você precisa armazenar algumas informações confidenciais na tag e quer aplicar outras restrições de acesso além de verificar se o usuário tem as permissões para visualizar a entrada marcada.

Tags públicas

As tags públicas fornecem controle de acesso menos rigoroso para pesquisar e visualizar a tag em comparação com as tags particulares. Qualquer usuário que tenha as permissões para visualização necessárias para uma entrada de dados pode ver todas as tags públicas associadas a ela. As permissões de visualização de tags públicas são necessárias somente quando você faz uma pesquisa no Data Catalog com a sintaxe tag: ou visualiza um modelo de tag não anexado.

As tags públicas são compatíveis com a pesquisa simples e com predicados na página de pesquisa do Data Catalog. Quando você cria um modelo de tag, a opção de criar um modelo público é a opção padrão e recomendada no console do Google Cloud.

Por exemplo, digamos que você tenha um modelo de tag pública chamado employee data usado para criar tags para três entradas de dados chamadas Name, Location e Salary. Entre as três entradas de dados, apenas membros de um grupo específico chamado HR podem visualizar a entrada de dados Salary. As outras duas entradas de dados têm permissões de visualização para todos os funcionários da empresa.

Se um funcionário que não seja membro do grupo HR usar a página de pesquisa do Data Catalog e pesquisar com a palavra employee, o resultado da pesquisa exibirá apenas as entradas de dados Name e Location com as tags públicas associadas.

As tags públicas são úteis em diversos cenários, e o uso delas é intuitivo. As tags públicas são compatíveis com pesquisa e pesquisa simples com predicados, enquanto as tags particulares aceitam apenas pesquisa com predicados.

Amostras de tags anexadas a uma entrada de dados

No diagrama a seguir, mostramos um exemplo de tabela de clientes cust_tbl, com várias tags de metadados comerciais anexadas à tabela e às colunas dela.

A amostra usa tags de tabela para descrever a governança, qualidade e uso de dados, e tags de coluna para sinalizar PII como SSNs e dados de contato.
Figura 1. O Data Catalog oferece suporte à inclusão de tags nos níveis da tabela e da coluna.

Modelos de tag

Para começar a incluir tags, primeiro crie um ou mais modelos. Um modelo de tag pode ser um modelo público ou particular. Ao criar um modelo de tag, a opção de criar um modelo de tag pública é a opção padrão e recomendada no Console do Google Cloud. Um modelo de tag é um grupo de pares de chave-valor de metadados chamados campos. Ter um conjunto de modelos é semelhante a ter um esquema de banco de dados para os metadados.

É possível estruturar suas tags por tópico. Exemplo:

  • Uma tag de governança de dados com campos para: gerente de dados, data de retenção, data de exclusão, PII (sim ou não), classificação de dados (pública, confidencial, confidencial, regulamentar)
  • Uma tag de qualidade de dados com campos para: problemas de qualidade, frequência de atualização e informações SLO.
  • Uma tag de uso de dados com campos para: principais usuários, principais consultas, média de usuários diários

Depois, combine as tags, usando apenas as que forem relevantes para cada recurso de dados e necessidades do seu negócio.

Campos em uma tag

As tags contêm um ou mais campos em que é possível armazenar informações. Os campos de uma tag são definidos por um modelo, e cada um deles pode ser usado para armazenar um ou mais valores. Cada tag é uma instância de um modelo, que pode ser aplicado a uma entrada de dados inteira ou a tabelas ou colunas específicas. Uma tag em uma coluna pode informar, por exemplo, se essa coluna contém PII, se o uso foi descontinuado ou qual fórmula foi usada para calcular um determinado valor.

Cada campo contém um ID, um nome de exibição e um tipo. O tipo pode ser string, double, boolean, enum (enumeração) ou datetime. Quando o tipo é enum, o modelo também armazena os valores permitidos para o campo.

Os campos são armazenados no modelo como um conjunto ordenado, em que a ordem representa a importância de um campo em relação aos outros.

Os campos são opcionais, a menos que estejam marcados como obrigatórios. Um campo obrigatório precisa receber um valor quando o modelo for usado, enquanto um campo opcional poderá ser deixado em branco.

Não é possível alterar um campo opcional para obrigatório depois de criar o modelo.

Exemplos de campos em uma tag

Veja um exemplo de modelo de tag do quickstart com vários tipos de campo:

O modelo de tag de exemplo define campos para a fonte de dados, o número de
  linhas, a presença de PII e o tipo de PII.
Figura 2. Um modelo de tag do Data Catalog.

Veja a seguir uma tag criada com base no modelo, com valores fornecidos para cada campo:

A tag de exemplo indica que os dados são de uma tabela nomeada, tem centenas de milhões de linhas e não têm PII.
Figura 3. Uma tag criada a partir de um modelo de tag.

Para ajudar você a começar, o Data Catalog inclui uma galeria de modelos de tag de exemplo para ilustrar casos de uso de tags comuns. Use esses exemplos para saber mais sobre o poder da inclusão de tags, como inspiração ou como ponto de partida para criar sua própria infraestrutura de inclusão de tags.

Para usar uma galeria de modelo de tag, execute as seguintes etapas:

  1. No console do Google Cloud, acesse a página Modelos de tag do Dataplex.

    Acesse Modelos de tag

  2. Clique em Criar modelo de tag.

    A galeria de modelos vai ser exibida como parte da página Criar modelo.

Depois de selecionar um modelo da galeria, use-o como qualquer outro modelo de tag. É possível adicionar e excluir atributos e alterar qualquer coisa no modelo para atender às necessidades do seu negócio. Em seguida, pesquise os campos e valores do modelo usando o Data Catalog.

Controle de acesso para tags

As tags e os metadados delas podem conter informações confidenciais, e as equipes de governança de dados podem querer que algumas tags sejam visíveis apenas para alguns grupos de usuários. O Data Catalog fornece controle de acesso em modelos de tag, e essas configurações se estendem a todas as tags criadas usando esse modelo.

É possível definir modelos de tag com muitas configurações de controle de acesso, por exemplo:

  • Um modelo de tag que somente o criador do modelo pode usar para criar tags
  • Um modelo de tag que cria tags que são visíveis apenas para um conjunto selecionado de usuários
  • Um modelo de tag que um conjunto selecionado de usuários pode utilizar para criar tags visíveis somente para outro conjunto (possivelmente idêntico)
  • Um modelo de tag visível para todos os usuários de uma organização ou de um projeto (tag pública)

O acesso a um modelo de tag é concedido ou negado com papéis do IAM. Elas dão permissões para criar, editar e usar o modelo de tag. Veja a seguir alguns papéis disponíveis do Data Catalog:

  • Para permitir que um usuário crie ou atualize um modelo de tag, é necessário conceder a ele o papel de criador.

  • Para permitir que um usuário aplique tags a uma entrada de dados, você precisa conceder a ele o função do usuário de modelo de tag.

Consulte Identity and Access Management do Data Catalog para mais informações.

Recursos regionais

Todos os modelos de tag e tags são armazenados em uma determinada região do Google Cloud. É possível usar um modelo de tag para criar uma tag em qualquer região. Assim, não será necessário criar cópias do modelo se você tiver entradas de dados espalhadas por várias regiões.

A seguir