Trabalhar com o Data Catalog
O Data Catalog é um recurso do Dataplex que se integra ao BigQuery ao catalogar automaticamente os metadados sobre recursos do BigQuery, como tabelas, conjuntos de dados, visualizações e modelos. Este documento descreve como pesquisar esses recursos, visualizar a linhagem de dados e adicionar tags usando o Data Catalog.
Pesquisar recursos do BigQuery
Para usar o Data Catalog para pesquisar conjuntos de dados, tabelas e projetos com estrela do BigQuery, siga estas etapas:
No console do Google Cloud, acesse a página Pesquisa do Dataplex.
No campo Pesquisar, digite uma consulta e clique em Pesquisar.
Para refinar os parâmetros de pesquisa, use o painel Filtros. Por exemplo, na seção Sistemas, marque a caixa de seleção BigQuery. Os resultados são filtrados para sistemas do BigQuery.
É possível fazer pesquisas básicas no Data Catalog por meio do console do Google Cloud. Para mais informações sobre como pesquisar no console do Google Cloud, consulte Abrir um conjunto de dados público.
Linhagem de dados
A linhagem de dados é um recurso do Dataplex que permite acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles. É possível acessar o recurso de linhagem de dados diretamente no BigQuery.
A ativação da linhagem de dados no projeto do BigQuery faz com que o Dataplex registre automaticamente as informações de linhagem para tabelas criadas pelas seguintes operações:
- Jobs de cópia.
Jobs de consulta que usam as seguintes instruções de linguagem de definição de dados (DDL) ou de linguagem de manipulação de dados (DML) no GoogleSQL:
CREATE TABLE
(incluindo a instruçãoCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Antes de começar
Nesta seção, você ativa a API Data Lineage e concede papéis do Gerenciamento de identidade e acesso (IAM, na sigla em inglês) que concedem aos usuários as permissões necessárias para executar cada tarefa neste documento.
Ativar a linhagem de dados
- No console do Google Cloud, na página do seletor de projetos, selecione o projeto que contém os recursos com a linhagem que você quer rastrear.
- Ative as APIs Data Lineage e Data Catalog.
Papéis do IAM obrigatórios
As informações de linhagem são rastreadas automaticamente quando você ativa a API Data Lineage.
Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis do IAM:
-
Leitor do Data Catalog (
roles/datacatalog.viewer
) em um projeto de recursos do Data Catalog. -
Leitor da linhagem de dados (
roles/datalineage.viewer
) no projeto em que você usa sistemas compatíveis com a linhagem de dados. -
Metadados do BigQuery (
roles/bigquery.metadataViewer
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Para mais informações, consulte Papéis de linhagem de dados.
Ver gráficos de linhagem no BigQuery
Para visualizar o gráfico de visualização da linhagem de dados do BigQuery, siga estas etapas:
No Console do Google Cloud, acesse a página BigQuery.
No painel Explorer, expanda o projeto e o conjunto de dados e selecione uma tabela.
Clique na guia Linhagem.
Seu gráfico de visualização da linhagem de dados é mostrado.
Opcional: selecione um nó para ver mais detalhes sobre as entidades ou processos envolvidos na criação de informações de linhagem.
Para mais informações sobre a linhagem de dados, consulte Sobre a linhagem de dados.
Tags e modelos de tag
Com as tags, as organizações podem criar, pesquisar e gerenciar metadados de todas as entradas de dados em um serviço unificado.
Nesta seção, explicamos dois conceitos importantes do Data Catalog:
Tags permitem fornecer contexto para uma entrada de dados anexando campos de metadados personalizados.
Os modelos de tag são estruturas reutilizáveis que podem ser usadas para criar novas tags rapidamente.
Tags
O Data Catalog oferece dois tipos de tags: particulares e públicas.
Tags particulares
As tags particulares fornecem controles de acesso rigorosos. Só é possível pesquisar ou ver as tags e as entradas de dados associadas se você receber as permissões para visualização necessárias no modelo de tag particular e nas entradas de dados.
A pesquisa de tags particulares na página do Data Catalog exige que
você use a sintaxe de pesquisa tag:
ou os filtros de pesquisa.
As tags privadas são adequadas para cenários em que você precisa armazenar algumas informações confidenciais na tag e quer aplicar outras restrições de acesso além de verificar se o usuário tem as permissões para visualizar a entrada marcada.
Tags públicas
As tags públicas fornecem controle de acesso menos rigoroso para pesquisar e visualizar a tag
em comparação com as tags particulares. Qualquer usuário que tenha as permissões para visualização necessárias para
uma entrada de dados pode ver todas as tags públicas associadas a ela. As permissões para visualização
das tags públicas são necessárias somente quando você realiza uma pesquisa no Data Catalog
usando a sintaxe tag:
ou ao visualizar um modelo de tag não anexado.
As tags públicas são compatíveis com a pesquisa simples e com predicados na página de pesquisa do Data Catalog. Quando você cria um modelo de tag, a opção de criar um modelo público é a opção padrão e recomendada no console do Google Cloud.
Por exemplo, digamos que você tenha um modelo de tag pública chamado employee data
usado para criar tags para três entradas de dados chamadas Name
, Location
e Salary
. Entre as três entradas de dados, apenas membros de um grupo específico
chamado HR
podem visualizar a entrada de dados Salary
. As outras duas entradas de dados
têm permissões de visualização para todos os funcionários da empresa.
Se algum funcionário que não for membro do grupo HR
usar a página de pesquisa
do Data Catalog e pesquisar com a palavra employee
, o resultado da pesquisa exibirá
apenas entradas de dados Name
e Location
com as tags públicas associadas.
As tags públicas são úteis em um amplo conjunto de cenários. As tags públicas são compatíveis com a pesquisa simples e a pesquisa com predicados, enquanto as tags particulares são compatíveis apenas com a pesquisa com predicados.
Modelos de tag
Para começar a marcar os metadados, primeiro é necessário criar um ou mais modelos de tag. Um modelo de tag pode ser um modelo público ou particular. Ao criar um modelo de tag, a opção de criar um modelo de tag pública é a opção padrão e recomendada no Console do Google Cloud. Um modelo de tag é um grupo de pares de chave-valor de metadados chamados campos. Ter um conjunto de modelos é semelhante a ter um esquema de banco de dados para os metadados.
É possível estruturar suas tags por tópico. Por exemplo:
- Uma tag
data governance
com campos para: gerente de dados, data de retenção, data de exclusão, PII (sim ou não), classificação de dados (pública, confidencial, confidencial, regulamentar) - Uma tag
data quality
com campos para problemas de qualidade, frequência de atualização e informações de SLO. - Uma tag
data usage
com campos para os principais usuários, as principais consultas, a média de usuários diários
Depois, combine as tags, usando apenas as que forem relevantes para cada recurso de dados e necessidades do seu negócio.
Visualizar a galeria de modelos de tags
Para ajudar você a começar, o Data Catalog inclui uma galeria de modelos de tag de exemplo para ilustrar casos de uso de tags comuns. Use esses exemplos para saber mais sobre o poder da inclusão de tags, como inspiração ou como ponto de partida para criar sua própria infraestrutura de inclusão de tags.
Para usar uma galeria de modelo de tag, execute as seguintes etapas:
No console do Google Cloud, acesse a página Modelos de tag do Dataplex.
Clique em Criar modelo de tag.
A galeria de modelos vai ser exibida como parte da página Criar modelo.
Depois de selecionar um modelo da galeria, use-o como qualquer outro modelo de tag. É possível adicionar ou excluir atributos e alterar qualquer coisa no modelo para atender às necessidades do seu negócio. Em seguida, pesquise os campos e valores do modelo usando o Data Catalog.
Para mais informações sobre tags e modelos de tag, consulte Tags e modelos de tag.
Recursos regionais
Todos os modelos de tag e tags são armazenados em uma determinada região do Google Cloud. É possível usar um modelo de tag para criar tags em qualquer região. Portanto, não é necessário criar cópias do modelo se você tiver entradas de metadados distribuídas em várias regiões.