Visão geral do Data Catalog

Sem as ferramentas certas, o gerenciamento de recursos de dados pode ser demorado e caro. O Data Catalog fornece um local centralizado onde as organizações podem localizar, selecionar e descrever recursos de dados.

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável da família de produtos Google Analytics.

Como usar o Data Catalog

Há duas maneiras principais de interação com o Data Catalog:

Além disso, o Data Catalog interage com o Cloud Data Loss Prevention (DLP, na sigla em inglês) para identificar automaticamente dados confidenciais usando o poderoso mecanismo de codificação automática do Cloud Data Loss Prevention.

Como o Data Catalog funciona

O Data Catalog pode catalogar os metadados nativos em ativos de dados das seguintes fontes do sistema de armazenamento do Google Cloud:

  • Conjuntos de dados, tabelas e visualizações do BigQuery
  • Tópicos do Pub/Sub

Também é possível usar APIs do Data Catalog para criar e gerenciar entradas para tipos de recursos de dados personalizados.

Depois que seus dados são catalogados, você pode adicionar seus próprios metadados a esses ativos usando tags.

Metadados técnicos e comerciais

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para entender a diferença, consulte o exemplo de entrada do Data Catalog abaixo:

Entrada de exemplo do Data Catalog

  • Metadados técnicos: mostrado na caixa vermelha acima, ele é originário do sistema de armazenamento subjacente onde o ativo de dados reside e inclui:
    • Informações do projeto, como nome e código
    • Nome e descrição do recurso
    • Rótulos de recurso do Google Cloud
    • Nome do esquema e descrição para tabelas e exibições do BigQuery
  • Metadados de negócios: mostrados na caixa azul acima, são metadados gerados pelo usuário aplicados ao ativo usando tags do Data Catalog. Os metadados de negócios estão sempre vinculados a uma entrada de metadados técnicos.

Pesquisa e descoberta

O Data Catalog oferece recursos poderosos e estruturados de pesquisa e filtragem baseada em predicados nos metadados técnicos e comerciais de um ativo de dados. É necessário poder ler os metadados de um recurso de dados para poder procurá-lo e descobri-lo. O Data Catalog não indexa os dados em um recurso de dados. O Data Catalog indexa os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário, mas para todos os metadados do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e permissões fornecidas pelo sistema de armazenamento subjacente. Edições nos metadados nativos de um recurso, como adição, remoção ou atualização, podem ser feitas no sistema de armazenamento subjacente.

Para um determinado projeto, o Data Catalog cataloga automaticamente todos os conjuntos de dados, tabelas, visualizações e conjuntos de dados do BigQuery tabelas externas no Cloud Storage, no Cloud Bigtable ou no Planilhas Google. O Data Catalog também cataloga automaticamente os tópicos Pub/Sub desse projeto.

Além de catalogar recursos nos códigos de projeto para os quais você tem acesso a metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Tags

Documentar recursos de dados em larga escala é difícil, especialmente quando os dados são consumidos por diferentes grupos dentro de uma organização. Cada grupo pode ter seu próprio conjunto de documentação para descrever recursos de dados. Os modelos de tag do Data Catalog ajudam você a criar e gerenciar metadados comuns sobre recursos de dados em um único local. As tags são anexadas ao ativo de dados, o que significa que ele pode ser descoberto no sistema do Data Catalog. Usando esse recurso, é possível também criar aplicativos adicionais que consumam esses metadados contextuais sobre um recurso de dados e tomar outras ações.

Como interagir com o Data Catalog

Você pode acessar o Data Catalog usando o Console do Cloud, a interface de linha de comando (CLI) gcloud e as APIs do Data Catalog, ou fazendo chamadas para a API usando Bibliotecas de cliente do Cloud.

A seguir