O que é o Data Catalog?

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável da família de produtos Google Analytics.

Por que o Data Catalog é necessário?

Atualmente, a maioria das organizações lida com um número grande e crescente de recursos de dados.

As partes interessadas em dados (consumidores, produtores e administradores) em uma organização enfrentam vários desafios:

  • Pesquisar dados informativos:

    • Os consumidores de dados não sabem o local e a origem dos dados. É preciso navegar pelos dados de pântanos.
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual dos seguintes conjuntos de dados duplicados é relevante e atualizado?
    • Como um conjunto de dados se relaciona com outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • O tempo valioso será perdido se os consumidores de dados precisarem descobrir como solicitar acesso a dados, solicitá-los, aguardar sem um tempo de resposta definido, escalonar e esperar novamente.

Sem as ferramentas certas, os desafios se tornam um grande obstáculo para o uso eficiente dos dados. O Data Catalog fornece um local centralizado para as organizações fazerem o seguinte:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Apoie a tomada de decisões com base em dados e acelere o tempo de insights enriquecendo os dados com metadados técnicos e comerciais.
  • Melhore o gerenciamento de dados para aumentar a eficiência e a produtividade operacional.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Funções do Data Catalog

O Data Catalog oferece duas funções principais:

  • Procurar entradas de dados às quais você tenha acesso
  • Incluir tags em entradas de dados com metadados

Além disso, o Data Catalog pode aproveitar os resultados da verificação do Cloud Data Loss Prevention (DLP) para identificar dados confidenciais diretamente no Data Catalog na forma de modelos de tags.

Como o Data Catalog funciona

O Data Catalog pode catalogar os metadados nas entradas de dados de diferentes fontes do sistema do Google Cloud.

Também é possível usar APIs do Data Catalog para criar e gerenciar entradas para tipos de recursos de dados personalizados.

Depois que os dados forem catalogados, você poderá adicionar seus próprios metadados a esses recursos usando tags.

O Data Catalog cataloga as entradas de dados do Pub/Sub, BigQuery, Dataplex, Dataproc Metastore e Cloud Storage.

Figura 1. Arquitetura do Data Catalog

Metadados do Data Catalog

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para saber mais, consulte Metadados do Data Catalog.

Pesquisa e descoberta

O Data Catalog oferece uma experiência de pesquisa simples, mas avançada, baseada em predicados para metadados técnicos e comerciais associados a uma entrada de dados. Você precisa ter as permissões para ler os metadados de uma entrada de dados a fim de aplicar pesquisas e descobertas aos metadados. O Data Catalog não indexa os dados em uma entrada de dados. O Data Catalog indexa apenas os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário. Para todos os metadados provenientes do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e as permissões fornecidas pelo sistema de armazenamento subjacente. É possível fazer edições no sistema de armazenamento subjacente para adicionar, atualizar ou excluir os metadados de uma entrada de dados.

Para saber mais sobre a pesquisa do Data Catalog, consulte Pesquisar recursos de dados com o Data Catalog.

Catálogo automático de recursos

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados, tabelas e visualizações do BigQuery.
  • Tópicos do Pub/Sub.
  • Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex.
  • (Visualização pública): serviços, bancos de dados e tabelas do metastore do Dataproc
  • (Visualização pública): conjuntos de dados vinculados do Analytics Hub.

Além de catalogar recursos nos IDs de projetos a que você tem acesso de metadados, o Data Catalog pode catalogar dados armazenados em projetos do BigQuery que contêm conjuntos de dados públicos.

Catálogo de recursos que não são do GCP

Para catalogar metadados de sistemas não GCP na sua organização, use o seguinte:

Acessar o Data Catalog

É possível acessar o Data Catalog de uma das seguintes maneiras:

A seguir