O que é o Data Catalog?

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável da família de produtos Google Analytics.

Por que você precisa de um Data Catalog?

Atualmente, a maioria das organizações lida com um número grande e crescente de recursos de dados.

Os principais interessados (consumidores, produtores e administradores) de uma organização enfrentam vários desafios:

  • Pesquisar dados informativos:

    • Os consumidores não sabem qual é o lugar certo. Eles precisam passar por "pântanos de dados" em que se depara com eles.
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual conjunto de dados de vários conjuntos duplicados é relevante e atualizado?
    • Qual é a relação entre um conjunto de dados e outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • O tempo valioso será perdido se os consumidores de dados precisarem descobrir como solicitar acesso a dados, solicitá-los, aguardar sem um tempo de resposta definido, escalonar e esperar novamente.

Sem as ferramentas certas, os desafios acima se tornam um grande obstáculo para o uso eficiente dos dados. O Data Catalog fornece um local centralizado que permite às organizações:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Aprimore os dados com metadados técnicos e comerciais para permitir a tomada de decisões com base em dados e acelerar o tempo de geração de insights.
  • Melhore o gerenciamento de dados para aumentar a eficiência operacional e a produtividade.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Como usar o Data Catalog

Existem duas maneiras principais de interagir com o Data Catalog:

Além disso, o Data Catalog pode aproveitar os resultados de uma verificação do Cloud Data Loss Prevention (DLP, na sigla em inglês) para identificar dados confidenciais diretamente no Data Catalog na forma de modelos de tag.

Como o Data Catalog funciona

O Data Catalog pode catalogar os metadados nativos em recursos de dados das seguintes origens de sistema do Google Cloud:

  • Conjuntos de dados, tabelas e visualizações do BigQuery
  • Tópicos do Pub/Sub
  • Serviços, bancos de dados e tabelas do metastore do Dataproc

Também é possível usar APIs do Data Catalog para criar e gerenciar entradas para tipos de recursos de dados personalizados.

Depois que seus dados são catalogados, você pode adicionar seus próprios metadados a esses ativos usando tags.

Metadados técnicos e comerciais

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para entender a diferença, consulte o exemplo de entrada do Data Catalog abaixo:

  • Metadados técnicos: apresentados em Detalhes da tabela do BigQuery acima, têm origem no sistema de armazenamento subjacente em que o recurso de dados reside e inclui:

    • Informações do projeto, como nome e código
    • Nome e descrição do recurso
    • Rótulos de recurso do Google Cloud
    • Nome do esquema e descrição para tabelas e exibições do BigQuery
  • Metadados comerciais: exibidos em Tags (1) acima, são metadados gerados pelo usuário aplicados ao recurso usando tags do Data Catalog. Os metadados de negócios estão sempre vinculados a uma entrada de metadados técnicos.

Pesquisa e descoberta

O Data Catalog oferece recursos poderosos e estruturados de pesquisa e filtragem baseada em predicados nos metadados técnicos e comerciais de um ativo de dados. É necessário poder ler os metadados de um recurso de dados para poder procurá-lo e descobri-lo. O Data Catalog não indexa os dados em um recurso de dados. O Data Catalog indexa os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário, mas para todos os metadados do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e permissões fornecidas pelo sistema de armazenamento subjacente. Edições nos metadados nativos de um recurso, como adição, remoção ou atualização, podem ser feitas no sistema de armazenamento subjacente.

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados, tabelas, visualizações do BigQuery
  • Tópicos do Pub/Sub
  • (Visualização) Serviços, bancos de dados e tabelas do metastore do Dataproc

Além de catalogar recursos nos códigos de projeto para os quais você tem acesso a metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Para catalogar metadados de sistemas não GCP na sua organização, use o seguinte:

Tags

Documentar recursos de dados em larga escala é difícil, especialmente quando os dados são consumidos por diferentes grupos dentro de uma organização. Cada grupo pode ter seu próprio conjunto de documentação para descrever recursos de dados. Os modelos de tag do Data Catalog ajudam você a criar e gerenciar metadados comuns sobre recursos de dados em um único local. As tags são anexadas ao ativo de dados, o que significa que ele pode ser descoberto no sistema do Data Catalog. Usando esse recurso, é possível também criar aplicativos adicionais que consumam esses metadados contextuais sobre um recurso de dados e tomar outras ações.

Como interagir com o Data Catalog

Você pode acessar o Data Catalog usando o Console do Cloud, a interface de linha de comando (CLI) gcloud e as APIs do Data Catalog, ou fazendo chamadas para a API usando Bibliotecas de cliente do Cloud.

A seguir