Visão geral do Data Catalog

O recurso Data Catalog do Dataplex é um inventário central dos recursos de dados de uma organização. O Data Catalog cataloga automaticamente metadados de origens do Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable e muito mais. O Data Catalog também indexa metadados de tabelas e conjuntos de arquivos do Cloud Storage pela descoberta.

É possível descobrir dados com o recurso de pesquisa de metadados governado em toda a organização do Dataplex. É possível enriquecer ainda mais os metadados com o contexto de negócios crítico e ativar o rastreamento de linhagem, o perfil de dados, as verificações de qualidade de dados e os recursos de controle de acesso.

Com o Data Catalog, as organizações podem melhorar a descoberta de dados, o gerenciamento de metadados e a governança.

Por que você precisa do Data Catalog?

A maioria das organizações lida com um número grande e crescente de recursos de dados. As partes interessadas em dados (consumidores, produtores e administradores) de uma organização enfrentam vários desafios, incluindo os seguintes:

  • Pesquisar dados informativos:

    • Os consumidores de dados não sabem a localização e a origem dos dados. Eles precisam navegar por pântanos de dados.
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual conjunto de dados de vários conjuntos duplicados é relevante e atualizado?
    • Qual é a relação entre um conjunto de dados e outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • O tempo valioso será perdido se os consumidores de dados precisarem descobrir como solicitar acesso aos dados, aguardar sem um tempo de resposta definido, encaminhar e esperar novamente.

Sem as ferramentas certas, os desafios se tornam um grande obstáculo para o uso eficiente dos dados. O Data Catalog oferece um repositório centralizado que permite que as organizações alcancem os seguintes resultados:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Apoie a tomada de decisões baseada em dados e acelere a geração de insights ao enriquecer os dados com metadados técnicos e comerciais.
  • Melhore o gerenciamento de dados para aumentar a eficiência e a produtividade operacional.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Funções do Data Catalog

O Data Catalog oferece três funções principais:

  • Pesquisar entradas de dados a que você tem acesso
  • Como marcar entradas de dados com metadados
  • Fornecer segurança no nível da coluna para tabelas do BigQuery

Além disso, o Data Catalog pode usar os resultados de uma verificação da Proteção de dados sensíveis para identificar dados confidenciais diretamente no Data Catalog na forma de modelos de tag.

Como o Data Catalog funciona

O Data Catalog pode catalogar metadados de recursos de diferentes sistemas do Google Cloud.

Também é possível usar APIs do Data Catalog para integrar fontes de dados personalizadas.

Depois que os dados são catalogados, você pode adicionar seus próprios metadados a esses recursos usando tags.

O Data Catalog descobre metadados de origens de dados do Google Cloud, como BigQuery, Pub/Sub, Metastore do Dataproc e Cloud Storage, além de origens de dados fora da nuvem, como Hive e Oracle.
Figura 1. O Data Catalog lê metadados de serviços do Google Cloud e de fontes de dados personalizadas.

Metadados do Data Catalog

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para saber mais sobre metadados, consulte Metadados do Data Catalog.

Pesquisa e descoberta

O Data Catalog oferece uma experiência avançada de pesquisa baseada em predicados para metadados técnicos e comerciais associados a uma entrada de dados. Você precisa ter as permissões para ler os metadados de uma entrada de dados para que possa aplicar pesquisa e descoberta aos metadados. O Data Catalog não indexa os dados em uma entrada de dados. O Data Catalog indexa apenas os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário. Para todos os metadados provenientes do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e as permissões fornecidas pelo sistema de armazenamento subjacente. Você pode fazer edições no sistema de armazenamento subjacente para adicionar, atualizar ou excluir os metadados de uma entrada de dados.

Para saber mais sobre a pesquisa do Data Catalog, consulte Pesquisar recursos de dados com o Data Catalog.

Catalogação automática de recursos

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados vinculados ao Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas e conexões do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
  • Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos da Vertex AI, conjuntos de dados e recursos da Vertex AI Feature Store

Além de catalogar recursos nos IDs de projeto para os quais você tem acesso a metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Catalogar recursos que não são do Google Cloud

Para catalogar metadados de sistemas que não são do Google Cloud na sua organização, use o seguinte:

Acessar o Data Catalog

É possível acessar as funcionalidades do Data Catalog usando:

A seguir