Visão geral do Data Catalog

O recurso Data Catalog do Dataplex é um inventário central dos ativos de dados de uma organização. o Data Catalog automaticamente cataloga metadados de fontes do Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable, e muito mais. O Data Catalog também indexa metadados de tabelas e conjuntos de arquivos do Cloud Storage por meio da descoberta.

É possível descobrir dados com o recurso de pesquisa de metadados governado em toda a organização do Dataplex. É possível enriquecer ainda mais os metadados com o contexto de negócios crítico e ativar o rastreamento de linhagem, o perfil de dados, as verificações de qualidade de dados e os recursos de controle de acesso.

Com o Data Catalog, as organizações podem conseguir dados melhores descoberta, gerenciamento de metadados e governança.

Por que você precisa do Data Catalog?

Atualmente, a maioria das organizações lida com um número grande e crescente de recursos de dados.

As partes interessadas em dados (consumidores, produtores e administradores) de uma organização enfrentam vários desafios:

  • Pesquisar dados informativos:

    • Os consumidores de dados não sabem a localização e a origem dos dados. Eles precisam a navegar "pântanos" de dados.
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual conjunto de dados de vários conjuntos duplicados é relevante e atualizado?
    • Qual é a relação entre um conjunto de dados e outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • Se os consumidores de dados precisam descobrir como solicitar os dados, perde-se um tempo valioso. acesso aos dados, aguardar sem um tempo de resposta definido, encaminhar e esperar novamente.

Sem as ferramentas certas, os desafios se tornam um grande obstáculo para o uso eficiente dos dados. O Data Catalog fornece uma central que as organizações podem usar para alcançar o seguinte:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Apoie a tomada de decisões com base em dados e acelere o tempo do insight, enriquecendo os dados com metadados técnicos e comerciais.
  • Melhore o gerenciamento de dados para aumentar a eficiência e a produtividade operacional.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Funções do Data Catalog

O Data Catalog oferece três funções principais:

  • Pesquisar entradas de dados a que você tem acesso
  • Como marcar entradas de dados com metadados
  • Fornecer segurança no nível da coluna para tabelas do BigQuery

Além disso, o Data Catalog pode usar os resultados de uma verificação da Proteção de dados sensíveis para identificar dados confidenciais diretamente no Data Catalog na forma de modelos de tag.

Como o Data Catalog funciona

O Data Catalog pode catalogar metadados de recursos de diferentes sistemas do Google Cloud.

Também é possível usar as APIs Data Catalog para fazer a integração com origens de dados personalizadas.

Depois que seus dados forem catalogados, será possível adicionar seus próprios metadados a esses recursos usando tags.

O Data Catalog descobre metadados de origens de dados do Google Cloud, como BigQuery, Pub/Sub, Metastore do Dataproc e Cloud Storage, além de origens de dados fora da nuvem, como Hive e Oracle.
Figura 1. O Data Catalog lê metadados de serviços do Google Cloud e de fontes de dados personalizadas.

Metadados do Data Catalog

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para saber mais sobre metadados, consulte Metadados do Data Catalog.

Pesquisa e descoberta

O Data Catalog oferece uma experiência avançada de pesquisa baseada em predicados para metadados técnicos e comerciais associados a uma entrada de dados. Você precisa ter permissões para ler os metadados de uma entrada de dados, de modo que você possa aplicar pesquisa e descoberta nos metadados. O Data Catalog não indexa os dados em uma entrada de dados. O Data Catalog indexa apenas os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário. Para todos os metadados provenientes do sistema de armazenamento subjacente, O Data Catalog é um serviço somente leitura que reflete os metadados e permissões fornecidas pelo sistema de armazenamento subjacente. Você pode fazer edições no sistema de armazenamento subjacente para adicionar, atualizar ou excluir os metadados de uma entrada de dados.

Para saber mais sobre a pesquisa do Data Catalog, confira Pesquise recursos de dados com o Data Catalog.

Catalogação automática de recursos

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados vinculados do Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas e conexões do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
  • Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos da Vertex AI, conjuntos de dados e recursos da Vertex AI Feature Store

Além de catalogar recursos nos IDs de projeto para os quais você tem acesso a metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Catalogue recursos que não são do Google Cloud

Para catalogar metadados de sistemas que não são do Google Cloud na sua organização, use o seguintes:

Acessar o Data Catalog

É possível acessar as funcionalidades do Data Catalog usando:

A seguir