Visão geral do Data Catalog

O Data Catalog do Dataplex é um inventário central de recursos de dados de uma organização. O Data Catalog cataloga automaticamente os metadados de fontes do Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable e muito mais. O Data Catalog também indexa metadados de tabelas e conjuntos de arquivos do Cloud Storage por meio da descoberta.

É fácil descobrir dados com o recurso de pesquisa de metadados regido pelo Dataplex em toda a organização. É possível enriquecer ainda mais os metadados com um contexto de negócios crítico e ativar recursos de rastreamento de linhagem, criação de perfil de dados, verificações de qualidade de dados e controle de acesso.

Com o Data Catalog, as organizações podem alcançar melhor descoberta de dados, gerenciamento de metadados e governança.

Por que o Data Catalog é necessário?

Atualmente, a maioria das organizações lida com um número grande e crescente de recursos de dados.

As partes interessadas em dados (consumidores, produtores e administradores) de uma organização enfrentam vários desafios:

  • Pesquisar dados informativos:

    • Os consumidores de dados não sabem o local e a origem dos dados. Eles têm que navegar para "pântanos de dados".
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual conjunto de dados, dentre vários conjuntos duplicados, é relevante e está atualizado?
    • Como um conjunto de dados se relaciona com outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • Um tempo valioso será perdido se os consumidores precisarem descobrir como solicitar acesso aos dados, aguardar sem um tempo de resposta definido, encaminhar e aguardar novamente.

Sem as ferramentas certas, os desafios se tornam um grande obstáculo para o uso eficiente dos dados. O Data Catalog oferece um repositório centralizado que permite que as organizações façam o seguinte:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Dê suporte à tomada de decisões com base em dados e acelere o tempo de insights, enriquecendo os dados com metadados técnicos e comerciais.
  • Melhore o gerenciamento de dados para aumentar a eficiência e a produtividade operacional.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Funções do Data Catalog

O Data Catalog oferece três funções principais:

  • Pesquisar entradas de dados às quais você tem acesso
  • Incluir tags em entradas de dados com metadados
  • Como fornecer segurança no nível da coluna para tabelas do BigQuery

Além disso, o Data Catalog pode se basear nos resultados de uma verificação de Proteção de Dados Sensíveis para identificar dados confidenciais diretamente no Data Catalog, na forma de modelos de tags.

Como o Data Catalog funciona

O Data Catalog pode catalogar metadados de recursos de diferentes sistemas do Google Cloud.

Também é possível usar as APIs Data Catalog para integração com origens de dados personalizadas.

Depois que os dados forem catalogados, você poderá adicionar metadados a esses recursos usando tags.

O Data Catalog descobre metadados de fontes de dados do Google Cloud, como BigQuery, Pub/Sub, Dataproc Metastore e Cloud Storage, bem como fontes de dados que não são da nuvem, como Hive e Oracle.
Figura 1. O Data Catalog lê metadados de serviços do Google Cloud e origens de dados personalizadas.

Metadados do Data Catalog

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para saber mais sobre metadados, consulte Metadados do Data Catalog.

Pesquisa e descoberta

O Data Catalog oferece uma poderosa experiência de pesquisa baseada em predicado para metadados técnicos e comerciais associados a uma entrada de dados. Você precisa ter as permissões para ler os metadados de uma entrada de dados para que possa aplicar pesquisa e descoberta nos metadados. O Data Catalog não indexa os dados em uma entrada de dados. O Data Catalog indexa apenas os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário. Para todos os metadados provenientes do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e as permissões fornecidos por esse sistema. Você pode fazer edições no sistema de armazenamento subjacente para adicionar, atualizar ou excluir os metadados de uma entrada de dados.

Para saber mais sobre a pesquisa no Data Catalog, consulte Pesquisar recursos de dados com o Data Catalog.

Catálogo automático de recursos

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados vinculados do Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas e conexões do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
  • Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos da Vertex AI, conjuntos de dados e recursos da Feature Store da Vertex AI

Além de catalogar recursos nos IDs dos projetos a que você tem acesso aos metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Catalogue recursos que não são do Google Cloud

Para catalogar metadados de sistemas que não são do Google Cloud na sua organização, use o seguinte:

Acessar o Data Catalog

É possível acessar as funcionalidades do Data Catalog usando:

A seguir