Visão geral do Data Catalog

O recurso Data Catalog do Dataplex é um inventário central dos ativos de dados de uma organização. o Data Catalog automaticamente cataloga metadados de fontes do Google Cloud, como BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable, e muito mais. O Data Catalog também indexa metadados de tabelas e conjuntos de arquivos do Cloud Storage por meio da descoberta.

É possível descobrir dados com os recursos controlados pelo Dataplex em toda a organização de pesquisa de metadados. É possível aprimorar ainda mais os metadados com o contexto dos negócios e possibilitar o rastreamento de linhagem, a criação de perfil e a qualidade dos dados verificações de tempo de atividade e recursos de controle de acesso.

Com o Data Catalog, as organizações conseguem dados melhores descoberta, gerenciamento de metadados e governança.

Por que você precisa do Data Catalog?

Atualmente, a maioria das organizações lida com um número grande e crescente de recursos de dados.

As partes interessadas (consumidores, produtores e administradores) em um organizações enfrentam vários desafios:

  • Pesquisar dados informativos:

    • Os consumidores de dados não sabem a localização e a origem dos dados. Eles precisam a navegar "pântanos" de dados.
    • Os consumidores não sabem quais dados usar para conseguir insights porque a maioria deles não está bem documentada e, mesmo que documentada, não está bem mantida.
    • Os dados não podem ser encontrados e geralmente são perdidos quando estão apenas nas mentes das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso em produção?
    • Qual conjunto de dados dentre vários conjuntos duplicados é relevante e atualizado?
    • Como um conjunto de dados se relaciona com outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Como tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de apresentar os dados aos consumidores. Se não houver autoatendimento, os consumidores poderão sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer manualmente milhares de analistas de dados.

    • Se os consumidores de dados precisam descobrir como solicitar os dados, perde-se um tempo valioso. acesso aos dados, aguardar sem um tempo de resposta definido, encaminhar e esperar novamente.

Sem as ferramentas certas, os desafios se tornam um grande obstáculo ao uso eficiente dos dados. O Data Catalog fornece uma central que as organizações podem usar para alcançar o seguinte:

  • Tenha uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Apoie a tomada de decisões baseada em dados e acelere o tempo de insights, enriquecendo os dados com metadados técnicos e comerciais.
  • Melhore o gerenciamento de dados para aumentar a eficiência e a produtividade operacional.
  • Assuma a propriedade dos dados para aumentar a confiança neles.

Funções do Data Catalog

O Data Catalog oferece três funções principais:

  • Pesquisar entradas de dados a que você tem acesso
  • Como marcar entradas de dados com metadados
  • Como fornecer segurança no nível da coluna para tabelas do BigQuery

Além disso, o Data Catalog pode se basear nos resultados de uma verificação da Proteção de Dados Sensíveis para identificar diretamente no Data Catalog na forma de modelos de tags.

Como o Data Catalog funciona

O Data Catalog pode catalogar metadados de recursos de diferentes sistemas do Google Cloud.

Também é possível usar as APIs Data Catalog para fazer a integração com origens de dados personalizadas.

Depois que seus dados forem catalogados, será possível adicionar seus próprios metadados a esses recursos usando tags.

O Data Catalog descobre metadados de dados do Google Cloud
  como BigQuery, Pub/Sub,
  Dataproc Metastore e Cloud Storage, além de
  fontes de dados fora da nuvem, como Hive e Oracle.
Figura 1. O Data Catalog lê metadados de serviços do Google Cloud e origens de dados personalizadas.

Metadados do Data Catalog

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para saber mais sobre metadados, consulte Metadados do Data Catalog.

Pesquisa e descoberta

O Data Catalog oferece uma poderosa pesquisa baseada em predicados experiência em metadados técnicos e comerciais associados a uma entrada de dados. Você precisa ter permissões para ler os metadados de uma entrada de dados, de modo que você possa aplicar pesquisa e descoberta nos metadados. O Data Catalog não indexar os dados em uma entrada de dados. O Data Catalog só indexa os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário. Para todos os metadados provenientes do sistema de armazenamento subjacente, O Data Catalog é um serviço somente leitura que reflete os metadados e permissões fornecidas pelo sistema de armazenamento subjacente. Você pode fazer edições no ao sistema de armazenamento subjacente para adicionar, atualizar ou excluir os metadados de uma entrada.

Para saber mais sobre a pesquisa do Data Catalog, confira Pesquise recursos de dados com o Data Catalog.

Catalogação automática de recursos

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos do Google Cloud:

  • Conjuntos de dados vinculados do Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas e conexões do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
  • Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos da Vertex AI, datasets, e Recursos do Feature Store da Vertex AI

Além de catalogar recursos nos IDs de projetos a que você tem acesso a metadados, o Data Catalog pode catalogar os dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Catalogue recursos que não são do Google Cloud

Para catalogar metadados de sistemas que não são do Google Cloud na sua organização, use o seguintes:

Acessar o Data Catalog

É possível acessar as funcionalidades do Data Catalog usando:

A seguir