Esta página foi traduzida pela API Cloud Translation.
Switch to English

Visão geral do Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável da família de produtos Google Analytics.

Por que você precisa de um catálogo de dados?

Atualmente, a maioria das organizações está lidando com um grande e crescente número de recursos de dados.

As partes interessadas (consumidores, produtores e administradores) dentro de uma organização enfrentam vários desafios:

  • Pesquisa de dados informativos:

    • Os consumidores de dados não sabem onde estão os dados. Eles precisam navegar pelos "trajes" dados.
    • Os consumidores de dados não sabem quais dados usar para conseguir insights porque a maioria dos dados não está bem documentada e, mesmo que esteja documentado, não é bem mantida.
    • Os dados não são encontrados e geralmente são perdidos quando estão apenas em mente das pessoas.
  • Noções básicas sobre dados:

    • Os dados são recentes, limpos, validados e aprovados para uso na produção?
    • Qual conjunto de dados de vários conjuntos duplicados é relevante e atualizado?
    • Qual é a relação entre um conjunto de dados e outro?
    • Quem está usando os dados e quem é o proprietário?
    • Quem e quais processos estão transformando os dados?
  • Tornar os dados úteis:

    • Os produtores de dados não têm uma maneira eficiente de encaminhar os dados para consumidores. Se não houver autoatendimento, os consumidores podem sobrecarregar os produtores. Vários engenheiros de dados não podem fornecer dados manualmente para milhares de analistas de dados.

    • O tempo valioso é perdido se os consumidores de dados precisarem descobrir como solicitar acesso a dados, solicitá-los, aguardar sem um tempo de resposta definido, escalonar e aguardar novamente.

Sem as ferramentas certas, os desafios acima juntos são um grande obstáculo para o uso eficiente dos dados. O Data Catalog oferece um local centralizado que permite às organizações:

  • Receba uma visualização unificada para reduzir a dificuldade de pesquisar os dados certos.
  • Enriqueça dados com metadados técnicos e comerciais para permitir a tomada de decisões orientada por dados e acelerar o tempo de geração de insights.
  • Melhore o gerenciamento de dados para aumentar a eficiência operacional e a produtividade.
  • Assuma a propriedade sobre os dados para melhorar a confiança e a confiança neles.

Como usar o Data Catalog

Existem duas maneiras principais de interagir com o Data Catalog:

Além disso, o Data Catalog interage com o Cloud Data Loss Prevention (DLP, na sigla em inglês) para identificar automaticamente dados confidenciais usando o poderoso mecanismo de codificação automática do Cloud Data Loss Prevention.

Como o Data Catalog funciona

O Data Catalog pode catalogar os metadados nativos em ativos de dados das seguintes fontes do sistema de armazenamento do Google Cloud:

  • Conjuntos de dados, tabelas e visualizações do BigQuery
  • Tópicos do Pub/Sub
  • Serviços do metastore, bancos de dados e tabelas do Dataproc

Também é possível usar APIs do Data Catalog para criar e gerenciar entradas para tipos de recursos de dados personalizados.

Depois que seus dados são catalogados, você pode adicionar seus próprios metadados a esses ativos usando tags.

Metadados técnicos e comerciais

O Data Catalog lida com dois tipos de metadados: metadados técnicos e metadados comerciais. Para entender a diferença, consulte o exemplo de entrada do Data Catalog abaixo:

  • Metadados técnicos: apresentados em Detalhes da tabela do BigQuery acima, têm origem no sistema de armazenamento subjacente em que o recurso de dados reside e inclui:

    • Informações do projeto, como nome e código
    • Nome e descrição do recurso
    • Rótulos de recurso do Google Cloud
    • Nome do esquema e descrição para tabelas e exibições do BigQuery
  • Metadados comerciais: exibidos em Tags (1) acima, são metadados gerados pelo usuário aplicados ao recurso usando tags do Data Catalog. Os metadados de negócios estão sempre vinculados a uma entrada de metadados técnicos.

Pesquisa e descoberta

O Data Catalog oferece recursos poderosos e estruturados de pesquisa e filtragem baseada em predicados nos metadados técnicos e comerciais de um ativo de dados. É necessário poder ler os metadados de um recurso de dados para poder procurá-lo e descobri-lo. O Data Catalog não indexa os dados em um recurso de dados. O Data Catalog indexa os metadados que descrevem um recurso.

O Data Catalog controla alguns metadados, como tags geradas pelo usuário, mas para todos os metadados do sistema de armazenamento subjacente, o Data Catalog é um serviço somente leitura que reflete os metadados e permissões fornecidas pelo sistema de armazenamento subjacente. Edições nos metadados nativos de um recurso, como adição, remoção ou atualização, podem ser feitas no sistema de armazenamento subjacente.

Para um determinado projeto, o Data Catalog cataloga automaticamente os seguintes recursos:

  • Conjuntos de dados, tabelas, visualizações e tabelas externas do BigQuery no Cloud Storage, no Cloud Bigtable ou no Planilhas Google
  • Tópicos do Pub/Sub
  • Serviços do metastore, bancos de dados e tabelas do Dataproc

Além de catalogar recursos nos códigos de projeto para os quais você tem acesso a metadados, o Data Catalog pode catalogar dados armazenados nos projetos do BigQuery que contêm conjuntos de dados públicos.

Tags

Documentar recursos de dados em larga escala é difícil, especialmente quando os dados são consumidos por diferentes grupos dentro de uma organização. Cada grupo pode ter seu próprio conjunto de documentação para descrever recursos de dados. Os modelos de tag do Data Catalog ajudam você a criar e gerenciar metadados comuns sobre recursos de dados em um único local. As tags são anexadas ao ativo de dados, o que significa que ele pode ser descoberto no sistema do Data Catalog. Usando esse recurso, é possível também criar aplicativos adicionais que consumam esses metadados contextuais sobre um recurso de dados e tomar outras ações.

Como interagir com o Data Catalog

Você pode acessar o Data Catalog usando o Console do Cloud, a interface de linha de comando (CLI) gcloud e as APIs do Data Catalog, ou fazendo chamadas para a API usando Bibliotecas de cliente do Cloud.

A seguir