Visão geral do Dataplex Catalog

Este documento descreve o Dataplex Catalog, que oferece uma plataforma para armazenar, gerenciar e acessar seus metadados.

O Dataplex Catalog oferece um inventário unificado de recursos do Google Cloud, como o BigQuery, e outros recursos, como recursos locais. Os metadados dos recursos do Google Cloud são coletados automaticamente, e você traz metadados de recursos de terceiros para o Dataplex Catalog.

O Catálogo do Dataplex permite enriquecer seu inventário com metadados empresariais e técnicos para capturar o contexto e o conhecimento sobre seus do Google Cloud. Com o Dataplex Catalog, você pode pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados sobre seus ativos.

Casos de uso

É possível usar o Dataplex Catalog para:

  • Descubra e entenda seus dados. O Dataplex Catalog oferece visibilidade dos recursos de dados em toda a organização. Permite a encontrar recursos relevantes para as necessidades de consumo de dados. Fornece contexto recursos de dados, o que ajuda a entender a adequação dos dados e recursos para as necessidades do consumidor.

  • Ative a governança e o gerenciamento de dados. O Dataplex Catalog fornece metadados que podem informar e aprimorar seus recursos de governança e gerenciamento de dados.

  • Mantenha um repositório extensível e abrangente para seus metadados. O Dataplex Catalog armazena e fornece acesso a metadados que são coletados automaticamente dos seus recursos do Google Cloud. É possível integrar seus próprios metadados de sistemas que não são do Google Cloud. É possível aprimorar todos metadados com anotações de metadados comerciais e técnicos adicionais.

Como o Catálogo do Dataplex funciona

O Dataplex Catalog é baseado nos seguintes conceitos:

  • Entrada: representa um recurso de dados. A maioria dos metadados é descrita por aspectos de uma entrada. Isso é semelhante às entradas no Data Catalog. Para mais informações, consulte Entradas.

  • Aspecto: um aspecto é um conjunto de campos de metadados relacionados dentro de uma entrada. Um aspecto pode ser interpretado como um elemento básico de uma entrada ou metadados adicionais a ela. Isso é semelhante a tags no Data Catalog, No entanto, os aspectos são armazenados nas entradas, e não como recursos independentes. Para mais informações, consulte Aspectos.

  • Tipo de aspecto: é um modelo reutilizável para aspectos. Cada aspecto é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog. Para mais informações, consulte Tipos de aspecto.

  • Grupo de entrada: um contêiner de entradas que serve como uma unidade de gerenciamento dessas entradas. Por exemplo, use um grupo de entrada para configura o controle de acesso do IAM, a atribuição do projeto ou o local do entradas no grupo. Isso é semelhante aos grupos de entradas no Data Catalog. Para mais informações, consulte Grupos de entradas.

  • Tipo de entrada: é um modelo para criar entradas. Ela estabelece os elementos essenciais de metadados, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Para mais informações, consulte Tipos de entrada.

    Entradas e grupos de entradas
    Figura 1. entradas e grupos de entradas
    Tipos de aspecto e de entrada
    Figura 2. Tipos de aspecto e de entrada

Confira alguns casos de uso do Dataplex Catalog:

  • Como analista de dados ou de negócios, você pode pesquisar entradas no organização e explorar metadados associados às entradas. Para mais informações, consulte Pesquisar recursos de dados.
  • Como proprietário ou governador de dados, você pode capturar informações técnicas e metadados de negócios anotando suas entradas com aspectos. Para mais informações, consulte Gerenciar aspectos e aprimorar metadados.
  • Como proprietário ou governador de dados, é possível trazer consistência metadados definindo os padrões de anotação (usando tipos de aspecto) e entradas personalizadas (usando tipos de entrada). Para mais informações, consulte Gerenciar aspectos e enriquecer metadados.
  • Como engenheiro de dados, é possível ter um inventário unificado para seus recursos, incluindo recursos do Google Cloud e de sistemas de terceiros. Os recursos do Google Cloud são coletados automaticamente do Dataplex Catalog e recursos que não são do Google Cloud colhidos por você. Para mais informações, consulte Gerenciar entradas e processar origens personalizadas.

Se você já usa o Data Catalog, observe o seguinte:

  • As entradas personalizadas, o contexto de visão geral e os grupos de entrada que você criou no Data Catalog são disponibilizados no Dataplex Catalog.
  • As tags e os modelos de tags criados no Data Catalog não estão disponíveis em Catálogo do Dataplex.
  • Quando você pesquisa recursos de dados no Dataplex Catalog, os metadados criados diretamente no Dataplex Catalog e os que foram transferidos do Data Catalog para o Dataplex Catalog são incluídos.
  • Quando você pesquisa recursos de dados no Data Catalog, apenas os metadados criados nele são incluídos.
  • as descrições do grupo de entradas no Data Catalog que excedem 1.024 são truncados em 1.024 caracteres Catálogo do Dataplex.

Catálogo do Dataplex x Data Catalog

O Dataplex Catalog oferece um recurso para gerenciar seus metadados no Dataplex. Ele vem com um armazenamento de metadados separado e um novo conjunto de métodos de API integrados à API Dataplex.

Os principais recursos do Dataplex Catalog incluem:

  • Metamodelo mais robusto

    • Entradas digitadas. Você pode aplicar padrões mínimos de metadados definindo conteúdo de metadados obrigatório para entradas personalizadas
    • Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a comprehensividade dos metadados personalizados.
    • Suporte a uma maior variedade e complexidade de metadados, incluindo suporte para aninhar estruturas como listas, mapas e matrizes.
  • Melhoria na capacidade de escalonamento, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por operações atômicas CRUD e a capacidade de buscar várias anotações de metadados associadas a respostas de pesquisa ou de lista.

A tabela a seguir compara os recursos do Dataplex Catalog e do Data Catalog:

Comparação entre o Dataplex Catalog e o Data Catalog
Recurso Catálogo do Dataplex Data Catalog
Origens compatíveis com o Google Cloud Todas as fontes, conforme descrito na seção Fontes do Google Cloud com suporte deste documento. Todas as fontes descritas em Entradas e grupos de entradas.
Ingestão de origens personalizadas

Ingestão em entradas personalizadas com estrutura governada, definida por tipos de entrada.

As entradas personalizadas e os grupos de entrada do Data Catalog são disponibilizados no Dataplex Catalog no tipo de entrada generic.

Ingestão em entradas personalizadas genéricas.
Enriquecimento de metadados O contexto de metadados das entradas é capturado usando aspectos e tipos de aspectos. O contexto dos metadados das entradas é capturado usando tags e modelos de tags.
Pesquisar A pesquisa é realizada das seguintes formas:
  • Todas as fontes do Google Cloud descritas em Origens compatíveis com o Google Cloud
  • Entradas personalizadas que são criadas no catálogo do Dataplex
  • Aspectos criados no Dataplex Catalog
  • Entradas personalizadas que são criadas no Data Catalog e são trazidos para o Catálogo do Dataplex

Os resultados da pesquisa incluem apenas os recursos que pertencem ao mesmo Perímetro do VPC-SC como o projeto em que a pesquisa é realizada. Ao usar o botão Console do Google Cloud, é o projeto selecionado no console do Google Cloud.

Para pesquisar entradas, você precisa de pelo menos um dos papéis do IAM do Dataplex Catalog no projeto usado para pesquisa. As permissões nos resultados da pesquisa são verificados independentemente do projeto selecionado.

A pesquisa é realizada das seguintes formas:
  • Todas as fontes do Google Cloud descritas em Entradas e grupos de entradas
  • Entradas personalizadas criadas no Data Catalog
  • Tags criadas no Data Catalog

A tabela a seguir descreve como os recursos do Dataplex Catalog correspondem aos recursos do Data Catalog:

Como mapear entre o Dataplex Catalog e o Data Catalog recursos
Recurso de catálogo do Dataplex Recurso do Data Catalog Descrição
Tipo de aspecto (global) Modelo de tag pública Os modelos de tags são recursos regionais. No entanto, é possível usá-las para criar tags em várias regiões. Os modelos de tag correspondem a global aspecto no Catálogo do Dataplex.
Aspecto opcional Tag pública As tags públicas no Data Catalog correspondem a aspectos opcionais no Catálogo do Dataplex.
Grupo de entradas Grupo de entradas Para origens do Google Cloud, grupos de entradas do sistema, como @bigquery são estabelecidos por projeto no Catálogo do Dataplex.
Aspectos obrigatórios da entrada personalizada Entrada personalizada

Compartilhamento do Data Catalog e do Dataplex Catalog conceitos semelhantes para entradas personalizadas.

As propriedades de entrada padrão são modeladas como aspectos obrigatórios em Catálogo do Dataplex.

Aspectos obrigatórios da entrada do sistema Entrada do sistema (Google Cloud) Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados em aspectos obrigatórios dos tipos de aspecto definidos pelo sistema.

Para mais informações sobre os recursos disponíveis no Data Catalog e sem suporte no Dataplex Catalog, consulte a seção Recursos sem suporte no Dataplex Catalog neste documento.

Fontes compatíveis

Os metadados das seguintes origens do Google Cloud são ingeridos automaticamente no Catálogo do Dataplex:

  • Trocas e listagens do Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo colunas informações familiares)
  • Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL. Consulte Como ativar a integração do Cloud SQL.
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos, conjuntos de dados, grupos de recursos, visualizações de recursos e instâncias de lojas on-line da Vertex AI

Para importar metadados de uma fonte externa para o Dataplex Catalog, use um pipeline de conectividade gerenciada.

Restrições de projeto e local

Os recursos do catálogo do Dataplex são hospedados em vários projetos e locais. Considere as seguintes limitações:

  • Local:

    • O local de uma entrada deve corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser global.
    • Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local que a entrada ou o tipo de aspecto precisa ser global.
    • Um tipo de entrada precisa ser composto por tipos de aspecto armazenados no mesmo local que o tipo de entrada.
  • Projeto:

    • Se um tipo de entrada fizer referência a tipos de aspecto personalizados, os tipos de aspecto precisarão ser no mesmo local e projeto do tipo de entrada.

Recursos sem suporte no catálogo do Dataplex

Os seguintes recursos disponíveis no Data Catalog não são com suporte no catálogo do Dataplex:

  • Não há suporte para aspectos particulares e tipos de aspecto no Dataplex Catalog. O acesso aos aspectos é regido pelos permissões associadas à entrada que contém os aspectos. Para mais informações, consulte Papéis do IAM do Dataplex.
  • Não há suporte para a pesquisa de tags de política no catálogo do Dataplex pesquisar; Consequentemente, os predicados policytag e policytagid não funcionam. na pesquisa do catálogo do Dataplex.
  • Para entradas personalizadas do Data Catalog que são levadas o Dataplex Catalog, as permissões atuais do IAM para sua os metadados atuais não são propagados automaticamente para os copiados. É necessário configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
  • Não é possível enviar resultados de jobs da Proteção de dados sensíveis para o Dataplex Catalog.
  • Não é possível listar tipos de entrada e de aspecto em projetos usando a API. Você pode limitar a solicitação de lista a apenas um projeto.
  • Não é possível anexar termos do glossário de negócios às colunas das entradas do Dataplex.
  • Não é possível modificar a lista de tipos de aspecto obrigatórios em um tipo de entrada após antes de criar o tipo de entrada.
  • Para entradas criadas diretamente no Catálogo do Dataplex, A linhagem de dados mostra eventos de linhagem no console do Google Cloud mas não exibe informações detalhadas sobre a origem, o destino ou o processo. Além disso, a linhagem de dados não exibe aspectos para nenhuma entrada no console do Google Cloud.

Preços

O Dataplex usa a SKU de armazenamento de metadados para cobrar por esse armazenamento. Para mais informações, consulte Preços do Dataplex.

Não há cobranças para usar os seguintes recursos:

  • Criar e gerenciar recursos do Dataplex Catalog
  • Pesquisar chamadas de API para o Dataplex Catalog
  • Consultas de pesquisa realizadas na página do Dataplex Catalog no console do Google Cloud

A seguir