Visão geral do Dataplex Catalog

Este documento descreve o Dataplex Catalog, que fornece uma plataforma para armazenar, gerenciar e acessar seus metadados.

O Dataplex Catalog fornece um inventário unificado de recursosGoogle Cloud , como o BigQuery, e outros recursos, como recursos locais. O Dataplex Catalog recupera automaticamente metadados de recursos Google Cloud , e você transfere metadados de recursos de terceiros para o Dataplex Catalog.

O Dataplex Catalog permite enriquecer seu inventário com mais metadados técnicos e comerciais para capturar o contexto e o conhecimento sobre seus recursos. Com o Dataplex Catalog, é possível pesquisar e descobrir seus dados em toda a organização e ativar a governança de dados sobre seus ativos.

Você pode definir a experiência de catálogo padrão como o Dataplex Catalog. Se você estiver usando o Data Catalog, faça a transição do conteúdo e do uso do Data Catalog para o Dataplex Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Catalog.

Casos de uso

Você pode usar o Dataplex Catalog para:

  • Descubra e entenda seus dados. O Dataplex Catalog oferece visibilidade dos recursos de dados em toda a organização. Ele permite encontrar recursos relevantes para as necessidades de consumo de dados. Ele fornece contexto para recursos de dados, o que ajuda a entender a adequação desses recursos para as necessidades do consumidor de dados.

  • Ative a governança e o gerenciamento de dados. O Dataplex Catalog fornece metadados que podem informar e aprimorar seus recursos de governança e gerenciamento de dados.

  • Mantenha um repositório extensível e abrangente para seus metadados. O Dataplex Catalog armazena e fornece acesso a metadados que são coletados automaticamente dos seus Google Cloud recursos. É possível integrar seus próprios metadados de sistemas nãoGoogle Cloud . É possível enriquecer todos os metadados com outras anotações de metadados comerciais e técnicos.

Como o Dataplex Catalog funciona

O Dataplex Catalog é baseado nos seguintes conceitos:

  • Entrada: representa um recurso de dados. A maioria dos metadados é descrita por aspectos em uma entrada. Isso é semelhante às entradas no Data Catalog. Para mais informações, consulte Entradas.

  • Aspecto: um conjunto de campos de metadados relacionados em uma entrada. Um aspecto pode ser interpretado como um elemento básico de uma entrada ou metadados adicionais para ela. Isso é semelhante às tags no Data Catalog, mas os aspectos são armazenados nas entradas e não como recursos independentes. Para mais informações, consulte Aspectos.

  • Tipo de aspecto: é um modelo reutilizável para aspectos. Cada aspecto é uma instância de um tipo de aspecto. Isso é semelhante aos modelos de tag no Data Catalog. Para mais informações, consulte Tipos de aspecto.

  • Grupo de entrada: um contêiner de entradas que serve como uma unidade de gerenciamento dessas entradas. Por exemplo, use um grupo de entrada para configurar o controle de acesso, a atribuição de projeto ou o local do Identity and Access Management para as entradas no grupo de entrada. Isso é semelhante aos grupos de entradas no Data Catalog. Para mais informações, consulte Grupos de entradas.

  • Tipo de entrada: é um modelo para criar entradas. Ele estabelece os elementos de metadados essenciais, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Para mais informações, consulte Tipos de entrada.

    Entradas e grupos de entradas
    Figura 1. Entradas e grupos de entradas
    Tipos de aspecto e de entrada
    Figura 2. Tipos de aspecto e de entrada

Confira alguns casos de uso do Dataplex Catalog:

  • Como analista de dados ou de negócios, você pode pesquisar entradas em toda a organização e analisar os metadados associados a elas. Para mais informações, consulte Pesquisar recursos de dados.
  • Como proprietário ou administrador de dados, você pode capturar outros metadados técnicos e comerciais anotando suas entradas com aspectos. Para mais informações, consulte Gerenciar aspectos e enriquecer metadados.
  • Como proprietário ou administrador de dados, você pode trazer consistência aos seus metadados definindo os padrões de anotação (usando tipos de aspecto) e entradas personalizadas (usando tipos de entrada). Para mais informações, consulte Gerenciar aspectos e enriquecer metadados.
  • Como engenheiro de dados, você pode ter um inventário unificado para seus recursos, incluindo recursos Google Cloud e recursos de sistemas de terceiros. Os recursosGoogle Cloud são coletados automaticamente pelo Dataplex Catalog, e os recursos nãoGoogle Cloud são coletados por você. Para mais informações, consulte Gerenciar entradas e processar origens personalizadas.

Para usuários atuais do Data Catalog

Se você já usa o Data Catalog, observe o seguinte:

  • As entradas personalizadas, o contexto de visão geral e os grupos de entrada que você criou no Data Catalog são disponibilizados no Dataplex Catalog.
  • Como administrador, você pode disponibilizar o conteúdo de modelos de tag e tags do Data Catalog simultaneamente no Dataplex Catalog. Para mais informações, consulte Fazer a transição do Data Catalog para o Dataplex Catalog.
  • Quando você pesquisa recursos de dados no Dataplex Catalog, os metadados criados diretamente no Dataplex Catalog e os metadados que foram transferidos do Data Catalog para o Dataplex Catalog são incluídos.
  • Quando você pesquisa recursos de dados no Data Catalog, apenas os metadados criados nele são incluídos.
  • As descrições de grupo de entrada no Data Catalog que excedem 1.024 caracteres são truncadas para 1.024 caracteres no Dataplex Catalog.

Para mais informações sobre como fazer a transição do conteúdo e do uso do Data Catalog para o Dataplex Catalog, consulte Fazer a transição do Data Catalog para o Dataplex Catalog.

Catálogo do Dataplex e Data Catalog

O Dataplex Catalog oferece um recurso para gerenciar seus metadados no Dataplex. Ele vem com um armazenamento de metadados separado e um novo conjunto de métodos de API integrados à API Dataplex.

Os principais recursos do Dataplex Catalog incluem:

  • Metamodelo mais robusto

    • Entradas digitadas. É possível aplicar padrões mínimos de metadados definindo o conteúdo de metadados necessário para entradas personalizadas.
    • Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar a ingestão personalizada mais robusta e melhora a consistência e a compreensão dos metadados personalizados.
    • Suporte a uma variedade e complexidade mais ampla de metadados, incluindo suporte para estruturas aninhadas, como listas, mapas e matrizes.
  • Melhoria na capacidade de escalonamento, incluindo a capacidade de interagir com todos os metadados associados a uma entrada por meio de operações atômicas CRUD e a capacidade de buscar várias anotações de metadados associadas a respostas de pesquisa ou de lista.

A tabela a seguir compara os recursos do Dataplex Catalog e do Data Catalog:

Comparação entre o Dataplex Catalog e o Data Catalog
Recurso Catálogo do Dataplex Data Catalog
Origens Google Cloud compatíveis Todas as fontes, conforme descrito na seção Fontes Google Cloud com suporte deste documento. Todas as fontes descritas em Entradas e grupos de entradas.
Transferência de origens personalizadas

Ingestão em entradas personalizadas com estrutura governada, definida por tipos de entrada.

As entradas e os grupos de entrada personalizados do Data Catalog são disponibilizados no Dataplex Catalog no tipo de entrada generic.

Ingestão em entradas personalizadas genéricas.
Enriquecimento de metadados O contexto de metadados das entradas é capturado usando aspectos e tipos de aspectos. O contexto de metadados das entradas é capturado usando tags e modelos de tag.
Pesquisar A pesquisa é realizada nos seguintes itens:
  • Todas as Google Cloud fontes descritas em Origens Google Cloud compatíveis
  • Entradas personalizadas criadas no Dataplex Catalog
  • Aspectos criados no Dataplex Catalog
  • Entradas personalizadas criadas no Data Catalog e transferidas para o Dataplex Catalog

Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro do VPC-SC do projeto em que a pesquisa é realizada. Ao usar o console do Google Cloud, esse é o projeto que é selecionado no console.

Para pesquisar entradas, você precisa de pelo menos um dos papéis do IAM do Dataplex Catalog no projeto usado para pesquisa. As permissões nos resultados da pesquisa são verificadas independentemente do projeto selecionado.

A pesquisa é realizada nos seguintes itens:
  • Todas as Google Cloud fontes descritas em Entradas e grupos de entradas
  • Entradas personalizadas criadas no Data Catalog
  • Tags criadas no Data Catalog
Linhagem de dados

A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Dataplex.

O console do Google Cloud mostra os aspectos anexados.

A linhagem de dados recupera detalhes de entrada para nós de recursos usando a API Data Catalog.

O console do Google Cloud mostra as tags anexadas e os termos do glossário.

A tabela a seguir descreve como os recursos do Dataplex Catalog correspondem aos recursos do Data Catalog:

Mapeamento entre recursos do Dataplex Catalog e do Data Catalog
Recurso do Dataplex Catalog Recurso do Data Catalog Descrição
Tipo de aspecto (global) Modelo de tag pública Os modelos de tags são recursos regionais. No entanto, é possível usá-las para criar tags em várias regiões. Os modelos de tag correspondem aos tipos de aspecto global no Dataplex Catalog.
Aspecto opcional Tag pública As tags públicas no Data Catalog correspondem a aspectos opcionais no Dataplex Catalog.
Grupo de entradas Grupo de entradas Para Google Cloud sources, os grupos de entrada do sistema, como @bigquery, são estabelecidos por projeto no Dataplex Catalog.
Aspectos obrigatórios da entrada personalizada Entrada personalizada

O Data Catalog e o Dataplex Catalog compartilham conceitos semelhantes para entradas personalizadas.

As propriedades de entrada padrão são modeladas como aspectos obrigatórios no Dataplex Catalog.

Aspectos obrigatórios para entrada no sistema Entrada do sistema (Google Cloud) Os metadados que descrevem entidades integradas, como Schema para tabelas do BigQuery, são capturados em aspectos obrigatórios dos tipos de aspecto definidos pelo sistema.

Para mais informações sobre os recursos disponíveis no Data Catalog, mas que não são compatíveis com o Dataplex Catalog, consulte a seção Recursos que não são compatíveis com o Dataplex Catalog neste documento.

Origens compatíveis

Os metadados das seguintes Google Cloud fontes são ingeridos automaticamente no Dataplex Catalog:

  • Trocas e listagens do Analytics Hub
  • Conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
  • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
  • Repositórios do Dataform e recursos de código
  • Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL: consulte Ativar a integração do Cloud SQL
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos, conjuntos de recursos, visualizações de recursos e instâncias de armazenamento on-line da Vertex AI

Para importar metadados de uma fonte externa para o Dataplex Catalog, use um pipeline de conectividade gerenciada.

Restrições de projeto e local

Os recursos do Dataplex Catalog estão armazenados em vários projetos e locais. Considere as seguintes limitações:

  • Local:

    • O local de uma entrada precisa corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser global.
    • Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local que a entrada ou o tipo de aspecto precisa ser global.
    • Um tipo de entrada precisa ser composto por tipos de aspecto armazenados no mesmo local que o tipo de entrada.
  • Projeto:

    • Se um tipo de entrada faz referência a tipos de aspecto personalizados, eles precisam estar no mesmo local e projeto que o tipo de entrada.

Recursos que não são compatíveis com o Dataplex Catalog

Os recursos abaixo, disponíveis no Data Catalog, não têm suporte no Dataplex Catalog:

  • O conceito de aspectos e tipos de aspectos particulares (contrapartes de tags e modelos de tags particulares no Data Catalog) não existe no Dataplex Catalog.
  • A pesquisa de tags de política não é compatível com a pesquisa do Dataplex Catalog. Consequentemente, os predicados policytag e policytagid não funcionam na pesquisa do Dataplex Catalog.
  • Quando você transfere grupos de entrada personalizados, entradas personalizadas, modelos de tags e tags do Data Catalog para o Dataplex Catalog, as permissões originais não são transferidas. É necessário configurar explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
  • O suporte do Terraform para gerenciamento de aspectos e entradas personalizadas não está disponível. Em vez disso, é possível gerenciar seus metadados personalizados em escala de forma programática usando um pipeline de conectividade gerenciada ou os métodos da API de importação de metadados. O suporte do Terraform para grupos, tipos de entrada e tipos de aspecto está disponível. Consulte Provisionar recursos do Dataplex com o Terraform.
  • Não é possível enviar resultados de inspeção de proteção de dados sensíveis diretamente para o Dataplex Catalog. Em vez disso, você pode enviar os resultados da inspeção de proteção de dados sensíveis para o Data Catalog e, em seguida, fazer a transição dos resultados para o Dataplex Catalog.
  • Não é possível listar tipos de entrada e de aspecto em projetos usando a API. Você pode limitar a solicitação de lista a apenas um projeto.
  • Não é possível anexar termos do glossário de negócios (pré-lançamento) às colunas das entradas do Dataplex Catalog.
  • Não é possível registrar lagos, zonas, recursos e entidades do Dataplex como entradas no Dataplex Catalog. Além disso, não há suporte para a filtragem por lagos ou zonas ao usar a pesquisa do Dataplex Catalog. É possível usar lakes e zonas independentemente do Dataplex Catalog.
  • A pesquisa de administrador, que garante a recuperação completa, não é compatível.

Para comparar os recursos e recursos compatíveis com o Dataplex Catalog e o Data Catalog, consulte a seção Dataplex Catalog x Data Catalog neste documento.

Preços

O Dataplex usa o SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte Preços do Dataplex.

Não há cobranças para usar os seguintes recursos:

  • Criar e gerenciar recursos do Dataplex Catalog
  • Chamadas de API de pesquisa para o Dataplex Catalog
  • Consultas de pesquisa realizadas na página do Dataplex Catalog no console do Google Cloud

A seguir