Acerca da gestão de metadados no Dataplex Universal Catalog

O Dataplex Universal Catalog oferece uma plataforma central para armazenar, gerir e aceder aos seus metadados. Este documento descreve as funcionalidades de gestão de metadados do Dataplex Universal Catalog.

O Dataplex Universal Catalog oferece um inventário unificado de recursos na nuvem Google Cloud e no local. Os metadados dos Google Cloud recursos são automaticamente obtidos e armazenados pelo Dataplex Universal Catalog. Também pode introduzir os seus próprios metadados para recursos de terceiros no Dataplex Universal Catalog.

Pode enriquecer o seu inventário com metadados técnicos e empresariais adicionais que captam o contexto e o conhecimento sobre os seus recursos. Também pode pesquisar e descobrir os seus dados na organização e ativar a administração de dados nos seus recursos de dados.

Pode definir a sua experiência de catálogo predefinida para o Dataplex Universal Catalog. Se estiver a usar o Data Catalog, faça a transição do conteúdo e da utilização do Data Catalog autónomo para o Dataplex Universal Catalog. Para mais informações, consulte o artigo Transição do Data Catalog para o Dataplex Universal Catalog.

Como funciona a gestão de metadados

As funcionalidades de gestão de metadados no Dataplex Universal Catalog baseiam-se nos seguintes conceitos:

Entrada

Uma entrada representa um recurso de dados. Isto é semelhante às entradas no catálogo de dados.

Exemplo: uma tabela do BigQuery denominada test-project.sales_data.customer_orders é representada como uma entrada.

Uma coluna de uma entrada representa uma subsecção específica de um recurso de dados, como uma única coluna numa tabela do BigQuery ou um campo num ficheiro JSON. As colunas permitem-lhe anexar metadados a campos individuais numa entrada e não apenas à entrada como um todo. Não define colunas diretamente. Estas são criadas quando anexa um aspeto do tipo schema a uma entrada. As colunas também são denominadas caminhos.

Exemplo: para descrever o campo email_address na entrada customer_orders como contendo informações de identificação pessoal (PII), pode anexar um aspeto à coluna email_address.

Para mais informações sobre as entradas, consulte o artigo Entradas.

Aspeto

Um aspeto é um conjunto de campos de metadados relacionados. Pode anexar um aspeto a uma entrada para descrever a entrada como um todo. A maioria dos metadados é descrita por aspetos numa entrada. Isto é semelhante às etiquetas no catálogo de dados. No entanto, os aspetos são armazenados nas entradas e não como recursos autónomos.

Exemplo: para definir todas as colunas da entrada customer_orders, como order_id, order_date e email_address, pode anexar um aspeto schema à entrada customer_orders. Para especificar que a coluna email_address contém um endereço de email, pode anexar um aspeto schema à coluna email_address.

Para mais informações sobre os aspetos, consulte o artigo Aspetos.

Tipo de entrada

Um tipo de entrada é um modelo para criar entradas. Estabelece os elementos de metadados essenciais, descritos como uma lista de aspetos obrigatórios para as entradas deste tipo. Um tipo de entrada especifica que tipos de aspetos são necessários para um recurso de dados específico.

Exemplo: para garantir que todas as entradas têm os metadados necessários, pode criar um tipo de entrada denominado StandardOperationalTable que exija que um aspeto OwnerInfo seja anexado a qualquer nova entrada deste tipo.

Para mais informações sobre os tipos de entradas, consulte o artigo Tipos de entradas.

Tipo de aspeto

Um tipo de aspeto é um modelo reutilizável para aspetos. Todos os aspetos são uma instância de um tipo de aspeto. Isto é semelhante aos modelos de etiquetas no catálogo de dados.

Exemplo: para definir um modelo reutilizável para informações de contacto, pode definir um tipo de aspeto denominado ContactInfo com campos para owner_name, email e support_team. Em seguida, pode criar ContactInfo aspetos a partir deste modelo e anexá-los a entradas ou colunas.

Para mais informações sobre os tipos de formatos, consulte o artigo Tipos de formatos.

Grupo de entradas

Um grupo de entradas é um contentor de entradas que serve como uma unidade de gestão para estas entradas. Por exemplo, use um grupo de entradas para configurar o controlo de acesso da gestão de identidade e de acesso, a atribuição de projetos ou a localização das entradas no grupo de entradas. Isto é semelhante aos grupos de entradas no catálogo de dados.

Exemplo: uma equipa de finanças quer gerir as autorizações de todas as tabelas em simultâneo. Pode criar um grupo de entradas denominado production_finance_datae incluir nele as entradas da tabela customer_orders, da tabela quarterly_revenue e da tabela employee_salaries.

Para mais informações sobre grupos de entradas, consulte o artigo Grupos de entradas.

Entradas e grupos de entradas
Figura 1. Entradas e grupos de entradas
Tipos de aspetos e tipos de entradas
Figura 2. Tipos de aspetos e tipos de entradas

Dataplex Universal Catalog versus Data Catalog

O Dataplex Universal Catalog oferece capacidades integradas para gerir os seus metadados. O armazenamento de metadados e os métodos da API estão integrados na API Dataplex.

As principais funcionalidades de gestão de metadados no Dataplex Universal Catalog incluem o seguinte:

  • Metamodelo mais robusto

    • Entradas escritas. Pode aplicar normas de metadados mínimas definindo o conteúdo de metadados obrigatório para entradas personalizadas
    • Metamodelo configurável pelo utilizador para entradas personalizadas, o que ajuda a tornar o carregamento personalizado mais robusto e melhora a consistência e a abrangência dos metadados personalizados.
    • Suporte para uma maior variedade e complexidade de metadados, incluindo suporte para estruturas aninhadas, como listas, mapas e matrizes.
  • Escalabilidade melhorada, incluindo a capacidade de interagir com todos os metadados associados a uma entrada através de operações CRUD atómicas únicas e a capacidade de obter várias anotações de metadados associadas em respostas de pesquisa ou de lista.

A tabela seguinte compara as funcionalidades de gestão de metadados do Dataplex Universal Catalog e do Data Catalog:

Comparação entre o Dataplex Universal Catalog e o Data Catalog
Funcionalidade Dataplex Universal Catalog Data Catalog
Fontes Google Cloud compatíveis Todas as fontes, conforme descrito na secção Fontes suportadas Google Cloud deste documento. Todas as origens descritas em Entradas e grupos de entradas.
Carregamento de fontes personalizadas

Carregamento em entradas personalizadas com estrutura regida, definida por tipos de entradas.

As entradas personalizadas e os grupos de entradas do catálogo de dados são disponibilizados no Dataplex Universal Catalog sob o generic tipo de entrada.

Carregamento em entradas personalizadas genéricas.
Enriquecimento de metadados O contexto dos metadados para as entradas é capturado através de glossários empresariais, aspetos e tipos de aspetos. O contexto dos metadados para as entradas é captado através de glossários empresariais, etiquetas e modelos de etiquetas.
Pesquisar A pesquisa é realizada sobre o seguinte:
  • Todas as Google Cloud fontes descritas em Fontes Google Cloud compatíveis
  • Entradas personalizadas criadas no Dataplex Universal Catalog
  • Aspetos criados no Dataplex Universal Catalog
  • Entradas personalizadas criadas no Data Catalog e importadas para o Dataplex Universal Catalog

Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro do VPC-SC que o projeto no qual a pesquisa é realizada. Quando usa a Google Cloud consola, este é o projeto que está selecionado na consola.

Tenha em atenção que, para pesquisar entradas, precisa de, pelo menos, uma das seguintes funções de IAM no projeto usado para a pesquisa: administrador do catálogo do Dataplex, editor do catálogo do Dataplex ou visualizador do catálogo do Dataplex. As autorizações nos resultados da pesquisa são verificadas independentemente do projeto selecionado.

A pesquisa é realizada sobre o seguinte:
  • Todas as Google Cloud origens descritas em Entradas e grupos de entradas
  • Entradas personalizadas criadas no catálogo de dados
  • Etiquetas criadas no catálogo de dados
Linhagem de dados

A linhagem de dados obtém detalhes de entrada para nós de recursos através da API Dataplex.

A consola Google Cloud apresenta os aspetos anexados.

A linhagem de dados obtém detalhes de entradas para nós de recursos através da API Data Catalog.

Glossários empresariais

O glossário empresarial permite-lhe criar uma taxonomia para termos empresariais e associá-los a recursos de dados e colunas. Pode usar a pesquisa para descobrir recursos associados a um termo.

O glossário empresarial permite-lhe criar uma taxonomia para termos empresariais e associá-los a colunas. Pode usar a pesquisa para descobrir recursos associados a um termo.

A tabela seguinte descreve como os recursos no Dataplex Universal Catalog correspondem aos recursos do Data Catalog:

Mapeamento entre o Dataplex Universal Catalog e os recursos do Data Catalog
Recurso do Dataplex Universal Catalog Recurso do Data Catalog Descrição
Tipo de formato (global) Modelo de etiqueta público Os modelos de etiquetas são recursos regionais. No entanto, pode usá-las para criar etiquetas em várias regiões. Os modelos de etiquetas correspondem a tipos de aspetos global no Dataplex Universal Catalog.
Aspeto opcional Etiqueta pública As etiquetas públicas no Data Catalog correspondem a aspetos opcionais no Dataplex Universal Catalog.
Grupo de entradas Grupo de entradas Para Google Cloud origens, os grupos de entradas do sistema, como @bigquery , são estabelecidos por projeto no Dataplex Universal Catalog.
Aspetos necessários da entrada personalizada Entrada personalizada

O Data Catalog e o Dataplex Universal Catalog partilham conceitos semelhantes para entradas personalizadas.

As propriedades de entrada padrão são modeladas como aspetos obrigatórios no Dataplex Universal Catalog.

Aspetos necessários para a entrada no sistema Entrada do sistema (Google Cloud) Os metadados que descrevem entidades incorporadas, como Schema para tabelas do BigQuery, são capturados em aspetos obrigatórios dos tipos de aspetos definidos pelo sistema.
Glossários empresariais Glossários empresariais Use glossários para criar uma taxonomia de termos empresariais que padronize o contexto empresarial em toda a empresa.

Para mais informações sobre as funcionalidades disponíveis no Data Catalog, mas não suportadas no catálogo universal do Dataplex, consulte a secção Funcionalidades de gestão de metadados não suportadas no catálogo universal do Dataplex neste documento.

Para utilizadores existentes do catálogo de dados

Se já estiver a usar o catálogo de dados, tenha em atenção o seguinte:

  • As entradas personalizadas, o contexto da vista geral, os glossários e os grupos de entradas que criou no Data Catalog são disponibilizados no Dataplex Universal Catalog.
  • Enquanto administrador, pode optar por disponibilizar simultaneamente o conteúdo dos modelos de etiquetas e das etiquetas do Data Catalog no Dataplex Universal Catalog. Para mais informações, consulte o artigo Transição do Data Catalog para o Dataplex Universal Catalog.
  • Quando pesquisa recursos de dados no Dataplex Universal Catalog, são incluídos os metadados criados diretamente no Dataplex Universal Catalog e os metadados transferidos do Data Catalog para o Dataplex Universal Catalog.
  • Quando pesquisa recursos de dados no Data Catalog, apenas os metadados criados no Data Catalog são incluídos.
  • As descrições dos grupos de entradas no Data Catalog que excedam 1024 carateres são truncadas para 1024 carateres no Dataplex Universal Catalog.
  • Como administrador, para disponibilizar glossários e links associados entre termos empresariais e colunas que criou no Data Catalog no Dataplex Universal Catalog, siga o processo de transição.

Para mais informações sobre como fazer a transição do conteúdo e da utilização do Data Catalog autónomo para o Dataplex Universal Catalog, consulte o artigo Transição do Data Catalog para o Dataplex Universal Catalog.

Fontes suportadas

  • Descoberta automática de dados do Cloud Storage
  • Os metadados das seguintes Google Cloud origens são carregados automaticamente no Dataplex Universal Catalog:
    • Listagens e trocas de partilha do BigQuery (anteriormente Analytics Hub)
    • Conjuntos de dados, tabelas, modelos, rotinas, associações e conjuntos de dados associados do BigQuery
    • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes da família de colunas)
    • Repositórios do Dataform e recursos de código
    • Instâncias, bases de dados, esquemas, tabelas e vistas do Cloud SQL: consulte o artigo Ativar a integração do Cloud SQL
    • Serviços, bases de dados e tabelas do Dataproc Metastore
    • Tópicos do Pub/Sub
    • Instâncias, bases de dados, tabelas e vistas do Spanner
    • Modelos, conjuntos de dados, grupos de funcionalidades, vistas de funcionalidades e instâncias de armazenamento online do Vertex AI

Para importar metadados de uma origem externa para o Dataplex Universal Catalog, pode usar um pipeline de conetividade gerido.

Restrições de projetos e localizações

Os recursos do catálogo no Dataplex Universal Catalog estão alojados em vários projetos e localizações. Aplicam-se as seguintes limitações:

  • Localização:

    • A localização de uma entrada tem de corresponder à localização do tipo de entrada ou o tipo de entrada tem de ser global.
    • Um aspeto adicionado a uma entrada tem de se basear num tipo de aspeto armazenado na mesma localização que a entrada ou o tipo de aspeto tem de ser global.
    • Um tipo de entrada tem de ser composto por tipos de aspetos armazenados na mesma localização que o tipo de entrada.
  • Projeto:

    • Se um tipo de entrada fizer referência a tipos de aspetos personalizados, os tipos de aspetos têm de estar na mesma localização e projeto que o tipo de entrada.

Funcionalidades de gestão de metadados que não são suportadas no Dataplex Universal Catalog

As seguintes funcionalidades disponíveis no Data Catalog não são suportadas no Dataplex Universal Catalog:

  • O conceito de aspetos privados e tipos de aspetos privados (contrapartes das etiquetas privadas e dos modelos de etiquetas privadas no catálogo de dados) não existe no catálogo universal do Dataplex.
  • A pesquisa de etiquetas de políticas não é suportada na pesquisa do Dataplex Universal Catalog. Consequentemente, os predicados policytag e policytagid não funcionam na pesquisa do Dataplex Universal Catalog.
  • Quando importa grupos de entradas personalizadas, entradas personalizadas, modelos de etiquetas e etiquetas do Data Catalog para o Dataplex Universal Catalog, as respetivas autorizações originais não são transferidas. Tem de configurar explicitamente as autorizações do IAM para os metadados copiados antes de os usar.
  • O suporte do Terraform para gerir aspetos e entradas personalizadas não está disponível. Em alternativa, pode gerir programaticamente os seus metadados personalizados em grande escala através de um pipeline de conetividade gerido ou dos métodos da API de importação de metadados. (O Terraform suporta grupos de entradas, tipos de entradas e tipos de aspetos. Consulte o artigo Aprovisione recursos do Dataplex Universal Catalog com o Terraform.)
  • O envio de resultados da inspeção da proteção de dados confidenciais diretamente para o catálogo no catálogo universal do Dataplex não é compatível. Em alternativa, pode enviar os resultados da inspeção da proteção de dados confidenciais para o Data Catalog e, em seguida, fazer a transição dos resultados para o catálogo universal do Dataplex.
  • Não pode listar tipos de entradas e tipos de aspetos em projetos através da API. Pode restringir o pedido de lista apenas a um projeto.
  • O registo de lagos, zonas, recursos e entidades como entradas do Dataplex Universal Catalog não é suportado. Isto significa que os metadados do catálogo de dados anexados a lagos, zonas, recursos e entidades não são transferidos para o catálogo no catálogo universal do Dataplex. Além disso, quando usa a pesquisa do Dataplex Universal Catalog, a pesquisa de zonas e entidades não é suportada, e a filtragem por lagos e zonas não é suportada. Pode usar lagos e zonas independentemente do catálogo no Dataplex Universal Catalog.
  • A pesquisa de administrador, que garante a memorização total, não é suportada. Em alternativa, pode exportar metadados para o Cloud Storage e, em seguida, consultá-los a partir do BigQuery.

Para uma comparação das funcionalidades e dos recursos suportados no Dataplex Universal Catalog e no Data Catalog, consulte a secção Dataplex Universal Catalog versus Data Catalog neste documento.

Preços

O Dataplex Universal Catalog usa o SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte os preços do Dataplex Universal Catalog.

Não existem custos para usar o seguinte:

  • Criar e gerir recursos do catálogo no Dataplex Universal Catalog
  • Chamadas da API Search para o Dataplex Universal Catalog
  • Consultas de pesquisa realizadas na página Dataplex Universal Catalog na Google Cloud consola

O que se segue?