O Dataplex Universal Catalog oferece uma plataforma central para armazenar, gerir e aceder aos seus metadados. Este documento descreve as funcionalidades de gestão de metadados do Dataplex Universal Catalog.
O Dataplex Universal Catalog oferece um inventário unificado de recursos na nuvem Google Cloud e no local. Os metadados dos Google Cloud recursos são automaticamente obtidos e armazenados pelo Dataplex Universal Catalog. Também pode introduzir os seus próprios metadados para recursos de terceiros no Dataplex Universal Catalog.
Pode enriquecer o seu inventário com metadados técnicos e empresariais adicionais que captam o contexto e o conhecimento sobre os seus recursos. Também pode pesquisar e descobrir os seus dados na organização e ativar a administração de dados nos seus recursos de dados.
Pode definir a sua experiência de catálogo predefinida para o Dataplex Universal Catalog. Se estiver a usar o Data Catalog, faça a transição do conteúdo e da utilização do Data Catalog autónomo para o Dataplex Universal Catalog. Para mais informações, consulte o artigo Transição do Data Catalog para o Dataplex Universal Catalog.
Como funciona a gestão de metadados
As funcionalidades de gestão de metadados no Dataplex Universal Catalog baseiam-se nos seguintes conceitos:
- Entrada
Uma entrada representa um recurso de dados. Isto é semelhante às entradas no catálogo de dados.
Exemplo: uma tabela do BigQuery denominada
test-project.sales_data.customer_orders
é representada como uma entrada.Uma coluna de uma entrada representa uma subsecção específica de um recurso de dados, como uma única coluna numa tabela do BigQuery ou um campo num ficheiro JSON. As colunas permitem-lhe anexar metadados a campos individuais numa entrada e não apenas à entrada como um todo. Não define colunas diretamente. Estas são criadas quando anexa um aspeto do tipo
schema
a uma entrada. As colunas também são denominadas caminhos.Exemplo: para descrever o campo
email_address
na entradacustomer_orders
como contendo informações de identificação pessoal (PII), pode anexar um aspeto à colunaemail_address
.Para mais informações sobre as entradas, consulte o artigo Entradas.
- Aspeto
Um aspeto é um conjunto de campos de metadados relacionados. Pode anexar um aspeto a uma entrada para descrever a entrada como um todo. A maioria dos metadados é descrita por aspetos numa entrada. Isto é semelhante às etiquetas no catálogo de dados. No entanto, os aspetos são armazenados nas entradas e não como recursos autónomos.
Exemplo: para definir todas as colunas da entrada
customer_orders
, comoorder_id
,order_date
eemail_address
, pode anexar um aspetoschema
à entradacustomer_orders
. Para especificar que a colunaemail_address
contém um endereço de email, pode anexar um aspetoschema
à colunaemail_address
.Para mais informações sobre os aspetos, consulte o artigo Aspetos.
- Tipo de entrada
Um tipo de entrada é um modelo para criar entradas. Estabelece os elementos de metadados essenciais, descritos como uma lista de aspetos obrigatórios para as entradas deste tipo. Um tipo de entrada especifica que tipos de aspetos são necessários para um recurso de dados específico.
Exemplo: para garantir que todas as entradas têm os metadados necessários, pode criar um tipo de entrada denominado
StandardOperationalTable
que exija que um aspetoOwnerInfo
seja anexado a qualquer nova entrada deste tipo.Para mais informações sobre os tipos de entradas, consulte o artigo Tipos de entradas.
- Tipo de aspeto
Um tipo de aspeto é um modelo reutilizável para aspetos. Todos os aspetos são uma instância de um tipo de aspeto. Isto é semelhante aos modelos de etiquetas no catálogo de dados.
Exemplo: para definir um modelo reutilizável para informações de contacto, pode definir um tipo de aspeto denominado
ContactInfo
com campos paraowner_name
,email
esupport_team
. Em seguida, pode criarContactInfo
aspetos a partir deste modelo e anexá-los a entradas ou colunas.Para mais informações sobre os tipos de formatos, consulte o artigo Tipos de formatos.
- Grupo de entradas
Um grupo de entradas é um contentor de entradas que serve como uma unidade de gestão para estas entradas. Por exemplo, use um grupo de entradas para configurar o controlo de acesso da gestão de identidade e de acesso, a atribuição de projetos ou a localização das entradas no grupo de entradas. Isto é semelhante aos grupos de entradas no catálogo de dados.
Exemplo: uma equipa de finanças quer gerir as autorizações de todas as tabelas em simultâneo. Pode criar um grupo de entradas denominado
production_finance_data
e incluir nele as entradas da tabelacustomer_orders
, da tabelaquarterly_revenue
e da tabelaemployee_salaries
.Para mais informações sobre grupos de entradas, consulte o artigo Grupos de entradas.
Figura 1. Entradas e grupos de entradas Figura 2. Tipos de aspetos e tipos de entradas
Dataplex Universal Catalog versus Data Catalog
O Dataplex Universal Catalog oferece capacidades integradas para gerir os seus metadados. O armazenamento de metadados e os métodos da API estão integrados na API Dataplex.
As principais funcionalidades de gestão de metadados no Dataplex Universal Catalog incluem o seguinte:
Metamodelo mais robusto
- Entradas escritas. Pode aplicar normas de metadados mínimas definindo o conteúdo de metadados obrigatório para entradas personalizadas
- Metamodelo configurável pelo utilizador para entradas personalizadas, o que ajuda a tornar o carregamento personalizado mais robusto e melhora a consistência e a abrangência dos metadados personalizados.
- Suporte para uma maior variedade e complexidade de metadados, incluindo suporte para estruturas aninhadas, como listas, mapas e matrizes.
Escalabilidade melhorada, incluindo a capacidade de interagir com todos os metadados associados a uma entrada através de operações CRUD atómicas únicas e a capacidade de obter várias anotações de metadados associadas em respostas de pesquisa ou de lista.
A tabela seguinte compara as funcionalidades de gestão de metadados do Dataplex Universal Catalog e do Data Catalog:
Funcionalidade | Dataplex Universal Catalog | Data Catalog |
---|---|---|
Fontes Google Cloud compatíveis | Todas as fontes, conforme descrito na secção Fontes suportadas Google Cloud deste documento. | Todas as origens descritas em Entradas e grupos de entradas. |
Carregamento de fontes personalizadas | Carregamento em entradas personalizadas com estrutura regida, definida por tipos de entradas. As entradas personalizadas e os grupos de entradas do catálogo de dados são disponibilizados no
Dataplex Universal Catalog sob o | Carregamento em entradas personalizadas genéricas. |
Enriquecimento de metadados | O contexto dos metadados para as entradas é capturado através de glossários empresariais, aspetos e tipos de aspetos. | O contexto dos metadados para as entradas é captado através de glossários empresariais, etiquetas e modelos de etiquetas. |
Pesquisar | A pesquisa é realizada sobre o seguinte:
Os resultados da pesquisa incluem apenas os recursos que pertencem à mesma organização e ao mesmo perímetro do VPC-SC que o projeto no qual a pesquisa é realizada. Quando usa a Google Cloud consola, este é o projeto que está selecionado na consola. Tenha em atenção que, para pesquisar entradas, precisa de, pelo menos, uma das seguintes funções de IAM no projeto usado para a pesquisa: administrador do catálogo do Dataplex, editor do catálogo do Dataplex ou visualizador do catálogo do Dataplex. As autorizações nos resultados da pesquisa são verificadas independentemente do projeto selecionado. |
A pesquisa é realizada sobre o seguinte:
|
Linhagem de dados |
A linhagem de dados obtém detalhes de entrada para nós de recursos através da API Dataplex. A consola Google Cloud apresenta os aspetos anexados. |
A linhagem de dados obtém detalhes de entradas para nós de recursos através da API Data Catalog. |
Glossários empresariais |
O glossário empresarial permite-lhe criar uma taxonomia para termos empresariais e associá-los a recursos de dados e colunas. Pode usar a pesquisa para descobrir recursos associados a um termo. |
O glossário empresarial permite-lhe criar uma taxonomia para termos empresariais e associá-los a colunas. Pode usar a pesquisa para descobrir recursos associados a um termo. |
A tabela seguinte descreve como os recursos no Dataplex Universal Catalog correspondem aos recursos do Data Catalog:
Recurso do Dataplex Universal Catalog | Recurso do Data Catalog | Descrição |
---|---|---|
Tipo de formato (global ) |
Modelo de etiqueta público | Os modelos de etiquetas são recursos regionais. No entanto, pode usá-las para criar etiquetas em várias regiões. Os modelos de etiquetas correspondem a tipos de aspetos global no Dataplex Universal Catalog. |
Aspeto opcional | Etiqueta pública | As etiquetas públicas no Data Catalog correspondem a aspetos opcionais no Dataplex Universal Catalog. |
Grupo de entradas | Grupo de entradas | Para Google Cloud origens, os grupos de entradas do sistema, como @bigquery
, são estabelecidos por projeto no Dataplex Universal Catalog. |
Aspetos necessários da entrada personalizada | Entrada personalizada | O Data Catalog e o Dataplex Universal Catalog partilham conceitos semelhantes para entradas personalizadas. As propriedades de entrada padrão são modeladas como aspetos obrigatórios no Dataplex Universal Catalog. |
Aspetos necessários para a entrada no sistema | Entrada do sistema (Google Cloud) | Os metadados que descrevem entidades incorporadas, como Schema para tabelas do BigQuery, são capturados em aspetos obrigatórios dos tipos de aspetos definidos pelo sistema. |
Glossários empresariais | Glossários empresariais | Use glossários para criar uma taxonomia de termos empresariais que padronize o contexto empresarial em toda a empresa. |
Para mais informações sobre as funcionalidades disponíveis no Data Catalog, mas não suportadas no catálogo universal do Dataplex, consulte a secção Funcionalidades de gestão de metadados não suportadas no catálogo universal do Dataplex neste documento.
Para utilizadores existentes do catálogo de dados
Se já estiver a usar o catálogo de dados, tenha em atenção o seguinte:
- As entradas personalizadas, o contexto da vista geral, os glossários e os grupos de entradas que criou no Data Catalog são disponibilizados no Dataplex Universal Catalog.
- Enquanto administrador, pode optar por disponibilizar simultaneamente o conteúdo dos modelos de etiquetas e das etiquetas do Data Catalog no Dataplex Universal Catalog. Para mais informações, consulte o artigo Transição do Data Catalog para o Dataplex Universal Catalog.
- Quando pesquisa recursos de dados no Dataplex Universal Catalog, são incluídos os metadados criados diretamente no Dataplex Universal Catalog e os metadados transferidos do Data Catalog para o Dataplex Universal Catalog.
- Quando pesquisa recursos de dados no Data Catalog, apenas os metadados criados no Data Catalog são incluídos.
- As descrições dos grupos de entradas no Data Catalog que excedam 1024 carateres são truncadas para 1024 carateres no Dataplex Universal Catalog.
- Como administrador, para disponibilizar glossários e links associados entre termos empresariais e colunas que criou no Data Catalog no Dataplex Universal Catalog, siga o processo de transição.
Para mais informações sobre como fazer a transição do conteúdo e da utilização do Data Catalog autónomo para o Dataplex Universal Catalog, consulte o artigo Transição do Data Catalog para o Dataplex Universal Catalog.
Fontes suportadas
- Descoberta automática de dados do Cloud Storage
- Os metadados das seguintes Google Cloud origens são carregados automaticamente
no Dataplex Universal Catalog:
- Listagens e trocas de partilha do BigQuery (anteriormente Analytics Hub)
- Conjuntos de dados, tabelas, modelos, rotinas, associações e conjuntos de dados associados do BigQuery
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes da família de colunas)
- Repositórios do Dataform e recursos de código
- Instâncias, bases de dados, esquemas, tabelas e vistas do Cloud SQL: consulte o artigo Ativar a integração do Cloud SQL
- Serviços, bases de dados e tabelas do Dataproc Metastore
- Tópicos do Pub/Sub
- Instâncias, bases de dados, tabelas e vistas do Spanner
- Modelos, conjuntos de dados, grupos de funcionalidades, vistas de funcionalidades e instâncias de armazenamento online do Vertex AI
Para importar metadados de uma origem externa para o Dataplex Universal Catalog, pode usar um pipeline de conetividade gerido.
Restrições de projetos e localizações
Os recursos do catálogo no Dataplex Universal Catalog estão alojados em vários projetos e localizações. Aplicam-se as seguintes limitações:
Localização:
- A localização de uma entrada tem de corresponder à localização do tipo de entrada ou o tipo de entrada tem de ser
global
. - Um aspeto adicionado a uma entrada tem de se basear num tipo de aspeto armazenado na mesma localização que a entrada ou o tipo de aspeto tem de ser
global
. - Um tipo de entrada tem de ser composto por tipos de aspetos armazenados na mesma localização que o tipo de entrada.
- A localização de uma entrada tem de corresponder à localização do tipo de entrada ou o tipo de entrada tem de ser
Projeto:
- Se um tipo de entrada fizer referência a tipos de aspetos personalizados, os tipos de aspetos têm de estar na mesma localização e projeto que o tipo de entrada.
Funcionalidades de gestão de metadados que não são suportadas no Dataplex Universal Catalog
As seguintes funcionalidades disponíveis no Data Catalog não são suportadas no Dataplex Universal Catalog:
- O conceito de aspetos privados e tipos de aspetos privados (contrapartes das etiquetas privadas e dos modelos de etiquetas privadas no catálogo de dados) não existe no catálogo universal do Dataplex.
- A pesquisa de etiquetas de políticas não é suportada na pesquisa do Dataplex Universal Catalog. Consequentemente, os predicados
policytag
epolicytagid
não funcionam na pesquisa do Dataplex Universal Catalog. - Quando importa grupos de entradas personalizadas, entradas personalizadas, modelos de etiquetas e etiquetas do Data Catalog para o Dataplex Universal Catalog, as respetivas autorizações originais não são transferidas. Tem de configurar explicitamente as autorizações do IAM para os metadados copiados antes de os usar.
- O suporte do Terraform para gerir aspetos e entradas personalizadas não está disponível. Em alternativa, pode gerir programaticamente os seus metadados personalizados em grande escala através de um pipeline de conetividade gerido ou dos métodos da API de importação de metadados. (O Terraform suporta grupos de entradas, tipos de entradas e tipos de aspetos. Consulte o artigo Aprovisione recursos do Dataplex Universal Catalog com o Terraform.)
- O envio de resultados da inspeção da proteção de dados confidenciais diretamente para o catálogo no catálogo universal do Dataplex não é compatível. Em alternativa, pode enviar os resultados da inspeção da proteção de dados confidenciais para o Data Catalog e, em seguida, fazer a transição dos resultados para o catálogo universal do Dataplex.
- Não pode listar tipos de entradas e tipos de aspetos em projetos através da API. Pode restringir o pedido de lista apenas a um projeto.
- O registo de lagos, zonas, recursos e entidades como entradas do Dataplex Universal Catalog não é suportado. Isto significa que os metadados do catálogo de dados anexados a lagos, zonas, recursos e entidades não são transferidos para o catálogo no catálogo universal do Dataplex. Além disso, quando usa a pesquisa do Dataplex Universal Catalog, a pesquisa de zonas e entidades não é suportada, e a filtragem por lagos e zonas não é suportada. Pode usar lagos e zonas independentemente do catálogo no Dataplex Universal Catalog.
- A pesquisa de administrador, que garante a memorização total, não é suportada. Em alternativa, pode exportar metadados para o Cloud Storage e, em seguida, consultá-los a partir do BigQuery.
Para uma comparação das funcionalidades e dos recursos suportados no Dataplex Universal Catalog e no Data Catalog, consulte a secção Dataplex Universal Catalog versus Data Catalog neste documento.
Preços
O Dataplex Universal Catalog usa o SKU de armazenamento de metadados para cobrar pelo armazenamento de metadados. Para mais informações, consulte os preços do Dataplex Universal Catalog.
Não existem custos para usar o seguinte:
- Criar e gerir recursos do catálogo no Dataplex Universal Catalog
- Chamadas da API Search para o Dataplex Universal Catalog
- Consultas de pesquisa realizadas na página Dataplex Universal Catalog na Google Cloud consola
O que se segue?
- Saiba como pesquisar recursos no Dataplex Universal Catalog.
- Saiba como gerir recursos e enriquecer metadados.
- Saiba como gerir entradas e carregar origens personalizadas.
- Saiba mais sobre a transição do Data Catalog para o Dataplex Universal Catalog.
- Saiba mais sobre a transição de glossários para o Dataplex Universal Catalog.