Visão geral do catálogo do Dataplex

Neste documento, descrevemos o Catálogo do Dataplex, que fornece uma plataforma para armazenar, gerenciar e acessar seus metadados.

O Catálogo do Dataplex fornece um inventário unificado de os recursos do Google Cloud, como o BigQuery, entre outros, como recursos no local. Os metadados dos recursos do Google Cloud são coletados automaticamente, e você transfere metadados de recursos de terceiros para Catálogo do Dataplex.

O Catálogo do Dataplex permite enriquecer seu inventário com metadados empresariais e técnicos para capturar o contexto e o conhecimento sobre seus do Google Cloud. Com o Catálogo do Dataplex, é possível pesquisar e descobrir seus dados em toda a organização e ative a governança de dados sobre seus dados de uma empresa.

Casos de uso

É possível usar o catálogo do Dataplex para fazer o seguinte:

  • Descubra e entenda seus dados. Catálogo do Dataplex fornece visibilidade sobre seus recursos de dados em toda a organização. Permite a encontrar recursos relevantes para as necessidades de consumo de dados. Fornece contexto recursos de dados, o que ajuda a entender a adequação dos dados e recursos para as necessidades do consumidor.

  • Ative a governança e o gerenciamento de dados. Catálogo do Dataplex fornece metadados que podem informar e alimentar a governança de dados de gerenciamento de projetos.

  • Mantenha um repositório extensível e abrangente para seus metadados. O Dataplex Catalog armazena e fornece acesso a metadados que são extraídos automaticamente dos recursos do Google Cloud. Você pode integrar seus próprios metadados de sistemas que não são do Google Cloud. É possível aprimorar todos metadados com anotações de metadados comerciais e técnicos adicionais.

Como o catálogo do Dataplex funciona

O Catálogo do Dataplex é baseado nos seguintes conceitos:

  • Entrada: uma entrada representa um recurso de dados. A maioria dos metadados é descrita por aspectos de uma entrada. Isso é semelhante a entradas no Data Catalog. Para mais informações, consulte Entradas.

  • Aspecto: um aspecto é um conjunto de campos de metadados relacionados dentro de uma entrada. Um aspecto pode ser interpretado como um elemento básico de uma entrada ou metadados adicionais a ela. Isso é semelhante a tags no Data Catalog, No entanto, os aspectos são armazenados nas entradas, e não como recursos independentes. Para mais informações, consulte Aspectos.

  • Tipo de aspecto: é um modelo reutilizável para aspectos. Todas aspecto é uma instância de um tipo de aspecto. Isso é semelhante a modelos de tag no Data Catalog. Para mais informações, consulte Tipos de aspecto.

  • Grupo de entradas: um grupo de entradas é um contêiner de entradas que serve como um unidade de gerenciamento para essas entradas. Por exemplo, use um grupo de entrada para configura o controle de acesso do IAM, a atribuição do projeto ou o local do entradas no grupo. Isso é semelhante a grupos de entrada no Data Catalog. Para mais informações, consulte Grupos de entradas.

  • Tipo de entrada: um tipo de entrada é um modelo para criar entradas. Ela estabelece os elementos essenciais de metadados, descritos como uma lista de aspectos obrigatórios para entradas desse tipo. Para mais informações, consulte Tipos de entrada.

    Entradas e grupos de entradas
    Figura 1. entradas e grupos de entradas
    Tipos de aspecto e de entrada
    Figura 2. Tipos de aspecto e de entrada

Confira a seguir alguns dos casos de uso do catálogo do Dataplex:

  • Como analista de dados ou de negócios, você pode pesquisar entradas no organização e explorar metadados associados às entradas. Para Para mais informações, consulte Pesquisar recursos de dados.
  • Como proprietário ou governador de dados, você pode capturar informações técnicas e metadados de negócios anotando suas entradas com aspectos. Para mais informações, consulte Gerenciar aspectos e aprimorar metadados.
  • Como proprietário ou governador de dados, é possível trazer consistência metadados definindo os padrões de anotação (usando tipos de aspecto) e entradas personalizadas (usando tipos de entrada). Para mais informações, consulte Gerenciar aspectos e aprimorar metadados.
  • Como engenheiro de dados, é possível ter um inventário unificado para seus recursos, incluindo recursos do Google Cloud e de sistemas de terceiros. Os recursos do Google Cloud são coletados automaticamente do Dataplex Catalog e recursos que não são do Google Cloud colhidos por você. Para mais informações, consulte Gerencie entradas e faça a ingestão de origens personalizadas.

Se você já estiver usando o Data Catalog, observe o seguinte:

  • Entradas personalizadas, contexto de visão geral e grupos de entradas criados em O Data Catalog é disponibilizado no Dataplex Catalog.
  • As tags e os modelos de tags criados no Data Catalog não estão disponíveis em Catálogo do Dataplex.
  • Quando você pesquisa recursos de dados no catálogo do Dataplex, os metadados que foram criados diretamente no Dataplex Catalog e os metadados que foram trazidos do Data Catalog para Catálogo do Dataplex estão incluídos.
  • Quando você pesquisa recursos de dados no Data Catalog, apenas os metadados criados no Data Catalog são incluídos.
  • as descrições do grupo de entradas no Data Catalog que excedem 1.024 são truncados em 1.024 caracteres Catálogo do Dataplex.

Catálogo do Dataplex x Data Catalog

O Catálogo do Dataplex fornece um recurso para gerenciar metadados no Dataplex. Ele vem com um armazenamento de metadados separado e um novo conjunto de métodos de API integrados à API Dataplex.

Os principais recursos do catálogo do Dataplex incluem:

  • Metamodelo mais robusto

    • Entradas digitadas. Você pode aplicar padrões mínimos de metadados definindo conteúdo de metadados obrigatório para entradas personalizadas
    • Metamodelo configurável pelo usuário para entradas personalizadas, que ajuda a tornar ingestão mais robusta e melhora a consistência de metadados personalizados e abrangência.
    • Suporte a uma maior variedade e complexidade de metadados, incluindo suporte para aninhar estruturas como listas, mapas e matrizes.
  • Escalabilidade aprimorada, incluindo a capacidade de interagir com todos os metadados associado a uma entrada por meio de operações CRUD únicas e atômicas capacidade de buscar várias anotações de metadados associadas em pesquisas ou listas de resposta.

A tabela a seguir compara os recursos do Dataplex Catalog e Data Catalog:

Comparação entre o Dataplex Catalog e o Data Catalog
Recurso Catálogo do Dataplex Data Catalog
Fontes compatíveis com o Google Cloud Todas as fontes, conforme descrito nos Origens compatíveis com o Google Cloud deste documento. Todas as fontes descritas em Entradas e grupos de entradas.
Ingestão de origens personalizadas

A ingestão em entradas personalizadas com estrutura regida, definida pelo de entrada.

As entradas personalizadas e os grupos de entradas do Data Catalog são disponibilizados em Catálogo do Dataplex no tipo de entrada generic.

Ingestão em entradas personalizadas genéricas.
Aprimoramento de metadados O contexto dos metadados das entradas é capturado usando aspectos e tipos de aspecto. O contexto dos metadados das entradas é capturado usando tags e modelos de tags.
Pesquisar A pesquisa é realizada da seguinte forma:
  • Todas as fontes do Google Cloud descritas em Origens compatíveis com o Google Cloud
  • Entradas personalizadas que são criadas no catálogo do Dataplex
  • Aspectos criados no catálogo do Dataplex
  • Entradas personalizadas que são criadas no Data Catalog e são trazidos para o Catálogo do Dataplex

Os resultados da pesquisa incluem apenas os recursos que pertencem ao mesmo Perímetro do VPC-SC como o projeto em que a pesquisa é realizada. Ao usar o botão Console do Google Cloud, é o projeto selecionado no console do Google Cloud.

A pesquisa é realizada da seguinte forma:
  • Todas as fontes do Google Cloud descritas em Entradas e grupos de entradas
  • Entradas personalizadas criadas no Data Catalog
  • Tags criadas no Data Catalog

A tabela a seguir descreve como os recursos do Dataplex Catalog correspondem aos recursos do Data Catalog:

Como mapear entre o Dataplex Catalog e o Data Catalog recursos
Recurso de catálogo do Dataplex Recurso do Data Catalog Descrição
Tipo de aspecto (global) Modelo de tag público Os modelos de tag são recursos regionais. No entanto, é possível usá-los para criar tags em várias regiões. Os modelos de tag correspondem a global aspecto no Catálogo do Dataplex.
Aspecto opcional Tag pública As tags públicas no Data Catalog correspondem a aspectos opcionais no Catálogo do Dataplex.
Grupo de entradas Grupo de entradas Para origens do Google Cloud, grupos de entradas do sistema, como @bigquery são estabelecidos por projeto no Catálogo do Dataplex.
Aspectos obrigatórios da entrada personalizada Entrada personalizada

Compartilhamento do Data Catalog e do Dataplex Catalog conceitos semelhantes para entradas personalizadas.

As propriedades de entrada padrão são modeladas como aspectos obrigatórios em Catálogo do Dataplex.

Aspectos obrigatórios da entrada do sistema Entrada no sistema (Google Cloud) Metadados que descrevem entidades integradas, como Schema para do BigQuery, são capturadas nos aspectos necessários da tipos de aspecto definidos pelo sistema.

Para mais informações sobre os recursos disponíveis no do Data Catalog e não forem compatíveis com ele, consulte Recursos sem suporte no catálogo do Dataplex (em inglês). neste documento.

Fontes compatíveis com o Google Cloud

Os metadados das seguintes origens do Google Cloud são ingeridos automaticamente no Catálogo do Dataplex:

  • Trocas e listagens do Analytics Hub
  • conjuntos de dados, tabelas, modelos, rotinas, conexões e conjuntos de dados vinculados
  • Instâncias, clusters e tabelas do Bigtable (incluindo colunas informações familiares)
  • Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL
  • Serviços, bancos de dados e tabelas do Dataproc Metastore
  • Tópicos do Pub/Sub
  • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Modelos e conjuntos de dados da Vertex AI

Restrições de projeto e local

Os recursos do catálogo do Dataplex são hospedados em vários projetos e locais. Considere as seguintes limitações:

  • Local:

    • O local de uma entrada deve corresponder ao local do tipo de entrada ou o tipo de entrada precisa ser global.
    • Um aspecto adicionado a uma entrada precisa ser baseado em um tipo de aspecto armazenado no mesmo local da entrada ou o tipo de aspecto precisa ser global.
    • Um tipo de entrada precisa ser composto por tipos de aspecto armazenados no mesmo como o tipo de entrada.
  • Projeto:

    • Se um tipo de entrada fizer referência a tipos de aspecto personalizados, os tipos de aspecto precisarão ser no mesmo local e projeto do tipo de entrada.

Recursos que não têm suporte no catálogo do Dataplex

Os seguintes recursos disponíveis no Data Catalog não são com suporte no catálogo do Dataplex:

  • A noção de aspectos particulares e tipos de aspecto não tem suporte em Catálogo do Dataplex. O acesso aos aspectos é regido pelos permissões associadas à entrada que contém os aspectos. Para mais informações, consulte Papéis do IAM do Dataplex.
  • Não há suporte para a pesquisa de tags de política no catálogo do Dataplex pesquisar; Consequentemente, os predicados policytag e policytagid não funcionam. na pesquisa do catálogo do Dataplex.
  • Para entradas personalizadas do Data Catalog que são levadas o Dataplex Catalog, as permissões atuais do IAM para sua os metadados atuais não são propagados automaticamente para os copiados. Você deve configure explicitamente as permissões do IAM para os metadados copiados antes de usá-los.
  • Enviando resultados do job de Proteção de Dados Sensíveis para O Catálogo do Dataplex não é compatível.
  • Não é possível listar tipos de entrada e de aspecto em projetos usando a API. Só é possível definir o escopo da solicitação de lista para um projeto.
  • Não é possível anexar o glossário de negócios às colunas das entradas do Dataplex.
  • Não é possível modificar a lista de tipos de aspecto obrigatórios em um tipo de entrada após antes de criar o tipo de entrada.

Preços

O Dataplex usa a SKU de armazenamento de metadados para cobrar por esse armazenamento. Para mais informações, consulte Preços do Dataplex.

Não há cobranças para usar o seguinte:

  • Como criar e gerenciar recursos do catálogo do Dataplex
  • Pesquisar chamadas de API para o catálogo do Dataplex
  • Consultas de pesquisa realizadas na página Catálogo do Dataplex na Console do Google Cloud

A seguir