Sincronização do metastore do Dataproc para o Data Catalog

Ative o serviço Metastore do Dataproc para a sincronização do Data Catalog para aproveitar a descoberta e o gerenciamento de metadados. Depois de ativados, os metadados do banco de dados e da tabela são sincronizados automaticamente do metastore do Dataproc para o Data Catalog.

Com o Data Catalog, é possível marcar e pesquisar recursos específicos do serviço, como bancos de dados e tabelas.

O que é o Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável da família de produtos de análise de dados do Google Cloud. Ele oferece mecanismos unificados de visualização e inclusão de tags para metadados técnicos e comerciais.

Para mais informações, consulte os seguintes guias de recursos do Data Catalog:

Permissões

O Data Catalog segue as permissões no nível metastore do Dataproc. Para metadados sincronizados do Metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no Metastore do Dataproc também se aplicam aos metadados no Data Catalog.

O Data Catalog verifica as permissões de cada banco de dados/tabela do metastore no momento do acesso para que apenas usuários com acesso ao serviço Metastore do Dataproc possam ver os recursos do serviço sincronizados como entradas no Data Catalog.

Você precisa solicitar roles/metastore.metadataViewer para ver as entradas sincronizadas do metastore do Dataproc no Data Catalog. O roles/metastore.Admin e o roles/metastore.Editor não são compatíveis com permissões de bancos de dados e tabelas do metastore.

Ativar o Data Catalog Sync

Depois de ativar a sincronização do Data Catalog, ele realizará sincronizações completas e em tempo real do serviço do metastore do Dataproc.

O Data Catalog sincroniza os seguintes metadados:

  • Instâncias
  • Bancos de dados, incluindo nome e descrição
  • Tabelas, incluindo nome, descrição e esquema (colunas com descrições)
  • Propriedades do banco de dados
  • Propriedades da tabela

Veja na tabela a seguir o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:

Recurso metastore do Dataproc Recurso do Data Catalog
Instância Entrada no grupo
Entrada
Banco de dados Entrada
Tabela Entrada
Coluna Esquema

É possível ativar o serviço Metastore do Dataproc para a sincronização do Data Catalog ao criar ou atualizar um serviço do metastore do Dataproc usando o Console do Google Cloud. É possível desativar a sincronização da mesma forma.

Criar um serviço com a sincronização do Data Catalog ativada

A sincronização do Data Catalog está desativada por padrão.

Para ativar a sincronização do Data Catalog para um novo serviço:

Console

  1. No Console do Cloud, abra a página do metastore do Dataproc:

    Abra o metastore do Dataproc no Console do Cloud

  2. Na parte superior da página Metastore do Dataproc, clique no botão Criar. A página Criar serviço é aberta.

  3. Configure o serviço como quiser.

  4. Em Integração de metadados, ative a Sincronização do Data Catalog para sincronizar o serviço Metastore do Dataproc para o Data Catalog.

  5. Clique em Enviar.

Ativar ou desativar a sincronização do Data Catalog para um serviço atual

Para ativar ou desativar a sincronização do Data Catalog para um serviço atual, faça o seguinte:

Console

  1. No Console do Cloud, abra a página do metastore do Dataproc:

    Abra o metastore do Dataproc no Console do Cloud

  2. Na página Metastore do Dataproc, clique no nome do serviço que você quer atualizar. A página Detalhes do serviço desse serviço é aberta.

  3. Na guia Configuração, clique no botão Editar. A página Editar serviço é aberta.

  4. Na seção Integração de metadados, clique para ativar ou desativar a opção Ativar para Sincronização do Data Catalog.

  5. Clique no botão Enviar para atualizar o serviço.

Pesquisar com o Data Catalog

Você pode pesquisar os metadados do metastore do Dataproc sincronizados usando o Data Catalog.

Não há opções personalizadas de pesquisa para o metastore do Dataproc, mas existem várias maneiras de procurar diferentes recursos do metastore do Dataproc:

  • Instância do metastore do Dataproc
    • Por nome de exibição
    • Maneiras padrão do Data Catalog: por tags, etc.
  • Banco de dados
    • Por nome de exibição
    • Por descrição
    • Por instância do metastore do Dataproc
    • Maneiras padrão do Data Catalog: por tags, etc.
  • Tabela:
    • Por nome de exibição
    • Por descrição
    • Por nome da coluna
    • Por descrição de coluna
    • Por banco de dados
    • Por instância do metastore do Dataproc
    • Maneiras padrão do Data Catalog: por tags, etc.

Perguntas frequentes

  • Aguarde seis horas antes de verificar a integridade e a precisão da sincronização de metadados.

  • Se você suspeitar que há um problema com a sincronização do metastore do Dataproc para o Data Catalog, verifique os registros de publicação de metadados no Cloud Logging do metastore do Dataproc com o filtro textPayload=~".*Publish.*". Para mais informações sobre como acessar registros, consulte Acessar registros de job no Logging.

  • Se você desativar a sincronização do Data Catalog, os metadados deixarão de ser sincronizados do Metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.

  • Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.

  • O Data Catalog segue os períodos de armazenamento padrão do Google Cloud.

  • Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.

A seguir