Metastore do Dataproc para sincronização do Data Catalog

É possível ativar o serviço metastore do Dataproc para a sincronização do Data Catalog para aproveitar o serviço de descoberta de metadados e gerenciamento de metadados. Depois de ativados, os metadados do banco de dados e da tabela, como informações de esquema, são sincronizados automaticamente do metastore do Dataproc com o Data Catalog.

O Data Catalog permite marcar e pesquisar recursos específicos do serviço, como bancos de dados e tabelas.

O que é o Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável da família de produtos Google Analytics. Ele oferece mecanismos unificados de visualização e marcação para metadados técnicos e comerciais.

Para mais informações, consulte os seguintes guias de recursos do Data Catalog:

Permissões

O Data Catalog segue as permissões de nível do metastore do Dataproc. Para metadados sincronizados do metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no metastore do Dataproc também se aplicam aos metadados no Data Catalog.

O Data Catalog verifica as permissões de cada banco de dados/tabela do metastore no momento do acesso para que apenas usuários com acesso ao serviço metastore do Dataproc possam ver os recursos de serviço sincronizados como entradas no Data Catalog para começar.

Como ativar a sincronização do Data Catalog

Depois de ativar a sincronização do Data Catalog, o Data Catalog realiza sincronizações completas e completas do serviço metastore do Dataproc.

Ele sincroniza os seguintes metadados:

  • Instâncias
  • Bancos de dados, incluindo nome e descrição
  • Tabelas, incluindo nome, descrição e esquema (colunas com descrições)
  • Propriedades do banco de dados
  • Propriedades da tabela

A tabela a seguir mostra o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:

Recurso do metastore do Dataproc Recurso do Data Catalog
Instância Entrada do grupo
de entrada
Banco de dados Entrada
Tabela Entrada
Column Schema

É possível ativar o serviço metastore do Dataproc para a sincronização do Data Catalog ao criar ou atualizar um serviço metastore do Dataproc usando o Console do Google Cloud. Você pode desativar a sincronização da mesma maneira.

Como criar um serviço com a sincronização do Data Catalog ativada

A sincronização do Data Catalog é desativada por padrão.

Para ativar a sincronização do Data Catalog para um novo serviço:

Console

  1. No Console do Cloud, abra a página do metastore do Dataproc:

    Abra o metastore do Dataproc no Console do Cloud

  2. Na parte superior da página Metastore do Dataproc, clique no botão Criar. A página Criar serviço é aberta.

  3. Configure o serviço como quiser.

  4. Em Integração de metadados, ative a sincronização do Data Catalog para sincronizar o serviço metastore do Dataproc com o Data Catalog.

  5. Clique em Enviar.

Como ativar ou desativar a sincronização do Data Catalog para um serviço existente

Para ativar ou desativar a sincronização do Data Catalog para um serviço existente:

Console

  1. No Console do Cloud, abra a página do metastore do Dataproc:

    Abra o metastore do Dataproc no Console do Cloud

  2. Na página Metastore do Dataproc, clique no nome do serviço que você quer atualizar. A página Detalhes do serviço desse serviço é aberta.

  3. Na guia Configuração, clique no botão Editar. A página Editar serviço é aberta.

  4. Na seção Integração de metadados, clique para ativar ou desativar a opção Ativar para Sincronização do Data Catalog.

  5. Clique no botão Enviar para atualizar o serviço.

Como pesquisar com o Data Catalog

É possível pesquisar metadados do metastore sincronizados do Dataproc usando o Data Catalog.

Não existem opções de pesquisa personalizadas para o metastore do Dataproc, mas existem várias maneiras de pesquisar diferentes recursos do metastore do Dataproc:

  • Instância do metastore do Dataproc
    • Por nome de exibição
    • Maneiras padrão do Data Catalog: por tags etc.
  • Banco de dados
    • Por nome de exibição
    • Por descrição
    • Por instância do metastore do Dataproc
    • Maneiras padrão do Data Catalog: por tags etc.
  • Tabela:
    • Por nome de exibição
    • Por descrição
    • Por nome de coluna
    • Por descrição da coluna
    • Por banco de dados
    • Por instância do metastore do Dataproc
    • Maneiras padrão do Data Catalog: por tags etc.

Perguntas frequentes

  • Aguarde seis horas antes de verificar a exatidão e a exatidão da sincronização do Data Catalog.

  • Se você suspeitar que há um problema com a sincronização do metastore do Dataproc para o Data Catalog, verifique os registros de publicação de metadados no Dataproc Metastore Cloud Logging com o filtro textPayload=~".*Publish.*". Para mais informações sobre como acessar registros, consulte Como acessar registros de jobs no Logging.

  • Se você desativar a sincronização do Data Catalog, os metadados não serão mais sincronizados do metastore do Dataproc para o Data Catalog. No entanto, os metadados que já foram sincronizados permanecerão no Data Catalog.

  • Se você excluir uma instância do metastore do Dataproc, as entradas de instância, banco de dados e tabela correspondentes também serão removidas do Data Catalog.

  • O Data Catalog segue os períodos de retenção padrão do Google Cloud.

  • Não há custos extras para ativar a sincronização do Data Catalog para o Dataproc Metastore.

A seguir