Sincronização do metastore para o Data Catalog no Dataproc

É possível ativar o serviço metastore do Dataproc para o Data Catalog Sync para aproveitar a descoberta e o gerenciamento de metadados. Depois de ativados, os metadados do banco de dados e da tabela são sincronizados automaticamente do metastore do Dataproc para o Data Catalog.

O Data Catalog permite incluir tags e pesquisar recursos específicos do serviço, como bancos de dados e tabelas.

O que é o Data Catalog?

O Data Catalog é um serviço de metadados escalonável e totalmente gerenciado na família de produtos de análise de dados do Google Cloud. Ele oferece mecanismos unificados de visualização e marcação para metadados técnicos e comerciais.

Para mais informações, consulte estes guias dos recursos do Data Catalog:

Permissões

O Data Catalog segue as permissões no nível do metastore do Dataproc. Para metadados sincronizados do metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no metastore do Dataproc também se aplicam aos metadados no Data Catalog.

No momento do acesso, o Data Catalog verifica as permissões de cada banco de dados/tabela do metastore para que apenas usuários com acesso ao serviço Metastore do Dataproc possam ver os recursos do serviço sincronizados como entradas no Data Catalog.

Como ativar a sincronização do Data Catalog

Depois de ativar a sincronização do Data Catalog, ele executa sincronizações completas e em tempo real do serviço metastore do Dataproc.

{data_catalog_name_short}} sincroniza os seguintes metadados:

  • Instâncias
  • Bancos de dados, incluindo nome e descrição
  • Tabelas, incluindo nome, descrição e esquema (colunas com descrições)
  • Propriedades do banco de dados
  • Propriedades da tabela

A tabela a seguir mostra o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:

Recurso metastore do Dataproc Recurso do Data Catalog
Instância Grupo de entrada
Entrada
Banco de dados Entrada
Tabela Entrada
Coluna Schema

É possível ativar o serviço Metastore do Dataproc para sincronizar o Data Catalog quando você cria ou atualiza um serviço do metastore do Dataproc usando o Console do Google Cloud. Você pode desativar a sincronização da mesma forma.

Como criar um serviço com a sincronização do Data Catalog ativada

A sincronização do Data Catalog está desativada por padrão.

Para ativar a sincronização do Data Catalog para um novo serviço:

Console

  1. No Console do Cloud, abra a página do metastore do Dataproc:

    Abra o metastore do Dataproc no Console do Cloud

  2. Na parte superior da página Dataproc metastore, clique no botão Criar. A página Criar serviço é aberta.

  3. Configure o serviço como quiser.

  4. Em Integração de metadados, ative a Sincronização do Data Catalog para sincronizar o serviço metastore do Dataproc com o Data Catalog.

  5. Clique em Enviar.

Como ativar ou desativar a sincronização do Data Catalog para um serviço existente

Para ativar ou desativar a sincronização do Data Catalog para um serviço existente:

Console

  1. No Console do Cloud, abra a página do metastore do Dataproc:

    Abra o metastore do Dataproc no Console do Cloud

  2. Na página Metastore do Dataproc, clique no nome do serviço que você quer atualizar. A página Detalhes do serviço desse serviço é aberta.

  3. Na guia Configuração, clique no botão Editar. A página Editar serviço é aberta.

  4. Na seção Integração de metadados, clique para ativar ou desativar Ativar para Sincronização do Data Catalog.

  5. Clique no botão Enviar para atualizar o serviço.

Como pesquisar com o Data Catalog

Você pode pesquisar metadados sincronizados do metastore do Dataproc usando o Data Catalog.

Não há opções de pesquisa personalizadas para o metastore do Dataproc, mas há várias maneiras de pesquisar diferentes recursos do metastore do Dataproc:

  • Instância do metastore do Dataproc
    • Por nome de exibição
    • Maneiras padrão do Data Catalog: por tags, etc.
  • Banco de dados
    • Por nome de exibição
    • Por descrição
    • Por instância do metastore do Dataproc
    • Maneiras padrão do Data Catalog: por tags, etc.
  • Tabela:
    • Por nome de exibição
    • Por descrição
    • Por nome de coluna
    • Por descrição de coluna
    • Por banco de dados
    • Por instância do metastore do Dataproc
    • Maneiras padrão do Data Catalog: por tags, etc.

Perguntas frequentes

  • Aguarde seis horas antes de verificar a integridade e a precisão da sincronização de metadados no Data Catalog.

  • Se você suspeitar que há um problema com a sincronização do metastore do Dataproc com o Data Catalog, verifique os registros de publicação de metadados no Cloud Logging do Metastore do Dataproc com o filtro textPayload=~".*Publish.*". Para mais informações sobre como acessar registros, consulte Como acessar registros de jobs no Logging.

  • Se você desativar a sincronização do Data Catalog, os metadados deixarão de ser sincronizados do metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.

  • Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.

  • O Data Catalog segue os períodos de armazenamento padrão do Google Cloud.

  • Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.

A seguir