Sincronizar o metastore do Dataproc com o Data Catalog

Neste documento, mostramos como sincronizar os metadados do metastore do Dataproc com o Data Catalog.

Depois de sincronizar esses dois serviços, é possível usar o Data Catalog para gerenciar os metadados do metastore do Dataproc. Por exemplo, ao usar o Data Catalog, é possível marcar e pesquisar recursos específicos do Metastore do Dataproc, como bancos de dados e tabelas.

O que é o Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável. Ele fornece mecanismos unificados de visualização e inclusão de tags para metadados técnicos e comerciais.

Para mais informações, consulte os seguintes guias de recursos do Data Catalog:

Antes de começar

Funções exigidas

Para receber as permissões necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog, peça ao administrador para conceder a você o papel do IAM Visualizar entradas sincronizadas do Metastore do Dataproc no Data Catalog (roles/metastore.metadataViewer) no seu projeto, com base no princípio de privilégio mínimo. Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Esse papel predefinido contém as permissões necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog:

  • Para acessar bancos de dados do metastore do Dataproc: metastore.databases.get
  • Para listar bancos de dados do metastore do Dataproc: metastore.databases.list
  • Para acessar as tabelas do metastore do Dataproc: metastore.tables.get
  • Para listar tabelas do metastore do Dataproc: metastore.tables.list

Talvez você também consiga receber essas permissões com papéis personalizados ou outros papéis predefinidos.

Para mais informações sobre permissões e papéis específicos do metastore do Dataproc, consulte Gerenciar o acesso com o IAM.

Como as permissões funcionam entre os serviços

O Data Catalog segue as permissões no nível metastore do Dataproc. Para metadados sincronizados do Metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no Metastore do Dataproc também se aplicam aos metadados no Data Catalog.

O Data Catalog verifica as permissões de cada banco de dados e tabela de metastore no momento do acesso para que apenas os usuários com acesso ao serviço Metastore do Dataproc possam ver os recursos de serviço sincronizados como entradas no Data Catalog.

Como a sincronização do Data Catalog funciona com o metastore do Dataproc

É possível ativar a sincronização do metastore do Dataproc para o Data Catalog ao criar ou atualizar um serviço do metastore do Dataproc usando o console do Google Cloud. É possível desativar a sincronização da mesma forma.

Depois de ativar a sincronização do Data Catalog, os metadados do banco de dados e da tabela são sincronizados automaticamente do Metastore do Dataproc para o Data Catalog.

O Data Catalog sincroniza os seguintes metadados:

  • Instances.
  • Bancos de dados, incluindo nome e descrição.
  • Tabelas, incluindo nome, descrição e esquema (colunas com descrições).

Veja na tabela a seguir o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:

Recurso metastore do Dataproc Recurso do Data Catalog
Instância Entrada no grupo
Entrada
Banco de dados Entrada
Tabela Entrada
Coluna Esquema

Considerações

  • Pode levar até seis horas para que os metadados do metastore do Dataproc sejam totalmente sincronizados com o Data Catalog. Após a conclusão da sincronização inicial, as mudanças incrementais são sincronizadas sob demanda (como atualizações de tabela ou banco de dados). Se uma sincronização sob demanda falhar, ela será incluída em uma nova execução em lote a cada seis horas.

  • Se você suspeitar que há um problema com a sincronização, verifique os registros de publicação de metadados no Cloud Logging do metastore do Dataproc com o filtro textPayload=~".*Publish.*". Para mais informações sobre como acessar registros, consulte Acessar registros de job no Logging.

  • Se você desativar a sincronização do Data Catalog, os metadados não serão mais sincronizados do Metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.

  • Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.

  • Os metadados do Dataproc Metastore armazenados no Data Catalog seguem os períodos de armazenamento padrão do Google Cloud.

  • Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.

Criar um serviço com a sincronização do Data Catalog ativada

A sincronização do Data Catalog está desativada por padrão.

Para ativar a sincronização do Data Catalog para um novo serviço, use as instruções a seguir.

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc:

    Acessar o metastore do Dataproc

  2. Na parte superior da página Metastore do Dataproc, clique em Criar.

    A página Criar serviço é aberta.

  3. Selecione a versão do metastore do Dataproc que você quer usar.

  4. Em Integração de metadados, clique em Sincronização do Data Catalog.

  5. Para as opções de configuração de serviço restantes, use os padrões fornecidos. ou configure seu serviço conforme necessário.

  6. Clique em Enviar.

Ativar ou desativar a sincronização do Data Catalog para um serviço atual

Para ativar ou desativar a sincronização do Data Catalog para um serviço atual, use as instruções a seguir.

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc:

    Acessar o metastore do Dataproc

  2. Na página Metastore do Dataproc, clique no serviço que você quer atualizar.

    A página Detalhes do serviço é aberta.

  3. Na guia Configuração, clique em Editar.

    A página Editar serviço é aberta.

  4. Em Integração de metadados, ative ou desative a Sincronização do Data Catalog.

  5. Clique em Enviar.

Pesquisar com o Data Catalog

É possível pesquisar metadados sincronizados do metastore do Dataproc usando o Data Catalog.

Não há opções de pesquisa personalizadas para o metastore do Dataproc, mas há várias maneiras de pesquisar diferentes recursos do metastore do Dataproc, incluindo as seguintes:

  • Instância do metastore do Dataproc
    • Por nome de exibição
    • Funções padrão do Data Catalog, por exemplo, usando tags.
  • Banco de dados
    • Por nome de exibição
    • Por descrição
    • Por instância do metastore do Dataproc
    • Funções padrão do Data Catalog, por exemplo, usando tags.
  • Tabela
    • Por nome de exibição
    • Por descrição
    • Por nome da coluna
    • Por descrição de coluna
    • Por banco de dados
    • Por instância do metastore do Dataproc
    • Funções padrão do Data Catalog, por exemplo, usando tags.

A seguir