Este documento mostra como sincronizar os metadados do metastore do Dataproc com o Data Catalog.
Depois de sincronizar esses dois serviços, você poderá usar o Data Catalog para gerenciar os metadados do metastore do Dataproc. Por exemplo, com o Data Catalog, é possível marcar e pesquisar recursos específicos do metastore do Dataproc, como bancos de dados e tabelas.
O que é o Data Catalog
O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável. Ele oferece mecanismos unificados de visualização e inclusão de tags para metadados técnicos e comerciais.
Para mais informações, consulte os seguintes guias de recursos do Data Catalog:
Antes de começar
Funções exigidas
Para receber as permissões necessárias para sincronizar os metadados do Metastore do Dataproc com o Data Catalog,
peça ao administrador para conceder a você o papel do IAM
Acessar as entradas sincronizadas do Metastore do Dataproc no Data Catalog (roles/metastore.metadataViewer
) no seu projeto, com base no princípio de privilégio mínimo.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém as permissões necessárias para sincronizar os metadados do Dataproc Metastore com o Data Catalog. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As permissões a seguir são necessárias para sincronizar os metadados do Dataproc Metastore com o Data Catalog:
-
Para acessar os bancos de dados do Dataproc Metastore:
metastore.databases.get
-
Para listar os bancos de dados do Dataproc Metastore:
metastore.databases.list
-
Para acessar as tabelas do Dataproc Metastore:
metastore.tables.get
-
Para listar as tabelas do Dataproc Metastore:
metastore.tables.list
Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Para mais informações sobre papéis e permissões específicos do Dataproc Metastore, consulte Gerenciar o acesso com o IAM.Como as permissões funcionam entre os serviços
O Data Catalog segue as permissões no nível metastore do Dataproc. Para metadados sincronizados do Metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no Metastore do Dataproc também se aplicam aos metadados no Data Catalog.
O Data Catalog verifica as permissões de cada banco de dados e tabela do metastore no momento do acesso para que apenas usuários com acesso ao serviço Metastore do Dataproc possam ver os recursos do serviço sincronizado como entradas no Data Catalog.
Como a sincronização do Data Catalog funciona com o Metastore do Dataproc
É possível ativar a sincronização do Dataproc Metastore com o Data Catalog ao criar ou atualizar um serviço do metastore do Dataproc usando o console do Google Cloud. É possível desativar a sincronização da mesma forma.
Depois de ativar a sincronização do Data Catalog, os metadados do banco de dados e da tabela são sincronizados automaticamente do metastore do Dataproc para o Data Catalog.
O Data Catalog sincroniza os seguintes metadados:
- Instances.
- Bancos de dados, incluindo nome e descrição.
- Tabelas, incluindo nome, descrição e esquema (colunas com descrições).
Veja na tabela a seguir o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:
Recurso metastore do Dataproc | Recurso do Data Catalog |
---|---|
Instância | Entrada no grupo Entrada |
Banco de dados | Entrada |
Tabela | Entrada |
Coluna | Esquema |
Considerações
Pode levar até seis horas para que os metadados do Dataproc Metastore sejam totalmente sincronizados com o Data Catalog. Depois que a sincronização inicial é concluída, as mudanças incrementais são sincronizadas sob demanda (como atualizações de tabela ou banco de dados). Se uma sincronização sob demanda falhar, ela será incluída em uma nova execução de lote que ocorre a cada 6 horas.
Se você suspeitar que há um problema com a sincronização, verifique os registros de publicação de metadados no Cloud Logging do metastore do Dataproc com o filtro
textPayload=~".*Publish.*"
. Para mais informações sobre como acessar registros, consulte Acessar registros de job no Logging.Se você desativar a sincronização do Data Catalog, os metadados vão parar de ser sincronizados do Metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.
Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.
Os metadados do metastore do Dataproc armazenados no Data Catalog seguem os períodos de retenção padrão do Google Cloud.
Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.
Criar um serviço com a sincronização do Data Catalog ativada
A sincronização do Data Catalog está desativada por padrão.
Para ativar a sincronização do Data Catalog para um novo serviço, siga estas instruções.
Console
No console do Google Cloud, abra a página Metastore do Dataproc:
Na parte de cima da página Metastore do Dataproc, clique em Criar.
A página Criar serviço é aberta.
Selecione a versão do Metastore do Dataproc que você quer usar.
Em Integração de metadados, clique em Sincronização do Data Catalog.
Para as demais opções de configuração do serviço, use os padrões fornecidos. Ou configure o serviço conforme necessário.
Clique em Enviar.
Ativar ou desativar a sincronização do Data Catalog para um serviço atual
Para ativar ou desativar a sincronização do Data Catalog para um serviço atual, use as instruções a seguir.
Console
No console do Google Cloud, abra a página Metastore do Dataproc:
Na página Metastore do Dataproc, clique no serviço que você quer atualizar.
A página Detalhes do serviço desse serviço é aberta.
Na guia Configuração, clique em Editar.
A página Editar serviço é aberta.
Em Integração de metadados, ative ou desative a Sincronização do Data Catalog.
Clique em Enviar.
Pesquisar com o Data Catalog
Você pode pesquisar metadados sincronizados do Metastore do Dataproc usando o Data Catalog.
Não há opções personalizadas de pesquisa para o metastore do Dataproc, mas existem várias maneiras de procurar diferentes recursos do metastore do Dataproc, incluindo:
- Instância do metastore do Dataproc
- Por nome de exibição
- Funções padrão do Data Catalog, por exemplo, usando tags.
- Banco de dados
- Por nome de exibição
- Por descrição
- Por instância do metastore do Dataproc
- Funções padrão do Data Catalog, por exemplo, usando tags.
- Tabela
- Por nome de exibição
- Por descrição
- Por nome da coluna
- Por descrição de coluna
- Por banco de dados
- Por instância do metastore do Dataproc
- Funções padrão do Data Catalog, por exemplo, usando tags.