Neste documento, mostramos como sincronizar os metadados do metastore do Dataproc com o Data Catalog.
Depois de sincronizar esses dois serviços, você poderá usar o Data Catalog para gerenciar os metadados do metastore do Dataproc. Por exemplo, com o Data Catalog, é possível marcar e pesquisar recursos específicos do metastore do Dataproc, como bancos de dados e tabelas.
O que é o Data Catalog
O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável. Ele oferece mecanismos unificados de visualização e inclusão de tags para metadados técnicos e comerciais.
Para mais informações, consulte os seguintes guias de recursos do Data Catalog:
Antes de começar
Funções exigidas
Para ter as permissões necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog, faça o seguinte:
peça ao administrador para conceder a você
Visualizar entradas sincronizadas do Dataproc Metastore no Data Catalog (roles/metastore.metadataViewer
) no projeto, com base no princípio de privilégio mínimo.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém as permissões necessárias para sincronizar os metadados do Dataproc Metastore com o Data Catalog. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para sincronizar os metadados do metastore do Dataproc com o Data Catalog:
-
Para acessar os bancos de dados do Dataproc Metastore:
metastore.databases.get
-
Para listar bancos de dados do metastore do Dataproc:
metastore.databases.list
-
Para receber tabelas do metastore do Dataproc:
metastore.tables.get
-
Para listar as tabelas do Dataproc Metastore:
metastore.tables.list
Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Para mais informações sobre permissões e papéis específicos do metastore do Dataproc, consulte Gerenciar acesso com o IAM.Como funcionam as permissões entre os serviços
O Data Catalog segue as permissões no nível metastore do Dataproc. Para metadados sincronizados do Metastore do Dataproc para o Data Catalog, as permissões do IAM especificadas no Metastore do Dataproc também se aplicam aos metadados no Data Catalog.
O Data Catalog verifica as permissões de cada metastore e uma tabela no momento do acesso, para que apenas os usuários com acesso ao O serviço do Dataproc Metastore pode conferir o serviço sincronizado recursos como entradas no Data Catalog.
Como a sincronização do Data Catalog funciona com o Metastore do Dataproc
É possível ativar o metastore do Dataproc no Data Catalog sincronizar ao criar ou atualizar um serviço do metastore do Dataproc usando no console do Google Cloud. É possível desativar a sincronização da mesma forma.
Depois de ativar a sincronização do Data Catalog, os metadados do banco de dados e da tabela são sincronizados automaticamente do metastore do Dataproc para o Data Catalog.
O Data Catalog sincroniza os seguintes metadados:
- Instances.
- Bancos de dados, incluindo nome e descrição.
- Tabelas, incluindo nome, descrição e esquema (colunas com descrições).
Veja na tabela a seguir o mapeamento de recursos entre o metastore do Dataproc e o Data Catalog:
Recurso metastore do Dataproc | Recurso do Data Catalog |
---|---|
Instância | Entrada no grupo Entrada |
Banco de dados | Entrada |
Tabela | Entrada |
Coluna | Esquema |
Considerações
Pode levar até seis horas para que seu metastore do Dataproc os metadados são totalmente sincronizados com o Data Catalog. Após a inicial for concluída, as alterações incrementais serão sincronizadas sob demanda (como tabelas ou do banco de dados). Se uma sincronização sob demanda falhar, ela será incluída em um lote que ocorre a cada seis horas.
Se você suspeitar que há um problema com a sincronização, verifique os metadados publicar registros no Cloud Logging do metastore do Dataproc com o filtro
textPayload=~".*Publish.*"
. Para mais informações sobre como acessar registros, consulte Acessar registros de job no Logging.Se você desativar a sincronização do Data Catalog, os metadados vão parar de ser sincronizados do Metastore do Dataproc para o Data Catalog. No entanto, os metadados que já estavam sincronizados permanecem no Data Catalog.
Se você excluir uma instância do metastore do Dataproc, as entradas correspondentes de instância, banco de dados e tabela também serão removidas do Data Catalog.
Metadados do metastore do Dataproc armazenados no Data Catalog adere aos períodos de retenção padrão do Google Cloud.
Não há custos extras para ativar a sincronização do Data Catalog para o metastore do Dataproc.
Criar um serviço com a sincronização do Data Catalog ativada
A sincronização do Data Catalog está desativada por padrão.
Para ativar a sincronização do Data Catalog para um novo serviço, siga estas instruções.
Console
No console do Google Cloud, abra a página do metastore do Dataproc:
Na parte superior da página Metastore do Dataproc, clique em Criar.
A página Criar serviço é aberta.
Selecione a versão do Metastore do Dataproc que você quer usar.
Em Integração de metadados, clique em Sincronização do Data Catalog.
Para as demais opções de configuração de serviço, use os padrões fornecidos. Ou configure seu serviço conforme necessário.
Clique em Enviar.
Ativar ou desativar a sincronização do Data Catalog para um serviço atual
Para ativar ou desativar a sincronização do Data Catalog para um serviço atual, faça o seguinte: siga as instruções abaixo.
Console
No console do Google Cloud, abra a página Metastore do Dataproc:
Na página Metastore do Dataproc, clique no serviço que você quer atualizar.
A página Detalhes do serviço desse serviço é aberta.
Na guia Configuration, clique em Edit.
A página Editar serviço é aberta.
Em Integração de metadados, ative ou desative a Sincronização do Data Catalog.
Clique em Enviar.
Pesquisar com o Data Catalog
Você pode pesquisar metadados sincronizados do metastore do Dataproc usando o Data Catalog.
Embora não existam opções de pesquisa personalizadas para o metastore do Dataproc, existem várias maneiras de pesquisar diferentes metastore do Dataproc recursos, incluindo:
- Instância do metastore do Dataproc
- Por nome de exibição
- Funções padrão do Data Catalog, por exemplo, usando tags
- Banco de dados
- Por nome de exibição
- Por descrição
- Por instância do metastore do Dataproc
- Funções padrão do Data Catalog, por exemplo, usando tags.
- Tabela
- Por nome de exibição
- Por descrição
- Por nome da coluna
- Por descrição de coluna
- Por banco de dados
- Por instância do metastore do Dataproc
- Funções padrão do Data Catalog, por exemplo, usando tags.