Este documento mostra como sincronizar metadados do Dataproc Metastore com o Data Catalog.
Depois de sincronizar estes dois serviços, pode usar o Data Catalog para gerir os metadados do Dataproc Metastore. Por exemplo, ao usar o Data Catalog, pode etiquetar e pesquisar recursos específicos do Dataproc Metastore, como bases de dados e tabelas.
O que é o Data Catalog
O Data Catalog é um serviço de gestão de metadados escalável e totalmente gerido. Oferece uma vista unificada e mecanismos de etiquetagem para metadados técnicos e empresariais.
Para mais informações, consulte os seguintes guias de funcionalidades do catálogo de dados:
Antes de começar
Funções necessárias
Para receber as autorizações de que
precisa para sincronizar os metadados do Dataproc Metastore com o Data Catalog,
peça ao seu administrador para lhe conceder a função de IAM
Ver entradas sincronizadas do Dataproc Metastore no Data Catalog (roles/metastore.metadataViewer
)
no seu projeto, com base no princípio do menor privilégio.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Esta função predefinida contém as autorizações necessárias para sincronizar os metadados do Dataproc Metastore com o Data Catalog. Para ver as autorizações exatas que são necessárias, expanda a secção Autorizações necessárias:
Autorizações necessárias
São necessárias as seguintes autorizações para sincronizar metadados do Dataproc Metastore com o Data Catalog:
-
Para obter bases de dados do Dataproc Metastore:
metastore.databases.get
-
Para listar bases de dados do Dataproc Metastore:
metastore.databases.list
-
Para obter tabelas do Dataproc Metastore:
metastore.tables.get
-
Para listar tabelas do Dataproc Metastore:
metastore.tables.list
Também pode conseguir estas autorizações com funções personalizadas ou outras funções predefinidas.
Para mais informações sobre as funções e as autorizações específicas do Dataproc Metastore, consulte o artigo Faça a gestão do acesso com o IAM.Como funcionam as autorizações entre os serviços
O Data Catalog cumpre as autorizações ao nível do Dataproc Metastore. Para metadados sincronizados do Dataproc Metastore para o Data Catalog, as autorizações da IAM especificadas no Dataproc Metastore também se aplicam aos metadados no Data Catalog.
O Data Catalog verifica as autorizações de cada base de dados e tabela do metastore no momento do acesso, para que apenas os utilizadores com acesso ao serviço Dataproc Metastore possam ver os recursos do serviço sincronizados como entradas no Data Catalog.
Como funciona a sincronização do Data Catalog com o Dataproc Metastore
Pode ativar a sincronização do Dataproc Metastore com o Data Catalog quando cria ou atualiza um serviço do Dataproc Metastore através da Google Cloud consola. Pode desativar a sincronização da mesma forma.
Depois de ativar a sincronização do Data Catalog, os metadados da base de dados e da tabela são sincronizados automaticamente do Dataproc Metastore para o Data Catalog.
O Data Catalog sincroniza os seguintes metadados:
- Instâncias.
- Bases de dados, incluindo o nome e a descrição.
- Tabelas, incluindo o nome, a descrição e o esquema (colunas com descrições).
A tabela seguinte mostra o mapeamento de recursos entre o Dataproc Metastore e o Data Catalog:
Recurso do Dataproc Metastore | Recurso do Data Catalog |
---|---|
Instância | Grupo de entradas Entrada |
Bases de dados | Entrada |
Tabela | Entrada |
Coluna | Esquema |
Considerações
Os metadados do Dataproc Metastore podem demorar até 6 horas a serem totalmente sincronizados com o Data Catalog. Após a sincronização inicial, as alterações incrementais são sincronizadas a pedido (como atualizações de tabelas ou bases de dados). Se uma sincronização a pedido falhar, a sincronização é incluída numa nova execução em lote que ocorre a cada 6 horas.
Se suspeitar que existe um problema com a sincronização, verifique os registos de publicação de metadados no Cloud Logging do Dataproc Metastore com o filtro
textPayload=~".*Publish.*"
. Para mais informações sobre o acesso aos registos, consulte o artigo Aceda aos registos de tarefas no Logging.Se desativar a sincronização do catálogo de dados, os metadados deixam de ser sincronizados do Dataproc Metastore para o catálogo de dados. No entanto, os metadados já sincronizados permanecem no catálogo de dados.
Se eliminar uma instância do Dataproc Metastore, as entradas de instância, base de dados e tabela correspondentes também são removidas do Data Catalog.
Os metadados do Dataproc Metastore armazenados no Data Catalog cumprem os Google Cloud períodos de retenção padrão.
Não existem custos adicionais para ativar a sincronização do Data Catalog para o Dataproc Metastore.
Crie um serviço com a sincronização do catálogo de dados ativada
A sincronização do catálogo de dados está desativada por predefinição.
Para ativar a sincronização do catálogo de dados para um novo serviço, siga as instruções abaixo.
Consola
Na Google Cloud consola, abra a página Dataproc Metastore:
Na parte superior da página Dataproc Metastore, clique em Criar.
É apresentada a página Criar serviço.
Selecione a versão do Dataproc Metastore que quer usar.
Em Integração de metadados, clique em Sincronização do catálogo de dados.
Para as restantes opções de configuração do serviço, use as predefinições fornecidas. Em alternativa, configure o serviço conforme necessário.
Clique em Enviar.
Ative ou desative a sincronização do catálogo de dados para um serviço existente
Para ativar ou desativar a sincronização do catálogo de dados para um serviço existente, siga estas instruções.
Consola
Na Google Cloud consola, abra a página Dataproc Metastore:
Na página Dataproc Metastore, clique no serviço que quer atualizar.
É apresentada a página Detalhes do serviço desse serviço.
No separador Configuração, clique em Editar.
É apresentada a página Editar serviço.
Em Integração de metadados, ative ou desative a opção Sincronização do Data Catalog.
Clique em Enviar.
Pesquise com o Data Catalog
Pode pesquisar metadados do Dataproc Metastore sincronizados através do Data Catalog.
Embora não existam opções de pesquisa personalizadas para o Dataproc Metastore, existem várias formas de pesquisar diferentes recursos do Dataproc Metastore, incluindo as seguintes:
- Instância do Dataproc Metastore
- Por nome a apresentar
- Funções padrão do catálogo de dados, por exemplo, através da utilização de etiquetas.
- Base de dados
- Por nome a apresentar
- Por descrição
- Por instância do Dataproc Metastore
- Funções padrão do catálogo de dados, por exemplo, através da utilização de etiquetas.
- Tabela
- Por nome a apresentar
- Por descrição
- Pelo nome da coluna
- Pela descrição da coluna
- Por base de dados
- Por instância do Dataproc Metastore
- Funções padrão do catálogo de dados, por exemplo, através da utilização de etiquetas.